ข้ามไปยังเนื้อหาหลัก
หน้าหลักPython

แทร็ก

การเรียนรู้แบบเสริมกำลัง ใน Python

อัปเดตแล้ว 05/2569
เชี่ยวชาญพื้นฐานของการเรียนรู้แบบเสริมกำลัง (RL) เพื่อสร้างโมเดลที่สามารถนำทางสภาพแวดล้อมจริงที่ซับซ้อนและฝึก LLMs ได้
เริ่มเรียน Track ฟรี
PythonMachine Learning
12 ชม.
4,174

สร้างบัญชีฟรีของคุณ

ดำเนินการต่อด้วย Googleแสดงตัวเลือกเพิ่มเติม

หรือ


เมื่อดำเนินการต่อ คุณยอมรับ ข้อกำหนดการใช้งาน ของเรา นโยบายความเป็นส่วนตัว ของเรา และยอมรับว่าข้อมูลของคุณจะถูกจัดเก็บในสหรัฐอเมริกา

เป็นที่รักของผู้เรียนในบริษัทหลายพันแห่ง

Group

กำลังฝึกอบรมทีม?

ลองใช้สำหรับธุรกิจ

คำอธิบายเส้นทางการเรียน

การเรียนรู้แบบเสริมกำลัง ใน Python

เชี่ยวชาญพื้นฐานของการเรียนรู้แบบเสริมกำลัง (RL) และค้นพบวิธีสร้างโมเดลเพื่อรับมือกับสภาพแวดล้อมที่ซับซ้อนซึ่งมักพบในหุ่นยนต์และวิดีโอเกมหากคุณเพิ่งเริ่มต้นกับการเรียนรู้แบบเสริมแรง หรืออยากเชี่ยวชาญการเรียนรู้แบบเสริมแรงในฐานะสาขาหนึ่งของการเรียนรู้ของเครื่อง นี่คือจุดเริ่มต้นที่เหมาะอย่างยิ่งคุณจะเริ่มต้นด้วยการเรียนรู้แนวคิดหลักของการเรียนรู้แบบเสริมกำลัง เช่น กระบวนการตัดสินใจแบบมาร์คอฟ การแลกเปลี่ยนระหว่างการสำรวจ/การใช้ประโยชน์ และอัลกอริทึมการโปรแกรมแบบไดนามิก คุณจะได้เรียนรู้การประยุกต์ใช้ Q-learning, SARSA และวิธีการอื่นๆ เพื่อสำรวจเทือกเขาและทะเลสาบน้ำแข็งจากไลบรารี Gymnasiumคุณจะผสานการเรียนรู้เชิงลึกและการเรียนรู้แบบเสริมกำลัง และค้นพบการเรียนรู้เชิงลึกแบบเสริมกำลัง ซึ่งสามารถใช้ฝึกเอเจนต์ให้สำรวจสภาพแวดล้อมที่ซับซ้อนมากได้ด้วยการกำกับดูแลเพียงเล็กน้อยระหว่างทาง คุณจะนำเทคนิคเหล่านี้ไปใช้แก้โจทย์โปรเจกต์จริง รวมถึงการปรับเส้นทางแท็กซี่ให้เหมาะสมและการจำลองการซื้อขายหุ้นด้วยเครื่องมือการเรียนรู้แบบเสริมกำลังเหล่านี้อยู่ในมือ คุณก็พร้อมที่จะเริ่มรับมือกับการประยุกต์ใช้การเรียนรู้แบบเสริมกำลังรูปแบบใหม่ที่น่าตื่นเต้น: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF) RLHF สามารถใช้เพื่อปรับปรุงผลลัพธ์ของ LLM ได้โดยการฝึกจากข้อเสนอแนะของมนุษย์ต่อการตอบสนองของมันเริ่มต้นเส้นทางการเรียนรู้แบบเสริมกำลังของคุณวันนี้!

ข้อกำหนดเบื้องต้น

ไม่มีข้อกำหนดเบื้องต้นสำหรับเส้นทางการเรียนนี้
  • Course

    1

    Reinforcement Learning with Gymnasium in Python

    Start your reinforcement learning journey! Learn how agents can learn to solve environments through interactions.

  • Project

    โบนัส

    Taxi Route Optimization with Reinforcement Learning

    Solve the Taxi-v3 environment using Q-learning, ensuring efficient AI-driven transportation.

การเรียนรู้แบบเสริมกำลัง ใน Python
3 คอร์ส
เรียนจบ
Track

รับใบรับรองความสำเร็จ

เพิ่มใบรับรองนี้ไปยังโปรไฟล์ LinkedIn เรซูเม่ หรือ CV ของคุณ
แชร์บน social media และในการรีวิวผลการปฏิบัติงานของคุณ
ลงทะเบียนทันที

ร่วมกับผู้เรียนกว่า 19 ล้านคนและเริ่มต้น การเรียนรู้แบบเสริมกำลัง ใน Python วันนี้!

สร้างบัญชีฟรีของคุณ

ดำเนินการต่อด้วย Googleแสดงตัวเลือกเพิ่มเติม

หรือ


เมื่อดำเนินการต่อ คุณยอมรับ ข้อกำหนดการใช้งาน ของเรา นโยบายความเป็นส่วนตัว ของเรา และยอมรับว่าข้อมูลของคุณจะถูกจัดเก็บในสหรัฐอเมริกา

พัฒนาทักษะด้านข้อมูลของคุณด้วย DataCamp for Mobile

พัฒนาทักษะได้ทุกที่ทุกเวลาด้วยคอร์สเรียนบนมือถือและแบบฝึกหัดเขียนโค้ดประจำวัน 5 นาทีของเรา