Chuyển đến nội dung chính

Trang chủ PyTorch

Khóa học

Deep Reinforcement Learning bằng Python

Nâng caoTrình độ kỹ năng

Đã cập nhật tháng 09, 2024

Bắt Đầu Khóa Học Miễn Phí

PyTorchArtificial Intelligence

4 gio

15 video

49 Bài tập

4,050 XP

5,672

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Bắt đầu hành trình giúp máy học thông minh hơn với Deep Reinforcement Learning (DRL). Khóa học này mang đến trải nghiệm thực hành với các thuật toán mạnh mẽ sử dụng PyTorch và Gymnasium. Khởi động với nền tảng DRL và Reinforcement Learning truyền thống, sau đó bạn sẽ hiện thực hóa Deep Q-Networks (DQN) kèm các cải tiến nâng cao như Prioritized Experience Replay. Nâng tầm kỹ năng với các phương pháp dựa trên policy và khám phá các thuật toán tiêu chuẩn trong ngành như Proximal Policy Optimization (PPO) trước khi tối ưu mô hình bằng Optuna.

Điều kiện tiên quyết

Intermediate Deep Learning with PyTorch Reinforcement Learning with Gymnasium in Python

1

Giới thiệu về Deep Reinforcement Learning

Khám phá cách deep reinforcement learning cải tiến so với Reinforcement Learning truyền thống, đồng thời tìm hiểu và triển khai thuật toán Deep Q Learning đầu tiên của bạn.

Giới thiệu về deep reinforcement learning

Thiết lập môi trường và mạng nơ-ron

Vòng lặp huấn luyện DRL

Giới thiệu về deep Q learning

Deep learning và DQN

Kiến trúc Q-Network

Khởi tạo Q-Network

Thuật toán DQN tối giản

Chọn hành động với DQN tối giản

Hàm mất mát DQN bản tối giản

Huấn luyện DQN bản tối giản

Bắt Đầu Chương

2

Deep Q-learning

Đi sâu vào Deep Q-learning bằng cách triển khai thuật toán DQN gốc, với Experience Replay, epsilon-greediness và fixed Q-targets. Vượt ra ngoài DQN, bạn sẽ khám phá hai phần mở rộng thú vị giúp cải thiện hiệu năng và độ ổn định của Deep Q-learning: Double DQN và Prioritized Experience Replay.

DQN với experience replay

Hàng đợi hai đầu (double-ended queue)

Bộ đệm experience replay

DQN với experience replay

Thuật toán DQN hoàn chỉnh

Epsilon-greediness

Fixed Q-targets

Hiện thực thuật toán DQN hoàn chỉnh

Mạng online và mạng target trong DDQN

Huấn luyện Double DQN

Phát lại kinh nghiệm theo mức độ ưu tiên

Bộ đệm prioritized experience replay

Lấy mẫu từ bộ đệm PER

DQN với prioritized experience replay

Bắt Đầu Chương

3

Giới thiệu về các phương pháp Policy Gradient

Tìm hiểu các khái niệm nền tảng của phương pháp policy gradient trong DRL. Bạn sẽ bắt đầu với định lý policy gradient, nền tảng của các phương pháp này. Sau đó, bạn sẽ triển khai thuật toán REINFORCE, một cách tiếp cận mạnh mẽ để học policy. Chương này sẽ hướng dẫn bạn qua các phương pháp Actor-Critic, tập trung vào thuật toán Advantage Actor-Critic (A2C), kết hợp điểm mạnh của cả policy gradient và phương pháp dựa trên giá trị để tăng hiệu quả và ổn định khi học.

Giới thiệu về policy gradient

Kiến trúc mạng policy

Làm việc với phân phối rời rạc

Policy Gradient và REINFORCE

Chọn hành động trong REINFORCE

Huấn luyện thuật toán REINFORCE

Advantage Actor-Critic

Mạng Critic

Tính toán loss của Actor–Critic

Huấn luyện thuật toán A2C

Bắt Đầu Chương

4

Proximal Policy Optimization và các mẹo DRL

Khám phá Proximal Policy Optimization (PPO) để đạt hiệu năng DRL vững chắc. Tiếp theo, bạn sẽ tìm hiểu việc dùng entropy bonus trong PPO, giúp khuyến khích khám phá bằng cách ngăn hội tụ sớm vào các policy tất định. Bạn cũng sẽ học về cập nhật theo lô (batch) trong các phương pháp policy gradient. Cuối cùng, bạn sẽ tìm hiểu cách tối ưu siêu tham số với Optuna, một công cụ mạnh mẽ để tối ưu hiệu năng cho các mô hình DRL của bạn.

Tối ưu hóa chính sách tiệm cận (Proximal Policy Optimization)

Tỷ lệ xác suất đã được kẹp (clipped)

Hàm mục tiêu surrogate có clip

Thưởng entropy và PPO

Sân chơi entropy

Huấn luyện thuật toán PPO

Cập nhật theo lô trong policy gradient

Minibatch và DRL

A2C với cập nhật theo batch

Tối ưu siêu tham số với Optuna

Siêu tham số hay không?

Thực hành với Optuna

Chúc mừng bạn!

Bắt Đầu Chương

Deep Reinforcement Learning bằng Python

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Deep Reinforcement Learning bằng Python ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.