Chuyển đến nội dung chính
Trang chủPython

Khóa học

Reinforcement Learning from Human Feedback (RLHF)

Nâng caoTrình độ kỹ năng
Đã cập nhật tháng 10, 2024
Tìm hiểu cách làm cho các mô hình GenAI thực sự phản ánh các giá trị của con người đồng thời trải nghiệm thực hành với các LLM tiên tiến.
Bắt Đầu Khóa Học Miễn Phí
PythonArtificial Intelligence
4 gio
13 video
38 Bài tập
2,900 XP
3,673
Giấy chứng nhận Thành tích

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Được người học tại hàng ngàn công ty yêu thích

Group

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Kết hợp hiệu quả của Generative AI với hiểu biết từ chuyên gia con người trong khóa học về Reinforcement Learning from Human Feedback này. Bạn sẽ học cách giúp các mô hình GenAI phản ánh đúng các giá trị và sở thích của con người, đồng thời thực hành trực tiếp với LLM. Bạn cũng sẽ tìm hiểu sự phức tạp của các mô hình phần thưởng và cách xây dựng trên nền tảng LLM để tạo ra AI không chỉ học mà còn thích ứng với các tình huống thực tế.

Điều kiện tiên quyết

Deep Reinforcement Learning in Python
1

Các khái niệm nền tảng

Chương này giới thiệu những điều cơ bản về Reinforcement Learning with Human Feedback (RLHF), một kỹ thuật sử dụng đầu vào của con người để giúp mô hình AI học hiệu quả hơn. Bắt đầu với RLHF bằng cách hiểu cách nó khác với học tăng cường truyền thống và vì sao phản hồi của con người có thể nâng cao hiệu suất AI trong nhiều lĩnh vực.
Bắt Đầu Chương
2

Thu thập phản hồi từ con người

Khám phá cách thiết lập hệ thống để thu thập phản hồi của con người trong Chương này. Tìm hiểu các phương pháp hay nhất để thu thập dữ liệu chất lượng cao, từ so sánh cặp đôi đến lấy mẫu theo độ bất định, và khám phá các chiến lược để tăng cường hoạt động thu thập dữ liệu của bạn.
Bắt Đầu Chương
3

Điều chỉnh mô hình bằng phản hồi của con người

Trong Chương này, bạn sẽ đi vào phần cốt lõi của quá trình huấn luyện Reinforcement Learning from Human Feedback. Nội dung bao gồm tìm hiểu fine-tuning với PPO, các kỹ thuật huấn luyện hiệu quả, và cách xử lý khả năng lệch khỏi mục tiêu của các thước đo.
Bắt Đầu Chương
4

Đánh giá mô hình

Khám phá các kỹ thuật chủ chốt để đánh giá và cải thiện hiệu suất mô hình trong Chương cuối của Reinforcement Learning from Human Feedback (RLHF): từ tinh chỉnh thước đo đến tích hợp nhiều nguồn phản hồi, bạn sẽ có một bộ công cụ toàn diện để tối ưu mô hình một cách hiệu quả.
Bắt Đầu Chương
Reinforcement Learning from Human Feedback (RLHF)
Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của ban
Đăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Reinforcement Learning from Human Feedback (RLHF) ngay hôm nay!

Tạo Tài Khoản Miễn Phí

Tiếp tục với GoogleHiển thị thêm tùy chọn

hoặc


Bằng cách tiếp tục, bạn chấp nhận Điều khoản sử dụng, Chính sách bảo mật và việc dữ liệu của bạn được lưu trữ tại Hoa Kỳ.

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.