Chuyển đến nội dung chính

Trang chủ Python

Khóa học

Reinforcement Learning from Human Feedback (RLHF)

Nâng caoTrình độ kỹ năng

Đã cập nhật tháng 10, 2024

Tìm hiểu cách làm cho các mô hình GenAI thực sự phản ánh các giá trị của con người đồng thời trải nghiệm thực hành với các LLM tiên tiến.

Bắt Đầu Khóa Học Miễn Phí

PythonArtificial Intelligence

4 gio

13 video

38 Bài tập

2,900 XP

3,673

Giấy chứng nhận Thành tích

Được người học tại hàng ngàn công ty yêu thích

Đào tạo một đội ngũ?

Dùng thử cho Doanh nghiệp

Mô tả khóa học

Kết hợp hiệu quả của Generative AI với hiểu biết từ chuyên gia con người trong khóa học về Reinforcement Learning from Human Feedback này. Bạn sẽ học cách giúp các mô hình GenAI phản ánh đúng các giá trị và sở thích của con người, đồng thời thực hành trực tiếp với LLM. Bạn cũng sẽ tìm hiểu sự phức tạp của các mô hình phần thưởng và cách xây dựng trên nền tảng LLM để tạo ra AI không chỉ học mà còn thích ứng với các tình huống thực tế.

Điều kiện tiên quyết

Deep Reinforcement Learning in Python

1

Các khái niệm nền tảng

Chương này giới thiệu những điều cơ bản về Reinforcement Learning with Human Feedback (RLHF), một kỹ thuật sử dụng đầu vào của con người để giúp mô hình AI học hiệu quả hơn. Bắt đầu với RLHF bằng cách hiểu cách nó khác với học tăng cường truyền thống và vì sao phản hồi của con người có thể nâng cao hiệu suất AI trong nhiều lĩnh vực.

Giới thiệu về RLHF

Sinh văn bản với RLHF

Phân loại văn bản sinh ra cho RLHF

RL vs. RLHF

Khám phá các LLM được huấn luyện sẵn

Token hóa một tập dữ liệu văn bản

Fine-tuning để phân loại đánh giá

Chuẩn bị dữ liệu cho RLHF

Chuẩn bị tập dữ liệu ưu tiên

Trích xuất prompt

Bắt Đầu Chương

2

Thu thập phản hồi từ con người

Khám phá cách thiết lập hệ thống để thu thập phản hồi của con người trong Chương này. Tìm hiểu các phương pháp hay nhất để thu thập dữ liệu chất lượng cao, từ so sánh cặp đôi đến lấy mẫu theo độ bất định, và khám phá các chiến lược để tăng cường hoạt động thu thập dữ liệu của bạn.

Phương pháp thu thập phản hồi chất lượng cao

Hiểu về so sánh và chấm điểm trong RLHF

So sánh khẩu hiệu cho chiến dịch phòng gym

Đo lường chất lượng và mức độ liên quan của phản hồi

Độ tự tin thấp

K-means để phân cụm phản hồi

Active learning

Triển khai một pipeline active learning

Vòng lặp active learning

Bắt Đầu Chương

3

Điều chỉnh mô hình bằng phản hồi của con người

Trong Chương này, bạn sẽ đi vào phần cốt lõi của quá trình huấn luyện Reinforcement Learning from Human Feedback. Nội dung bao gồm tìm hiểu fine-tuning với PPO, các kỹ thuật huấn luyện hiệu quả, và cách xử lý khả năng lệch khỏi mục tiêu của các thước đo.

Khám phá các mô hình thưởng

Khởi tạo reward

Thiết lập reward trainer

Huấn luyện với PPO

Khởi tạo PPO trainer

Fine-tune bằng PPO

Tinh chỉnh hiệu quả trong RLHF

Chuẩn bị cho huấn luyện 8-bit

Huấn luyện với LoRA

Bắt Đầu Chương

4

Đánh giá mô hình

Khám phá các kỹ thuật chủ chốt để đánh giá và cải thiện hiệu suất mô hình trong Chương cuối của Reinforcement Learning from Human Feedback (RLHF): từ tinh chỉnh thước đo đến tích hợp nhiều nguồn phản hồi, bạn sẽ có một bộ công cụ toàn diện để tối ưu mô hình một cách hiệu quả.

Chỉ số mô hình và điều chỉnh

Giảm thiểu phân kỳ KL âm

Kiểm tra reward model

Kết hợp nhiều nguồn phản hồi đa dạng

Bỏ phiếu đa số trên nhiều nguồn dữ liệu

Nhận diện nguồn dữ liệu không đáng tin cậy

Đánh giá các mô hình RLHF

Diễn giải các đường cong

Đánh giá RLHF bằng các thước đo

Khép lại hành trình RLHF của bạn

Bắt Đầu Chương

Reinforcement Learning from Human Feedback (RLHF)

Hoàn
Thành

Nhận Giấy Chứng Nhận Hoàn Thành

Thêm chứng chỉ này vào hồ sơ LinkedIn, CV hoặc sơ yếu lý lịch của ban
Chia sẻ trên mạng xã hội và trong đánh giá hiệu suất của banĐăng ký ngay

Tham gia cùng hơn 19 triệu học viên và bắt đầu Reinforcement Learning from Human Feedback (RLHF) ngay hôm nay!

Phát triển kỹ năng dữ liệu với DataCamp cho thiết bị di động

Tiến bộ mọi lúc mọi nơi với các khóa học cho thiết bị di động và thử thách lập trình 5 phút hằng ngày.