メインコンテンツへスキップ
ホームPython

コース

人間のフィードバックによる強化学習(RLHF)

上級スキルレベル
更新日 2024/10
人間の価値観を正確に反映するGenAIの作り方を学び、先進的なLLMで実践スキルを身につけましょう。
コースを無料で開始
PythonArtificial Intelligence
4時間
13 ビデオ
38 演習
2,900 XP
3,664
修了証明書

無料アカウントを作成

Googleで続行その他のオプションを表示

または


続行すると、弊社の利用規約プライバシーポリシーに同意し、データが米国に保存されることに同意したことになります。

何千もの企業の従業員が支持

Group

チームのトレーニングを担当していますか?

Businessをお試しください

コース説明

このコースでは、生成AIの効率性と人間の専門知識の理解を組み合わせた、人間のフィードバックによる強化学習(RLHF)を学びます。GenAIモデルが人間の価値観や好みを的確に反映する方法を理解し、LLMを用いた実践も行います。報酬モデルの複雑さを把握し、LLMを基盤に現実世界に適応できるAIを構築する手法を身につけます。

前提条件

Deep Reinforcement Learning in Python
1

Foundational Concepts

This chapter introduces the basics of Reinforcement Learning with Human Feedback (RLHF), a technique that uses human input to help AI models learn more effectively. Get started with RLHF by understanding how it differs from traditional reinforcement learning and why human feedback can enhance AI performance in various domains.
チャプターを開始
2

Gathering Human Feedback

Discover how to set up systems for gathering human feedback in this Chapter. Learn best practices for collecting high-quality data, from pairwise comparisons to uncertainty sampling, and explore strategies for enhancing your data collection.
3

Tuning Models with Human Feedback

In this Chapter, you'll get into the core of Reinforcement Learning from Human Feedback training. This includes exploring fine-tuning with PPO, techniques to train efficiently, and handling potential divergences from your metrics' objectives.
4

Model Evaluation

Explore key techniques for assessing and improving model performance in this last Chapter of Reinforcement Learning from Human Feedback (RLHF): from fine-tuning metrics to incorporating diverse feedback sources, you'll be provided with a comprehensive toolkit to refine your models effectively.
人間のフィードバックによる強化学習(RLHF)
コース完了

修了証明書を取得

この修了書をLinkedInや履歴書、CVに追加しましょう
ソーシャルメディアや人事評価で共有しましょう
今すぐ登録

19百万人を超える学習者と共に人間のフィードバックによる強化学習(RLHF)を始めましょう!

無料アカウントを作成

Googleで続行その他のオプションを表示

または


続行すると、弊社の利用規約プライバシーポリシーに同意し、データが米国に保存されることに同意したことになります。

DataCamp for Mobileでデータスキルを磨きましょう

モバイル コースと毎日の 5 分間のコーディング チャレンジで、外出先でも進歩できます。