Przejdź do głównej treści
Strona głównaPython

Kurs

Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

ZaawansowanyPoziom umiejętności
Zaktualizowano 10.2024
Naucz się, jak sprawić, by modele GenAI naprawdę odzwierciedlały ludzkie wartości, zdobywając praktyczne doświadczenie z zaawansowanymi LLM.
Zacznij kurs za darmo
PythonArtificial Intelligence
4 godz.
13 filmów
38 Ćwiczeń
2,900 XP
3,664
Zaświadczenie o ukończeniu

Utwórz bezpłatne konto

Kontynuuj z GooglePokaż więcej opcji

lub


Kontynuując, akceptujesz nasze Warunki korzystania, naszą Politykę prywatności oraz to, że Twoje dane są przechowywane w USA.

Uwielbiany przez kursantów z tysięcy firm

Group

Szkolisz zespół?

Wypróbuj dla firm

Opis kursu

Połącz efektywność generatywnej sztucznej inteligencji z wiedzą ekspercką człowieka w tym kursie poświęconym uczeniu przez wzmacnianie z informacją zwrotną od człowieka. Dowiesz się, jak sprawić, by modele generatywnej SI naprawdę odzwierciedlały ludzkie wartości i preferencje, a przy tym zdobędziesz praktyczne doświadczenie z dużymi modelami językowymi. Poznasz też zawiłości modeli nagrody i nauczysz się rozwijać LLM-y tak, by tworzyć SI, która nie tylko się uczy, ale też dostosowuje do rzeczywistych scenariuszy.

Wymagania wstępne

Deep Reinforcement Learning in Python
1

Foundational Concepts

This chapter introduces the basics of Reinforcement Learning with Human Feedback (RLHF), a technique that uses human input to help AI models learn more effectively. Get started with RLHF by understanding how it differs from traditional reinforcement learning and why human feedback can enhance AI performance in various domains.
Zacznij rozdział
2

Gathering Human Feedback

Discover how to set up systems for gathering human feedback in this Chapter. Learn best practices for collecting high-quality data, from pairwise comparisons to uncertainty sampling, and explore strategies for enhancing your data collection.
Zacznij rozdział
3

Tuning Models with Human Feedback

In this Chapter, you'll get into the core of Reinforcement Learning from Human Feedback training. This includes exploring fine-tuning with PPO, techniques to train efficiently, and handling potential divergences from your metrics' objectives.
Zacznij rozdział
4

Model Evaluation

Explore key techniques for assessing and improving model performance in this last Chapter of Reinforcement Learning from Human Feedback (RLHF): from fine-tuning metrics to incorporating diverse feedback sources, you'll be provided with a comprehensive toolkit to refine your models effectively.
Zacznij rozdział
Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)
Kurs
ukończony

Zdobądź zaświadczenie o ukończeniu

Dodaj to poświadczenie do swojego profilu LinkedIn, CV lub życiorysu
Udostępnij to w mediach społecznościowych i podczas oceny wyników pracy
Zapisz się teraz

Dołącz do ponad 19 milionów kursantów i zacznij Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF) już dziś!

Utwórz bezpłatne konto

Kontynuuj z GooglePokaż więcej opcji

lub


Kontynuując, akceptujesz nasze Warunki korzystania, naszą Politykę prywatności oraz to, że Twoje dane są przechowywane w USA.

Rozwijaj swoje umiejętności w zakresie danych dzięki DataCamp dla urządzeń mobilnych

Rób postępy w podróży dzięki naszym kursom mobilnym i codziennym 5-minutowym wyzwaniom kodowania.