Ga naar hoofdinhoud
HomePython

Cursus

Reinforcement Learning from Human Feedback (RLHF)

GevorderdVaardigheidsniveau
Bijgewerkt 10-2024
Leer hoe je GenAI-modellen echt menselijke waarden kunt laten weerspiegelen en doe tegelijkertijd praktische ervaring op met geavanceerde LLM's.
Start Cursus Kosteloos
PythonArtificial Intelligence
4 u
13 videos
38 Opdrachten
2,900 XP
3,670
Bewijs van Prestatie

Maak je kosteloos account aan

Ga verder met GoogleMeer opties weergeven

of


Door verder te gaan accepteer je onze Gebruiksvoorwaarden, ons Privacybeleid en dat je gegevens worden opgeslagen in de VS.

Geliefd bij leerlingen van duizenden bedrijven

Group

Een team trainen?

Probeer voor bedrijven

Cursusbeschrijving

Combineer de efficiëntie van Generatieve AI met de inzichten van menselijke expertise in deze cursus over Reinforcement Learning from Human Feedback. Je leert GenAI-modellen echt laten aansluiten bij menselijke waarden en voorkeuren, terwijl je praktisch aan de slag gaat met LLM’s. Ook navigeer je door de complexiteit van beloningsmodellen en leer je hoe je voortbouwt op LLM’s om AI te maken die niet alleen leert, maar zich ook aanpast aan situaties uit de echte wereld.

Vereisten

Deep Reinforcement Learning in Python
1

Fundamentele concepten

Dit hoofdstuk behandelt de basis van Reinforcement Learning with Human Feedback (RLHF), een techniek die menselijk input gebruikt om AI-modellen effectiever te laten leren. Begin met RLHF door te begrijpen hoe het verschilt van traditionele reinforcement learning en waarom menselijke feedback de prestaties van AI in uiteenlopende domeinen kan verbeteren.
Hoofdstuk beginnen
2

Menselijke feedback verzamelen

Ontdek in dit hoofdstuk hoe je systemen opzet om menselijke feedback te verzamelen. Leer best practices voor het verzamelen van hoogwaardige data, van paargewijze vergelijkingen tot uncertainty sampling, en verken strategieën om je dataverzameling te versterken.
Hoofdstuk beginnen
3

Modellen afstemmen met menselijke feedback

In dit hoofdstuk duik je in de kern van trainen met Reinforcement Learning from Human Feedback. Je verkent fine-tuning met PPO, technieken voor efficiënt trainen en hoe je mogelijke afwijkingen van de doelstellingen van je metriek aanpakt.
Hoofdstuk beginnen
4

Modelbeoordeling

Verken in dit laatste hoofdstuk van Reinforcement Learning from Human Feedback (RLHF) belangrijke technieken om modelprestaties te beoordelen en te verbeteren: van het verfijnen van metriek tot het integreren van diverse feedbackbronnen. Je krijgt een complete gereedschapskist om je modellen effectief te finetunen.
Hoofdstuk beginnen
Reinforcement Learning from Human Feedback (RLHF)
Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprek
Schrijf je nu in

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Reinforcement Learning from Human Feedback (RLHF)!

Maak je kosteloos account aan

Ga verder met GoogleMeer opties weergeven

of


Door verder te gaan accepteer je onze Gebruiksvoorwaarden, ons Privacybeleid en dat je gegevens worden opgeslagen in de VS.

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.