Ga naar hoofdinhoud

Cursus

Reinforcement Learning from Human Feedback (RLHF)

GevorderdVaardigheidsniveau

Bijgewerkt 10-2024

Leer hoe je GenAI-modellen echt menselijke waarden kunt laten weerspiegelen en doe tegelijkertijd praktische ervaring op met geavanceerde LLM's.

Start Cursus Kosteloos

PythonArtificial Intelligence

4 u

13 videos

38 Opdrachten

2,900 XP

3,670

Bewijs van Prestatie

Geliefd bij leerlingen van duizenden bedrijven

Een team trainen?

Probeer voor bedrijven

Cursusbeschrijving

Combineer de efficiëntie van Generatieve AI met de inzichten van menselijke expertise in deze cursus over Reinforcement Learning from Human Feedback. Je leert GenAI-modellen echt laten aansluiten bij menselijke waarden en voorkeuren, terwijl je praktisch aan de slag gaat met LLM’s. Ook navigeer je door de complexiteit van beloningsmodellen en leer je hoe je voortbouwt op LLM’s om AI te maken die niet alleen leert, maar zich ook aanpast aan situaties uit de echte wereld.

Vereisten

Deep Reinforcement Learning in Python

1

Fundamentele concepten

Dit hoofdstuk behandelt de basis van Reinforcement Learning with Human Feedback (RLHF), een techniek die menselijk input gebruikt om AI-modellen effectiever te laten leren. Begin met RLHF door te begrijpen hoe het verschilt van traditionele reinforcement learning en waarom menselijke feedback de prestaties van AI in uiteenlopende domeinen kan verbeteren.

Introductie tot RLHF

Tekstgeneratie met RLHF

Gegenereerde tekst classificeren voor RLHF

RL vs. RLHF

Voorgetrainde LLM's verkennen

Tokenizeer een tekstgegevensset

Fine-tunen voor reviewclassificatie

Data voorbereiden voor RLHF

De voorkeursgegevensset voorbereiden

Prompts extraheren

Hoofdstuk beginnen

2

Menselijke feedback verzamelen

Ontdek in dit hoofdstuk hoe je systemen opzet om menselijke feedback te verzamelen. Leer best practices voor het verzamelen van hoogwaardige data, van paargewijze vergelijkingen tot uncertainty sampling, en verken strategieën om je dataverzameling te versterken.

Methoden om feedback van hoge kwaliteit te verzamelen

Vergelijking en beoordeling in RLHF begrijpen

Slogans vergelijken voor een sportschoolcampagne

De kwaliteit en relevantie van feedback meten

Laag vertrouwen

K-means voor het clusteren van feedback

Actief leren

Een active learning-pijplijn implementeren

Active learning-loop

Hoofdstuk beginnen

3

Modellen afstemmen met menselijke feedback

In dit hoofdstuk duik je in de kern van trainen met Reinforcement Learning from Human Feedback. Je verkent fine-tuning met PPO, technieken voor efficiënt trainen en hoe je mogelijke afwijkingen van de doelstellingen van je metriek aanpakt.

Rewardmodellen onder de loep

De beloning initialiseren

De reward trainer instellen

Trainen met PPO

Initialiseer de PPO-trainer

PPO-finetuning

Efficiënt fine-tunen in RLHF

Voorbereiden op 8-bit-training

Trainen met LoRA

Hoofdstuk beginnen

4

Modelbeoordeling

Verken in dit laatste hoofdstuk van Reinforcement Learning from Human Feedback (RLHF) belangrijke technieken om modelprestaties te beoordelen en te verbeteren: van het verfijnen van metriek tot het integreren van diverse feedbackbronnen. Je krijgt een complete gereedschapskist om je modellen effectief te finetunen.

Modelmetingen en bijsturing

Negatieve KL-divergentie beperken

Het rewardmodel controleren

Diverse feedbackbronnen integreren

Meerderheidsstemming over meerdere databronnen

Onbetrouwbare gegevensbron identificeren

RLHF-modellen evalueren

Curves interpreteren

RLHF evalueren met metriek

Afronding van je RLHF-reis

Hoofdstuk beginnen

Reinforcement Learning from Human Feedback (RLHF)

Cursus
voltooid

Verdien een prestatieverklaring

Voeg deze referentie toe aan je LinkedIn-profiel, cv of curriculum vitae
Deel het op sociale media en in je functioneringsgesprekSchrijf je nu in

Sluit je aan bij meer dan 19 miljoen leerlingen en start vandaag nog met Reinforcement Learning from Human Feedback (RLHF)!

Ontwikkel je datavaardigheden met DataCamp voor Mobiel

Maak vooruitgang onderweg met onze mobiele cursussen en dagelijkse 5-minuten programmeeruitdagingen.