Vai al contenuto principale

Corso

Reinforcement Learning from Human Feedback (RLHF)

AvanzatoLivello di competenza

Aggiornato 10/2024

Scopri come fare in modo che i modelli GenAI riflettano davvero i valori umani e allo stesso tempo fai pratica con gli LLM avanzati.

Inizia il corso gratis

PythonArtificial Intelligence

4 h

13 video

38 Esercizi

2,900 XP

3,675

Attestato di conseguimento

Preferito dagli studenti di migliaia di aziende

Formare un team?

Prova per il Business

Descrizione del corso

In questo corso su Reinforcement Learning from Human Feedback, unirai l’efficienza della Generative AI alla competenza umana. Imparerai a far sì che i modelli GenAI rispecchino davvero valori e preferenze umane, facendo pratica diretta con gli LLM. Inoltre, affronterai le complessità dei modelli di ricompensa e scoprirai come sviluppare gli LLM per creare un’AI che non solo apprende, ma si adatta a scenari reali.

Prerequisiti

Deep Reinforcement Learning in Python

1

Concetti fondamentali

Questo capitolo introduce le basi del Reinforcement Learning with Human Feedback (RLHF), una tecnica che utilizza l’input umano per aiutare i modelli di AI a imparare in modo più efficace. Inizia con l’RLHF comprendendo come si differenzia dal reinforcement learning tradizionale e perché il feedback umano può migliorare le prestazioni dell’AI in vari ambiti.

Introduzione a RLHF

Generazione di testo con RLHF

Classificare il testo generato per RLHF

RL vs. RLHF

Esplorare gli LLM pre-addestrati

Tokenizza un insieme di dati testuale

Fine-tuning per la classificazione delle recensioni

Preparare i dati per RLHF

Preparare l'insieme di dati delle preferenze

Estrazione dei prompt

Inizia il capitolo

2

Raccolta del feedback umano

In questo capitolo scoprirai come impostare sistemi per raccogliere feedback umano. Imparerai le migliori pratiche per ottenere dati di alta qualità, dai confronti a coppie al campionamento basato sull’incertezza, ed esplorerai strategie per potenziare la tua raccolta dati.

Metodi per raccogliere feedback di alta qualità

Capire confronto e rating nell'RLHF

Confrontare gli slogan per una campagna in palestra

Valutare la qualità e la pertinenza del feedback

Bassa confidenza

K-means per il clustering del feedback

Active learning

Implementare una pipeline di active learning

Ciclo di active learning

Inizia il capitolo

3

Ottimizzazione dei modelli con il feedback umano

In questo capitolo entrerai nel cuore dell’addestramento con Reinforcement Learning from Human Feedback. Esplorerai il fine-tuning con PPO, tecniche per addestrare in modo efficiente e come gestire potenziali divergenze rispetto agli obiettivi delle tue metriche.

Esplorare i modelli di ricompensa

Inizializzare il reward

Configurare il reward trainer

Training con PPO

Inizializza il trainer PPO

Fine-tuning con PPO

Ottimizzazione efficiente del fine-tuning in RLHF

Preparazione al training a 8 bit

Addestra con LoRA

Inizia il capitolo

4

Valutazione del modello

In questo ultimo capitolo su Reinforcement Learning from Human Feedback (RLHF) esplorerai le tecniche chiave per valutare e migliorare le prestazioni del modello: dalle metriche per il fine-tuning all’integrazione di fonti di feedback diversificate, avrai a disposizione una cassetta degli attrezzi completa per perfezionare i tuoi modelli in modo efficace.

Metriche del modello e regolazioni

Mitigare la divergenza KL negativa

Verificare il reward model

Integrare fonti di feedback diversificate

Voto di maggioranza su più fonti di dati

Identificazione di fonti di dati inaffidabili

Valutare i modelli RLHF

Interpretare le curve

Valutare l'RLHF con metriche

Concludi il tuo percorso RLHF

Inizia il capitolo

Reinforcement Learning from Human Feedback (RLHF)

Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performanceIscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Reinforcement Learning from Human Feedback (RLHF) oggi!

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.