Vai al contenuto principale
HomePython

Corso

Reinforcement Learning from Human Feedback (RLHF)

AvanzatoLivello di competenza
Aggiornato 10/2024
Scopri come fare in modo che i modelli GenAI riflettano davvero i valori umani e allo stesso tempo fai pratica con gli LLM avanzati.
Inizia il corso gratis
PythonArtificial Intelligence
4 h
13 video
38 Esercizi
2,900 XP
3,675
Attestato di conseguimento

Crea il tuo account gratuito

Continua con GoogleMostra più opzioni

o


Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Preferito dagli studenti di migliaia di aziende

Group

Formare un team?

Prova per il Business

Descrizione del corso

In questo corso su Reinforcement Learning from Human Feedback, unirai l’efficienza della Generative AI alla competenza umana. Imparerai a far sì che i modelli GenAI rispecchino davvero valori e preferenze umane, facendo pratica diretta con gli LLM. Inoltre, affronterai le complessità dei modelli di ricompensa e scoprirai come sviluppare gli LLM per creare un’AI che non solo apprende, ma si adatta a scenari reali.

Prerequisiti

Deep Reinforcement Learning in Python
1

Concetti fondamentali

Questo capitolo introduce le basi del Reinforcement Learning with Human Feedback (RLHF), una tecnica che utilizza l’input umano per aiutare i modelli di AI a imparare in modo più efficace. Inizia con l’RLHF comprendendo come si differenzia dal reinforcement learning tradizionale e perché il feedback umano può migliorare le prestazioni dell’AI in vari ambiti.
Inizia il capitolo
2

Raccolta del feedback umano

In questo capitolo scoprirai come impostare sistemi per raccogliere feedback umano. Imparerai le migliori pratiche per ottenere dati di alta qualità, dai confronti a coppie al campionamento basato sull’incertezza, ed esplorerai strategie per potenziare la tua raccolta dati.
Inizia il capitolo
3

Ottimizzazione dei modelli con il feedback umano

In questo capitolo entrerai nel cuore dell’addestramento con Reinforcement Learning from Human Feedback. Esplorerai il fine-tuning con PPO, tecniche per addestrare in modo efficiente e come gestire potenziali divergenze rispetto agli obiettivi delle tue metriche.
Inizia il capitolo
4

Valutazione del modello

In questo ultimo capitolo su Reinforcement Learning from Human Feedback (RLHF) esplorerai le tecniche chiave per valutare e migliorare le prestazioni del modello: dalle metriche per il fine-tuning all’integrazione di fonti di feedback diversificate, avrai a disposizione una cassetta degli attrezzi completa per perfezionare i tuoi modelli in modo efficace.
Inizia il capitolo
Reinforcement Learning from Human Feedback (RLHF)
Corso
completato

Ottieni Attestato di conseguimento

Aggiungi questa certificazione al tuo profilo LinkedIn, al curriculum o al CV
Condividila sui social e nella valutazione delle tue performance
Iscriviti ora

Unisciti a oltre 19 milioni di studenti e inizia Reinforcement Learning from Human Feedback (RLHF) oggi!

Crea il tuo account gratuito

Continua con GoogleMostra più opzioni

o


Continuando, accetti i nostri Termini di utilizzo, la nostra Informativa sulla privacy e che i tuoi dati siano conservati negli Stati Uniti.

Aumenta le tue competenze sui dati con l'app di DataCamp

Avanza ovunque ti trovi con i nostri corsi per dispositivi mobili e le nostre sfide di programmazione quotidiane da 5 minuti.