Pular para o conteúdo principal

Curso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade

Atualizado 10/2024

Aprenda como fazer com que os modelos GenAI realmente reflitam os valores humanos enquanto ganha experiência prática com LLMs avançados.

Iniciar curso gratuitamente

PythonArtificial Intelligence

4 h

13 vídeos

38 Exercícios

2,900 XP

3,668

Declaração de realização

Preferido por alunos de milhares de empresas

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Combine a eficiência da IA Generativa com o conhecimento da experiência humana neste curso sobre Reinforcement Learning from Human Feedback. Você vai aprender a fazer com que modelos de GenAI reflitam de fato valores e preferências humanas enquanto ganha prática com LLMs. Você também vai navegar pelas complexidades de modelos de recompensa e aprender a construir sobre LLMs para produzir uma IA que não apenas aprende, mas também se adapta a cenários do mundo real.

Pré-requisitos

Deep Reinforcement Learning in Python

1

Conceitos Fundamentais

Este capítulo apresenta os fundamentos de Reinforcement Learning with Human Feedback (RLHF), uma técnica que usa a contribuição humana para ajudar modelos de IA a aprender de forma mais eficaz. Comece com RLHF entendendo como ele difere do aprendizado por reforço tradicional e por que o feedback humano pode aprimorar o desempenho da IA em diferentes domínios.

Introdução ao RLHF

Geração de texto com RLHF

Classificando texto gerado para RLHF

RL vs. RLHF

Explorando LLMs pré-treinadas

Tokenizar um conjunto de dados de texto

Fine-tuning para classificação de avaliações

Preparando dados para RLHF

Preparando o conjunto de dados de preferências

Extraindo prompts

Iniciar capítulo

2

Coleta de Feedback Humano

Descubra como configurar sistemas para coletar feedback humano neste capítulo. Aprenda boas práticas para coletar dados de alta qualidade — de comparações pareadas a amostragem por incerteza — e explore estratégias para potencializar sua coleta de dados.

Métodos para coletar feedback de alta qualidade

Entendendo comparação e rating em RLHF

Comparando slogans para uma campanha de academia

Mensurando a qualidade e a relevância do feedback

Baixa confiança

K-means para agrupar feedbacks

Active learning

Implementando um pipeline de active learning

Loop de active learning

Iniciar capítulo

3

Ajustando Modelos com Feedback Humano

Neste capítulo, você vai entrar no núcleo do treinamento de Reinforcement Learning from Human Feedback. Isso inclui explorar fine-tuning com PPO, técnicas para treinar com eficiência e como lidar com possíveis divergências em relação aos objetivos das suas métricas.

Explorando modelos de recompensa

Inicializando o reward

Configurando o treinador de recompensa

Treinando com PPO

Inicializar o treinador PPO

Ajuste fino com PPO

Ajuste fino eficiente em RLHF

Prepare para treinamento em 8 bits

Treinar com LoRA

Iniciar capítulo

4

Avaliação de Modelos

Explore técnicas essenciais para avaliar e melhorar o desempenho do modelo neste último capítulo de Reinforcement Learning from Human Feedback (RLHF): de métricas de fine-tuning à incorporação de fontes diversas de feedback, você terá um conjunto completo de ferramentas para refinar seus modelos com eficácia.

Métricas do modelo e ajustes

Mitigando a divergência KL negativa

Verificando o modelo de recompensa

Incorporando fontes diversas de feedback

Votação por maioria em múltiplas fontes de dados

Identificação de fonte de dados não confiável

Avaliando modelos de RLHF

Interpretando curvas

Avaliando RLHF com métricas

Encerrando sua jornada em RLHF

Iniciar capítulo

Reinforcement Learning from Human Feedback (RLHF)

Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora

Faça como mais de 19 milhões de alunos e comece Reinforcement Learning from Human Feedback (RLHF) hoje mesmo!

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.