Pular para o conteúdo principal
InícioPython

Curso

Reinforcement Learning from Human Feedback (RLHF)

AvançadoNível de habilidade
Atualizado 10/2024
Aprenda como fazer com que os modelos GenAI realmente reflitam os valores humanos enquanto ganha experiência prática com LLMs avançados.
Iniciar curso gratuitamente
PythonArtificial Intelligence
4 h
13 vídeos
38 Exercícios
2,900 XP
3,668
Declaração de realização

Crie sua conta gratuita

Continuar com o GoogleMostrar mais opções

ou


Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.

Preferido por alunos de milhares de empresas

Group

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Combine a eficiência da IA Generativa com o conhecimento da experiência humana neste curso sobre Reinforcement Learning from Human Feedback. Você vai aprender a fazer com que modelos de GenAI reflitam de fato valores e preferências humanas enquanto ganha prática com LLMs. Você também vai navegar pelas complexidades de modelos de recompensa e aprender a construir sobre LLMs para produzir uma IA que não apenas aprende, mas também se adapta a cenários do mundo real.

Pré-requisitos

Deep Reinforcement Learning in Python
1

Conceitos Fundamentais

Este capítulo apresenta os fundamentos de Reinforcement Learning with Human Feedback (RLHF), uma técnica que usa a contribuição humana para ajudar modelos de IA a aprender de forma mais eficaz. Comece com RLHF entendendo como ele difere do aprendizado por reforço tradicional e por que o feedback humano pode aprimorar o desempenho da IA em diferentes domínios.
Iniciar capítulo
2

Coleta de Feedback Humano

Descubra como configurar sistemas para coletar feedback humano neste capítulo. Aprenda boas práticas para coletar dados de alta qualidade — de comparações pareadas a amostragem por incerteza — e explore estratégias para potencializar sua coleta de dados.
Iniciar capítulo
3

Ajustando Modelos com Feedback Humano

Neste capítulo, você vai entrar no núcleo do treinamento de Reinforcement Learning from Human Feedback. Isso inclui explorar fine-tuning com PPO, técnicas para treinar com eficiência e como lidar com possíveis divergências em relação aos objetivos das suas métricas.
Iniciar capítulo
4

Avaliação de Modelos

Explore técnicas essenciais para avaliar e melhorar o desempenho do modelo neste último capítulo de Reinforcement Learning from Human Feedback (RLHF): de métricas de fine-tuning à incorporação de fontes diversas de feedback, você terá um conjunto completo de ferramentas para refinar seus modelos com eficácia.
Iniciar capítulo
Reinforcement Learning from Human Feedback (RLHF)
Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenho
Inscreva-se agora

Faça como mais de 19 milhões de alunos e comece Reinforcement Learning from Human Feedback (RLHF) hoje mesmo!

Crie sua conta gratuita

Continuar com o GoogleMostrar mais opções

ou


Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.