Curso
Reinforcement Learning from Human Feedback (RLHF)
AvançadoNível de habilidade
Atualizado 10/2024
PythonArtificial Intelligence4 h13 vídeos38 Exercícios2,900 XP3,668Declaração de realização
Crie sua conta gratuita
Continuar com o GoogleMostrar mais opçõesou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.
Preferido por alunos de milhares de empresas
Treinando uma equipe?
Experimente para EmpresasDescrição do curso
Pré-requisitos
Deep Reinforcement Learning in Python1
Conceitos Fundamentais
Este capítulo apresenta os fundamentos de Reinforcement Learning with Human Feedback (RLHF), uma técnica que usa a contribuição humana para ajudar modelos de IA a aprender de forma mais eficaz. Comece com RLHF entendendo como ele difere do aprendizado por reforço tradicional e por que o feedback humano pode aprimorar o desempenho da IA em diferentes domínios.
2
Coleta de Feedback Humano
Descubra como configurar sistemas para coletar feedback humano neste capítulo. Aprenda boas práticas para coletar dados de alta qualidade — de comparações pareadas a amostragem por incerteza — e explore estratégias para potencializar sua coleta de dados.
3
Ajustando Modelos com Feedback Humano
Neste capítulo, você vai entrar no núcleo do treinamento de Reinforcement Learning from Human Feedback. Isso inclui explorar fine-tuning com PPO, técnicas para treinar com eficiência e como lidar com possíveis divergências em relação aos objetivos das suas métricas.
4
Avaliação de Modelos
Explore técnicas essenciais para avaliar e melhorar o desempenho do modelo neste último capítulo de Reinforcement Learning from Human Feedback (RLHF): de métricas de fine-tuning à incorporação de fontes diversas de feedback, você terá um conjunto completo de ferramentas para refinar seus modelos com eficácia.
Reinforcement Learning from Human Feedback (RLHF)
Curso concluído
Obtenha um certificado de conclusão
Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CVCompartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora
Faça como mais de 19 milhões de alunos e comece Reinforcement Learning from Human Feedback (RLHF) hoje mesmo!
Crie sua conta gratuita
Continuar com o GoogleMostrar mais opçõesou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.
Desenvolva suas habilidades em dados com o app do DataCamp
Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.