Pular para o conteúdo principal

O que é o ajuste fino de reforço da OpenAI?

Saiba mais sobre o ajuste fino de reforço da OpenAI, uma nova técnica para refinar grandes modelos de linguagem usando um loop de treinamento orientado por recompensa.
Actualizado 11 de dez. de 2024  · 5 min de leitura

No segundo dia do evento "12 Days of OpenAI", a OpenAI anunciou uma nova técnica de ajuste fino de seus modelos chamada ajuste fino de reforço.

O ajuste fino do reforço fica bem integrado ao painel de desenvolvedores já disponível da OpenAI, onde você pode ajustar seus modelos ou executar destilação de conhecimento em sua plataforma.

Neste artigo, abordarei o que sabemos até o momento sobre o ajuste fino do reforço e explorarei o que você pode esperar no futuro.

Desenvolver aplicativos de IA

Aprenda a criar aplicativos de IA usando a API OpenAI.
Comece a Treinar Gratuitamente

O que é o ajuste fino de reforço?

O ajuste fino de reforço (RFT) é uma técnica para refinar o conhecimento de grandes modelos de linguagem por meio de um loop de treinamento orientado por recompensa.

Os modelos Frontier são modelos de linguagem de uso geral notáveis. Os melhores deles se destacam em uma ampla gama de tarefas, como tradução, assistência, programação e muito mais. No entanto, uma área significativa da pesquisa em andamento se concentra em ajuste fino esses modelos de forma eficiente. O objetivo é adaptá-los para que assumam tons e estilos específicos ou se especializem em campos restritos, como fornecer consultoria médica especializada ou executar tarefas de classificação específicas de um domínio.

O desafio está em realizar esse ajuste fino de forma eficiente. Eficiência significa consumir menos energia computacional e exigir menos conjuntos de dados rotulados e, ao mesmo tempo, obter resultados de alta qualidade. É nesse ponto que a RFT entra em ação, oferecendo uma solução promissora para esse problema.

Como seria o ajuste fino do reforço no painel da OpenAI

É assim que você configura o RFT no painel da OpenAI. Fonte: OpenAI

De acordo com o anúncio da OpenAI da OpenAIa RFT pode fazer o ajuste fino de um modelo com apenas algumas dezenas de exemplos. Em muitos campos, como o setor médico, em que os dados são escassos e caros, menos dados são muito úteis.

O RFT foi desenvolvido com base na espinha dorsal do aprendizado por reforço (RL), em que os agentes são recompensados positiva ou negativamente com base em suas ações, permitindo que se alinhem com o comportamento que esperamos deles. Isso é feito atribuindo-se uma pontuação ao resultado do agente. Por meio de treinamento iterativo com base nessas pontuações, os agentes aprendem sem precisar entender explicitamente as regras ou memorizar etapas predefinidas para resolver o problema.

Quando combinada com os esforços para aprimorar os LLMs em tarefas especializadas, a RFT emerge da RL e das técnicas de ajuste fino. A ideia é realizar a RFT por meio de um conjunto de etapas:

1. Forneça um conjunto de dados estruturado e rotulado que equipe o modelo com o conhecimento que você deseja que ele aprenda. Como uma tarefa típica de aprendizado de máquina, esse conjunto de dados deve ser dividido em um conjunto de treinamento e um conjunto de validação.

Exemplo de uma única instância do conjunto de dados

Exemplo de uma única instância do conjunto de dados. Fonte: OpenAI

2. O próximo componente essencial da RFT é estabelecer uma maneira de avaliar os resultados do modelo. Em um processo típico de ajuste fino, o modelo simplesmente tenta reproduzir a resposta alvo rotulada. No entanto, na RFT, o modelo deve desenvolver um processo de raciocínio que leve a essas respostas. A classificação dos resultados do modelo é o que o orienta durante o ajuste fino, e é feita usando os"Graders" do site . A nota pode variar de 0 a 1 ou qualquer outro valor intermediário, e há muitas maneiras de atribuir uma nota ao conjunto de resultados de um modelo. A OpenAI anunciou planos para lançar mais avaliadores e possivelmente introduzir uma maneira de os usuários implementarem seus próprios avaliadores personalizados.

3. Depois que o modelo responde à entrada do conjunto de treinamento, sua saída é pontuada pelo avaliador. Essa pontuação serve como sinal de "recompensa". Os pesos e os parâmetros do modelo são então ajustados para maximizar as recompensas futuras.

4. O modelo é ajustado por meio de etapas repetidas. A cada ciclo, o modelo aprimora sua estratégia e o conjunto de validação (mantido separado do treinamento) é usado periodicamente para verificar se esses aprimoramentos são generalizados para novos exemplos. Quando as pontuações do modelo melhoram nos dados de validação, é um bom sinal de que o modelo está realmente aprendendo estratégias significativas e não simplesmente memorizando soluções.

Essa explicação capta a essência da RFT, mas a implementação e os detalhes técnicos podem ser diferentes.

Observando abaixo os resultados da avaliação do RFT, que comparam um modelo o1-mini ajustado com um modelo o1-mini e o1 padrão, é impressionante que o RFT, usando um conjunto de dados de apenas 1.100 exemplos, tenha obtido maior precisão do que o modelo modelo o1apesar de este último ser maior e mais avançado do que o o1-mini.

Avaliação da RFT. (fonte)

Avaliação da RFT. Fonte: OpenAI

Ajuste fino supervisionado vs. Ajuste fino do reforço

O ajuste fino supervisionado (SFT) envolve pegar um modelo pré-treinado e ajustá-lo com dados adicionais usando técnicas de aprendizado supervisionado. Na prática, o SFT funciona melhor quando o objetivo é alinhar a saída ou o formato do modelo a um conjunto de dados específico ou garantir que o modelo siga determinadas instruções.

Embora tanto o ajuste fino supervisionado quanto o ajuste fino por reforço dependam de dados rotulados, eles os utilizam de forma diferente. No SFT, os dados rotulados orientam diretamente as atualizações do modelo. O modelo vê isso como o resultado desejado e ajusta seus parâmetros para reduzir a diferença entre o resultado previsto e a resposta correta conhecida.

No RFT, a exposição do modelo ao rótulo é indireta, pois ele é usado principalmente para criar o sinal de recompensa em vez de ser um alvo direto. É por isso que se espera que o modelo exija menos dados rotulados na RFT - o modelo tem como objetivo encontrar padrões para produzir o resultado que desejamos, em vez de ter como objetivo direto produzir nossos resultados, e isso promete mais tendência a generalizar.

Vamos resumir as diferençascom esta tabela:

Recurso

Ajuste fino supervisionado (SFT)

Ajuste fino de reforço (RFT)

Ideia central

Treine diretamente o modelo em dados rotulados para corresponder à saída desejada.

Use um "Grader" para fornecer recompensas ao modelo por gerar o resultado desejado.

Uso de rótulos

Alvo direto para o modelo imitar.

Usado indiretamente para criar um sinal de recompensa para o modelo.

Eficiência de dados

Requer mais dados rotulados.

Potencialmente requer menos dados rotulados devido à generalização.

Envolvimento humano

Somente na rotulagem inicial de dados.

Somente ao projetar a função "Grader".

Generalização

Pode se ajustar excessivamente aos dados de treinamento, limitando a generalização.

Maior potencial de generalização devido ao foco em padrões e recompensas.

Alinhamento com as preferências humanas

Limitado, pois se baseia apenas na imitação dos dados rotulados.

Pode ser mais bem alinhado se o "Grader" refletir com precisão as preferências humanas.

Exemplos

Ajuste fino de um modelo de linguagem para gerar tipos específicos de formatos de texto (como poemas ou códigos).

Treinamento de um modelo de linguagem para gerar conteúdo criativo que é avaliado por um "Grader" com base na originalidade e na coerência.

Ao ler sobre RFT, não pude deixar de pensar em outra técnica eficaz e clássica chamada aprendizagem por reforço a partir de feedback humano (RLHF). No RLHF, os anotadores humanos fornecem feedback sobre como responder às solicitações, e um modelo de recompensa é treinado para converter esse feedback em sinais numéricos de recompensa. Esses sinais são então usados para ajustar os parâmetros do modelo pré-treinado por meio de otimização da política proximal (PPO).

Embora o RFT retire o feedback humano do loop e conte com o Grader para atribuir o sinal de recompensa à resposta do modelo, a ideia de integrar o aprendizado por reforço ao ajuste fino do LLM ainda é consistente com a do RLHF.

É interessante notar que o RLHF foi o método usado anteriormente para alinhar melhor o modelo no processo de treinamento do ChatGPT. De acordo com o vídeo de anúncio, o RFT é o método que a OpenAI usa internamente para treinar seus modelos de fronteira, como GPT-4o ou o1 pro mode.

Conclusão

O aprendizado por reforço foi integrado ao ajuste fino dos LLMs anteriormente, mas o ajuste fino por reforço da OpenAI parece levar isso a um nível mais alto.

Embora a mecânica exata do RFT, sua data de lançamento e uma avaliação científica de sua eficácia ainda não tenham sido divulgadas, podemos cruzar os dedos e esperar que o RFT esteja acessível em breve e seja tão poderoso quanto prometido.


Hesam Sheikh Hassani's photo
Author
Hesam Sheikh Hassani
LinkedIn
Twitter

Estudante de mestrado em Inteligência Artificial e redatora técnica de IA. Compartilho insights sobre a mais recente tecnologia de IA, tornando a pesquisa de ML acessível e simplificando tópicos complexos de IA necessários para manter você na vanguarda.

Obtenha uma das melhores certificações de IA

Demonstre que você pode usar a IA de forma eficaz e responsável.
Temas

Aprenda IA com estes cursos!

programa

Desenvolvimento de aplicativos de IA

23 horas hr
Aprenda a criar aplicativos com tecnologia de IA com as mais recentes ferramentas de desenvolvimento de IA, incluindo a API OpenAI, Hugging Face e LangChain.
Ver DetalhesRight Arrow
Iniciar Curso
Certificação disponível

curso

Segurança de IA e gerenciamento de riscos

2 hr
2.2K
Aprenda os fundamentos da segurança de IA para proteger os sistemas contra ameaças, alinhar a segurança com as metas de negócios e reduzir os principais riscos.
Ver maisRight Arrow
Relacionado

blog

O que é aprendizado de máquina on-line?

Online ML: Aprende de forma adaptativa a partir de pontos de dados em tempo real, fornecendo previsões oportunas e precisas em ambientes ricos em dados.
Abid Ali Awan's photo

Abid Ali Awan

5 min

blog

O que é aprendizagem incremental?

O aprendizado incremental é uma metodologia de aprendizado de máquina em que um modelo de IA aprende novas informações ao longo do tempo, mantendo e desenvolvendo o conhecimento anterior.
Abid Ali Awan's photo

Abid Ali Awan

9 min

tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

12 min

tutorial

Como fazer o ajuste fino do GPT 3.5: Liberando todo o potencial da IA

Explore o GPT-3.5 Turbo e descubra o potencial transformador do ajuste fino. Saiba como personalizar esse modelo de linguagem avançado para aplicativos de nicho, aprimorar seu desempenho e entender os custos associados, a segurança e as considerações de privacidade.
Moez Ali's photo

Moez Ali

11 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Saiba como fazer o ajuste fino dos LLMs em conjuntos de dados personalizados, avaliar o desempenho e exportar e servir modelos com facilidade usando a estrutura com pouco ou nenhum código do LLaMA-Factory.
Abid Ali Awan's photo

Abid Ali Awan

12 min

See MoreSee More