¿Qué es el ajuste de refuerzo de OpenAI?

Infórmate sobre el ajuste por refuerzo de OpenAI, una nueva técnica para refinar grandes modelos lingüísticos mediante un bucle de entrenamiento basado en recompensas.

Actualizado 11 dic 2024 · 5 min de lectura

Desarrollar aplicaciones de IA

Aprende a crear aplicaciones de IA utilizando la API OpenAI.

Empieza a hacer Upskilling gratis

¿Qué es el ajuste fino del refuerzo?

El ajuste fino por refuerzo (RFT) es una técnica para refinar el conocimiento de grandes modelos lingüísticos mediante un bucle de entrenamiento basado en recompensas.

Los modelos de frontera son notables modelos lingüísticos de uso general. Los mejores destacan en una amplia gama de tareas, como traducción, asistencia, programación, etc. Sin embargo, un área importante de la investigación en curso se centra en afinar eficientemente estos modelos. El objetivo es adaptarlos para que adopten tonos y estilos específicos o se especialicen en campos reducidos, como proporcionar asesoramiento médico experto o realizar tareas de clasificación específicas de un dominio.

El reto consiste en lograr este ajuste de forma eficaz. Eficiencia significa consumir menos potencia de cálculo y requerir menos conjuntos de datos etiquetados sin dejar de obtener resultados de alta calidad. Aquí es donde entra en juego la RFT, que ofrece una solución prometedora a este problema.

Así es como se ve la configuración de RFT en el panel de control de OpenAI. Fuente: OpenAI

Según el anuncio de OpenAI de OpenAIla RFT puede afinar eficazmente un modelo con sólo unas docenas de ejemplos. En muchos campos, como el sector médico, donde los datos son escasos y costosos, con menos datos se llega muy lejos.

La RFT se basa en la columna vertebral del aprendizaje por refuerzo (RL), donde los agentes son recompensados positiva o negativamente en función de sus acciones, lo que les permite alinearse con el comportamiento que esperamos de ellos. Esto se consigue asignando una puntuación a la producción del agente. Mediante un entrenamiento iterativo basado en estas puntuaciones, los agentes aprenden sin necesidad de comprender explícitamente las reglas ni de memorizar pasos predefinidos para resolver el problema.

Cuando se combina con los esfuerzos para mejorar los LLM en tareas especializadas, la RFT surge de la RL y de las técnicas de ajuste fino. La idea es realizar la RFT mediante una serie de pasos:

1. Proporciona un conjunto de datos estructurado y etiquetado que dote al modelo de los conocimientos que quieres que aprenda. Como en una tarea típica de aprendizaje automático, este conjunto de datos debe dividirse en un conjunto de entrenamiento y otro de validación.

Ejemplo de una sola instancia del conjunto de datos. Fuente: OpenAI

2. El siguiente componente crítico del RFT es establecer una forma de evaluar los resultados del modelo. En un proceso típico de ajuste fino, el modelo simplemente intenta reproducir la respuesta objetivo etiquetada. Sin embargo, en la RFT, el modelo debe desarrollar un proceso de razonamiento que conduzca a esas respuestas. La graduación de las salidas del modelo es lo que lo guía durante el ajuste fino, y se hace utilizandolos "Graders" de . La calificación puede oscilar entre 0 y 1 o en cualquier punto intermedio, y hay muchas formas de asignar una calificación al conjunto de resultados de un modelo. OpenAI ha anunciado planes para desplegar más calificadores y posiblemente introducir una forma de que los usuarios implementen sus propios calificadores personalizados.

3. Una vez que el modelo responde a la entrada del conjunto de entrenamiento, su salida es puntuada por el calificador. Esta puntuación sirve como señal de "recompensa". Los pesos y parámetros del modelo se modifican para maximizar las recompensas futuras.

4. El modelo se afina mediante pasos repetidos. Con cada ciclo, el modelo refina su estrategia y el conjunto de validación (que se mantiene separado del entrenamiento) se utiliza periódicamente para comprobar lo bien que estas mejoras se generalizan a nuevos ejemplos. Cuando las puntuaciones del modelo mejoran con los datos de validación, es una buena señal de que el modelo está aprendiendo realmente estrategias significativas y no simplemente memorizando soluciones.

Esta explicación capta la esencia de la RFT, pero la aplicación y los detalles técnicos pueden diferir.

Si observamos a continuación los resultados de la evaluación de RFT, que comparan un modelo o1-mini afinado con un modelo o1-mini y o1 estándar, resulta sorprendente que RFT, utilizando un conjunto de datos de sólo 1.100 ejemplos, consiguiera una precisión mayor que el modelo modelo o1a pesar de que este último es mayor y más avanzado que el o1-mini.

Evaluación del RFT. Fuente: OpenAI

Ajuste fino supervisado vs. Ajuste del refuerzo

El ajuste fino supervisado (SFT) consiste en tomar un modelo preentrenado y ajustarlo con datos adicionales mediante técnicas de aprendizaje supervisado. En la práctica, la SFT funciona mejor cuando el objetivo es alinear la salida o el formato del modelo con un conjunto de datos concreto o asegurarse de que el modelo sigue determinadas instrucciones.

Aunque tanto el ajuste fino supervisado como el ajuste fino por refuerzo se basan en datos etiquetados, los utilizan de forma diferente. En la SFT, los datos etiquetados dirigen directamente las actualizaciones del modelo. El modelo lo ve como la salida objetivo y ajusta sus parámetros para cerrar la diferencia entre su salida prevista y la respuesta correcta conocida.

En la RFT, la exposición del modelo a la etiqueta es indirecta, ya que se utiliza principalmente para crear la señal de recompensa y no como objetivo directo. Por eso se espera que el modelo requiera menos datos etiquetados en RFT: el modelo pretende encontrar patrones para producir el resultado que deseamos, en lugar de aspirar directamente a producir nuestros resultados, y esto promete más tendencia a generalizar.

Resumamos las diferenciascon esta tabla:

Función	Ajuste fino supervisado (SFT)	Ajuste fino del refuerzo (RFT)
Idea central	Entrena directamente el modelo con datos etiquetados para que coincida con el resultado deseado.	Utiliza un "Grader" para recompensar al modelo por generar los resultados deseados.
Uso de la etiqueta	Objetivo directo a imitar por el modelo.	Se utiliza indirectamente para crear una señal de recompensa para el modelo.
Eficacia de los datos	Requiere más datos etiquetados.	Potencialmente requiere menos datos etiquetados debido a la generalización.
Implicación humana	Sólo en el etiquetado inicial de datos.	Sólo en el diseño de la función "Grader".
Generalización	Puede sobreajustarse a los datos de entrenamiento, limitando la generalización.	Mayor potencial de generalización debido a la concentración en patrones y recompensas.
Alineación con las preferencias humanas	Limitada, ya que se basa únicamente en imitar los datos etiquetados.	Puede alinearse mejor si el "Calificador" refleja con precisión las preferencias humanas.
Ejemplos	Afinar un modelo lingüístico para generar tipos específicos de formatos de texto (como poemas o código).	Entrenar un modelo lingüístico para generar contenidos creativos que sean juzgados por un "Calificador" en función de su originalidad y coherencia.

Al leer sobre el RFT, no pude evitar pensar en otra técnica clásica y eficaz llamada aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). En RLHF, los anotadores humanos proporcionan información sobre cómo responder a las instrucciones, y se entrena un modelo de recompensa para convertir esta información en señales numéricas de recompensa. A continuación, estas señales se utilizan para afinar los parámetros del modelo preentrenado mediante optimización de la política proximal (OPP).

Aunque el RFT saca la retroalimentación humana del bucle y confía en el Grader para asignar la señal de recompensa a la respuesta del modelo, la idea de integrar el aprendizaje por refuerzo en el ajuste fino del LLM sigue siendo coherente con la del RLHF.

Curiosamente, RLHF fue el método que utilizaron anteriormente para alinear mejor el modelo en el proceso de entrenamiento ChatGPT. Según el vídeo de anuncio, RFT es el método que OpenAI utiliza internamente para entrenar sus modelos de frontera como GPT-4o o o1 modo pro.

Conclusión

El aprendizaje por refuerzo ya se ha integrado antes en el ajuste fino de los LLM, pero el ajuste fino por refuerzo de OpenAI parece llevarlo a un nivel superior.

Aunque aún no se ha revelado la mecánica exacta de la RFT, ni su fecha de lanzamiento, ni una evaluación científica de su eficacia, podemos cruzar los dedos y esperar que la RFT sea accesible pronto y tan potente como promete.

Author

Hesam Sheikh Hassani

Obtén una certificación superior en IA

Demuestra que puedes utilizar la IA de forma eficaz y responsable.

Certifícate, que te contraten

Temas

Inteligencia Artificial

OpenAI

Grandes modelos lingüísticos

Aprende IA con estos cursos

Programa

Desarrollo de aplicaciones de IA

0 min

Aprende a crear aplicaciones potenciadas por IA con las últimas herramientas para desarrolladores de IA, como la API OpenAI, Hugging Face y LangChain.

Ver detalles

Comienza el curso

Programa

Associate AI Engineer para desarrolladores

0 min

Aprende a integrar IA en aplicaciones de software usando APIs y bibliotecas de código abierto. ¡Empieza hoy tu camino para convertirte en AI Engineer!

Ver detalles

Comienza el curso

Curso

Seguridad y gestión de riesgos de la IA

2 h

5.5K

Aprende los fundamentos de la seguridad en IA para proteger sistemas y mitigar riesgos clave.

Ver detalles

Comienza el curso

Relacionado

Tutorial

¿Qué es el Refuerzo?

El refuerzo mejora el rendimiento del aprendizaje automático corrigiendo secuencialmente los errores y combinando los aprendices débiles en predictores fuertes.

Vinod Chugani

Tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.

Zoumana Keita

Tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.

Arunn Thevapalan

Tutorial

Tutorial de la API de OpenAI Assistants

Una visión completa de la API Assistants con nuestro artículo, que ofrece una mirada en profundidad a sus características, usos en la industria, guía de configuración y las mejores prácticas para maximizar su potencial en diversas aplicaciones empresariales.

Zoumana Keita

Tutorial

Introducción al Q-Learning: Tutorial para principiantes

Conozca el algoritmo de aprendizaje por refuerzo sin modelos más popular con un tutorial de Python.

Abid Ali Awan

Ver más Ver más

Desarrollar aplicaciones de IA

¿Qué es el ajuste fino del refuerzo?

Ajuste fino supervisado vs. Ajuste del refuerzo

Conclusión

Obtén una certificación superior en IA

¿Qué es el Refuerzo?

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Tutorial de la API de OpenAI Assistants

Introducción al Q-Learning: Tutorial para principiantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Desarrollo de aplicaciones de IA

Associate AI Engineer para desarrolladores

Seguridad y gestión de riesgos de la IA

¿Qué es el Refuerzo?

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Tutorial de la API de OpenAI Assistants

Introducción al Q-Learning: Tutorial para principiantes

Desarrollo de aplicaciones de IA