Saltar al contenido principal
InicioTutorialesInteligencia Artificial (IA)

Ajuste fino de la visión GPT-4o: Una guía con ejemplos

Aprende a afinar GPT-4o con imágenes siguiendo este tutorial paso a paso, en el que descubrirás cómo mejorar la capacidad de GPT-4o para reconocer iglesias georgianas.
Actualizado 9 oct 2024  · 8 min leer

Hasta hace poco, el ajuste fino GPT-4o sólo era posible con texto. Ahora, con OpenAIde OpenAI ajuste fino podemos personalizar GPT-4o también con imágenes. Esto significa que podemos adaptar las capacidades de GPT-4o a nuestro caso de uso.

Esta actualización abre nuevas posibilidades: imagina afinar la GPT-4o para realizar búsquedas visuales más precisas, detectar objetos o incluso analizar imágenes médicas.

En este tutorial, te guiaré paso a paso para ajustar GPT-4o con imágenes. Concretamente, afinaremos el modelo para identificar correctamente las iglesias ortodoxas georgianas.

GPT-4o Ajuste Visual de Precios

OpenAI está ofreciendo un millón de tokens gratuitos al día hasta el 31 de octubre para afinar el modelo GPT-4o con imágenes, lo que constituye una buena oportunidad para explorar las capacidades de afinamiento visual de GPT-4o.

Después del 31 de octubre, los costes de formación pasarán a un modelo de pago por uso, con una tarifa de 25 $ por millón de tokens. Además, se incurrirá en costes de inferencia por cada entrada (3,75 $ por millón de fichas) y salida (15 $ por millón de fichas).

Es importante tener en cuenta que esta información es exacta a fecha de 10 de octubre, así que asegúrate de consultar la página de precios de OpenAI para conocer los detalles más actualizados sobre precios y disponibilidad.

Reto del Problema Visual de GPT-4o

Pasemos a la parte interesante. ¿Cómo hacemos realmente el ajuste visual para GPT-4o?

Empecemos por evaluar lo bien que GPT-4o reconoce a esta iglesia georgiana:

Desafío del Problema Visual GPT-4o: Reconocer las iglesias georgianas

Cuando se le preguntó, la modelo pensó que la imagen era de la iglesia de San Nicolás de Georgia, cuando en realidad se trata del templo de la Santa Anunciación de Kutaisi.

Está claro que se puede mejorar, y aquí es donde entra en juego el ajuste fino.

Prepara el archivo JSONL

Primero tenemos que preparar nuestro conjunto de datos de entrenamiento para empezar con el ajuste fino. Según la documentación oficial, necesitamos un archivo JSONL estructurado así:

{
  "messages": [
    {
      "role": "system",
      "content": "You are an assistant that identifies Georgian orthodox churches."
    },
    {
      "role": "user",
      "content": "What is this church called?"
    },
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/e/e8/Khareba_church.jpg"
          }
        }
      ]
    },
    {
      "role": "assistant",
      "content": "Kutaisi Holy Annunciation temple"
    }
  ]
}

//second example

{
  "messages": [
    {
      "role": "system",
      "content": "You are an assistant that identifies Georgian orthodox churches."
    },
    {
      "role": "user",
      "content": "What is this church called?"
    },
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/en/a/af/Holy_Trinity_Cathedral_of_Tbilisi.jpg"
          }
        }
      ]
    },
    {
      "role": "assistant",
      "content": "Holy trinity cathedral"
    }
  ]
}

//other examples below

En aras de la legibilidad y el espacio, sólo he incluido un fragmento de mi JSONL de entrenamiento con dos entradas; los demás ejemplos de entrenamiento deben añadirse en una línea aparte.

Ten en cuenta que necesitamos al menos 10 ejemplos para realizar el ajuste fino. Cada línea representa un objeto JSON independiente con una matriz messages.

Ten en cuenta también que JSONL no admite comentarios, así que decidí añadir comentarios después de // por el bien de la guía. Asegúrate de quitártelos antes de entrenar.

Puedes utilizar un editor de texto normal como el Bloc de notas, o si trabajas con muchos ejemplos, es buena idea automatizar la creación de este archivo utilizando un script. Una vez que tu archivo JSONL esté listo, puedes empezar el proceso de ajuste.

Desarrollar aplicaciones de IA

Aprende a crear aplicaciones de IA utilizando la API OpenAI.
Empieza a Hacer Upskilling Gratis

Ajuste fino del GPT-4o con imágenes

Ahora, con el JSONL listo, tenemos que iniciar sesión en nuestro panel de OpenAI y elegir la opción Crear crear:

Panel de ajuste de OpenAI para GPT-4o

En el menú que aparece

  1. Elige el modelo gpt-4o-2024-08-06.
  2. Sube el archivo JSONL de entrenamiento.
  3. También puedes configurar los hiperparámetros o dejarlo todo en auto.

Una vez creado el trabajo, el ajuste debería iniciarse automáticamente:

Menú de creación de trabajos OpenAI GPT-4o Fine-Tuning

Mi rutina de ajuste me llevó aproximadamente 20 minutos (el número de épocas se fijó automáticamente en 9). Dependiendo del tamaño del conjunto de datos y de la complejidad del modelo, esto podría variar, pero se te notificará una vez se haya completado.

Prueba del modelo GPT-4o afinado

Una vez que hayas terminado, puedes acceder al agente ajustado a través de la API o del Playground.

Para simplificar, utilizaré el Playground para las pruebas. Veamos si esta vez el modelo puede identificar correctamente la iglesia:

OpenAI Playground Comparación de los modelos GPT-4o afinado y GPT-4 normal

Como puedes ver, el agente afinado (a la derecha) identificó correctamente la iglesia, aunque esa imagen no estaba en el conjunto de datos de entrenamiento. El modelo normal (a la izquierda) ¡sigue equivocándose!

Conclusión

En este tutorial, exploramos el proceso de ajuste fino de GPT-4o con imágenes.

Empezamos destacando las limitaciones iniciales del modelo a la hora de identificar un tipo concreto de iglesia. Para solucionarlo, preparamos un archivo JSONL que contenía pares imagen-texto para el entrenamiento. A continuación, utilizamos la API de ajuste de OpenAI para crear un modelo personalizado.

Por último, probamos el modelo afinado y observamos su mayor precisión en la identificación de la iglesia.

Aunque este ejemplo se centraba en un caso de uso concreto, los principios y técnicas subyacentes pueden aplicarse a una amplia gama de tareas relacionadas con la imagen, lo que demuestra el potencial de las capacidades de ajuste visual de GPT-4o. Recomiendo leer los casos de uso en el artículo de anuncio de OpenAI de OpenAI.

Para saber más sobre cómo trabajar con los productos de OpenAI, te recomiendo estos recursos:


Photo of Dimitri Didmanidze
Author
Dimitri Didmanidze
LinkedIn
Soy Dimitri Didmanidze, un científico de datos que actualmente cursa un Máster en Matemáticas con especialización en Aprendizaje Automático. Mi trayectoria académica también ha incluido la investigación sobre las capacidades de los modelos basados en transformadores y la docencia a nivel universitario, lo que ha enriquecido mi comprensión de conceptos teóricos complejos. También he trabajado en el sector bancario, donde he aplicado estos principios para afrontar retos de datos del mundo real.
Temas

Aprende IA con estos cursos

Track

Developing AI Applications

23hrs hr
Learn to create AI-powered applications with the latest AI developer tools, including the OpenAI API, Hugging Face, and LangChain.
See DetailsRight Arrow
Start Course
Ver másRight Arrow
Relacionado
An avian AI exits its cage

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.
Abid Ali Awan's photo

Abid Ali Awan

9 min

An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

11 min

tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.
Zoumana Keita 's photo

Zoumana Keita

12 min

See MoreSee More