Saltar al contenido principal

Tutorial de la API GPT-4o: primeros pasos con la API de OpenAI

Para conectarte a través de la API GPT-4o, obtén tu clave API de OpenAI, instala la biblioteca OpenAI Python y utilízala para enviar solicitudes y recibir respuestas de los modelos GPT-4o.
Actualizado 22 ago 2024  · 8 min de lectura

El GPT-4o de OpenAI representa un gran avance en la IA, ya que integra capacidades de audio, imagen y texto en un único y potente modelo lingüístico.

Este avance supone un paso importante hacia una interacción persona-ordenador más natural e intuitiva.

En este tutorial, nos sumergiremos en los detalles de GPT-4o, exploraremos sus posibles casos de uso y proporcionaremos una guía paso a paso para utilizar GPT-4o a través de la API de OpenAI.

Si quieres tener una visión general de GPT-4o, consulta este artículo sobre Qué es GPT-4o de OpenAI.

¿Qué es GPT-4o?

GPT-4o, abreviatura de "omni", representa un avance significativo en la IA. A diferencia de GPT-4, que solo maneja texto, GPT-4o es un modelo multimodal que procesa y genera datos de texto, audio e imágenes.

Comparación de GPT-4o con GPT-4 Turbo

Al incorporar datos de audio e imágenes junto al texto, GPT-4o se libera de las limitaciones de los modelos tradicionales de solo texto y crea interacciones más naturales e intuitivas.

GPT-4o tiene un tiempo de respuesta más rápido, es un 50% más barato que GPT-4 Turbo, y es mejor en comprensión de audio e imagen que los modelos existentes.

Casos prácticos de GPT-4o

Además de interactuar con GPT-4o a través de la interfaz ChatGPT, los desarrolladores pueden interactuar con GPT-4o a través de la API OpenAI, lo que les permite integrar las capacidades de GPT-4o en sus aplicaciones y sistemas.

La API GPT-4o abre un amplio abanico de posibles casos de uso al aprovechar sus capacidades multimodales:

Modalidad

Casos de uso

Descripción

Texto

Generación de textos, resumen de textos, análisis de datos y codificación

Creación de contenidos, resúmenes concisos, explicaciones de códigos y asistencia en la codificación.

Audio

Transcripción de audio, traducción en tiempo real, generación de audio

Convierte audio en texto, traduce en tiempo real, crea asistentes virtuales o aprende idiomas.

Imagen

Subtitulado de imágenes, análisis y lógica de imágenes, accesibilidad para discapacitados visuales

Describir imágenes, analizar información visual, proporcionar accesibilidad a los discapacitados visuales.

Multi

Interacciones multimodales, situaciones de juegos de rol

Combina modalidades sin limitaciones, crea experiencias inmersivas.

GPT-4o API: cómo conectarse a la API de OpenAI

Exploremos ahora cómo utilizar GPT-4o a través de la API OpenAI.

Paso 1: Generar una clave API

Antes de utilizar la API GPT-4o, debemos registrarnos en una cuenta OpenAI y obtener una clave API. Podemos crear una cuenta en el sitio web de la API de OpenAI.

Una vez que tenemos una cuenta, podemos navegar a la página de claves API:

API de OpenAI

Ahora podemos generar una clave API. Tenemos que mantenerla a salvo, ya que no podremos volver a verla. Pero siempre podemos generar una nueva si la perdemos o la necesitamos para un proyecto diferente.

API de OpenAI

Paso 2: Importar la API de OpenAI a Python

Para interactuar con la API GPT-4o mediante programación, necesitaremos instalar la biblioteca OpenAI Python. Podemos hacerlo ejecutando el siguiente comando:

Una vez instalado, podemos importar los módulos necesarios en nuestro script Python:

from openai import OpenAI

Paso 3: Llamar a la API

Antes de poder hacer peticiones a la API, tendremos que autenticarnos con nuestra clave de API:

## Set the API keyclient = OpenAI(api_key="your_api_key_here")

Sustituye "your_api_key_here" por tu clave API real.

Tras completar la conexión con el cliente, podemos empezar a generar texto utilizando GPT-4o:

MODEL="gpt-4o"completion = client.chat.completions.create(  model=MODEL,  messages=[    {"role": "system", "content": "You are a helpful assistant that helps me with my math homework!"},    {"role": "user", "content": "Hello! Could you solve 20 x 5?"}  ])print("Assistant: " + completion.choices[0].message.content)

Este fragmento de código utiliza la API de finalización de chat con el modelo GPT-4o, que acepta preguntas relacionadas con las matemáticas como entrada y genera una respuesta:

Salida de código GPT-4o

GPT-4o API: Casos prácticos de audio

La transcripción y el resumen de audio se han convertido en herramientas esenciales en diversas aplicaciones, desde mejorar la accesibilidad hasta aumentar la productividad. Con la API GPT-4o, podemos gestionar eficazmente tareas como transcribir y resumir contenidos de audio.

Aunque GPT-4o tiene potencial para manejar audio directamente, la función de entrada directa de audio aún no está disponible a través de la API. Por ahora, podemos utilizar un proceso de dos pasos con la API GPT-4o para transcribir y luego resumir el contenido de audio.

Paso 1: Transcribir audio a texto

Para transcribir un archivo de audio con GPT-4o, debemos proporcionar los datos de audio a la API. Aquí tienes un ejemplo:

# Transcribe the audioaudio_path = "path/to/audio.mp3"transcription = client.audio.transcriptions.create(    model="whisper-1",    file=open(audio_path, "rb"),)

Sustituye "path/to/audio.mp3" por la ruta real de tu archivo de audio. Este ejemplo utiliza el modelo whisper-1 para la transcripción.

Paso 2: Resumir texto de audio

response = client.chat.completions.create(    model=MODEL,    messages=[    {"role": "system", "content":"""You are generating a transcript summary. Create a summary of the provided transcription. Respond in Markdown."""},    {"role": "user", "content": [        {"type": "text", "text": f"The audio transcription is: {transcription.text}"}        ],    }    ],    temperature=0,)print(response.choices[0].message.content)

GPT-4o API: casos prácticos de imágenes

El análisis visual de datos es crucial en diversos ámbitos, desde la sanidad a la seguridad y más allá. Con la API GPT-4o, puedes analizar imágenes a la perfección, participar en conversaciones sobre contenido visual y extraer información valiosa de las imágenes.

Paso 1: Añadir datos de imagen a la API

Para analizar una imagen con GPT-4o, primero debemos proporcionar los datos de la imagen a la API. Podemos hacerlo codificando una imagen local como una cadena base64 o proporcionando una URL a una imagen en línea:

import base64IMAGE_PATH = "image_path"# Open the image file and encode it as a base64 stringdef encode_image(image_path):    with open(image_path, "rb") as image_file:        return base64.b64encode(image_file.read()).decode("utf-8")base64_image = encode_image(IMAGE_PATH)
 "url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"

Paso 2: Analizar los datos de la imagen

Una vez que hemos procesado la entrada de la imagen, podemos pasar los datos de la imagen a la API para su análisis.

Intentemos analizar una imagen para determinar el área de una forma. Utilicemos primero la imagen de abajo:

Forma para que GPT-4o calcule

Ahora pediremos a GPT-4o que nos pregunte el área de esta forma; fíjate en que estamos utilizando una entrada de imagen base64:

response = client.chat.completions.create(    model=MODEL,    messages=[        {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"},        {"role": "user", "content": [            {"type": "text", "text": "What's the area of the shape in this image?"},            {"type": "image_url", "image_url": {                "url": f"data:image/png;base64,{base64_image}"}            }        ]}    ],    temperature=0.0,)print(response.choices[0].message.content)

Consideremos ahora esta forma:

Forma para que GPT-4o calcule

Pasaremos la URL de la imagen a GPT-4o para encontrar el área de la forma:

response = client.chat.completions.create(    model=MODEL,    messages=[        {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"},        {"role": "user", "content": [            {"type": "text", "text": "What's the area of the shape in the image?"},            {"type": "image_url", "image_url": {                "url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"}            }        ]}    ],    temperature=0.0,)print(response.choices[0].message.content)

Observa que GPT-4o midió incorrectamente la anchura del rectángulo vertical: debería ser de cuatro centímetros, no de dos. Esta discrepancia se debe al desajuste entre las etiquetas de medida y las proporciones reales del rectángulo. En todo caso, esto pone de relieve una vez más la importancia de la supervisión y la validación humanas.

Precio de la API GPT-4o

OpenAI ha introducido una estructura de precios competitiva para la API GPT-4o, que la hace más accesible y rentable que los modelos anteriores.

Aquí tienes un resumen de los precios junto a los modelos Claude de Antropic y Gemini de Google (los precios están en dólares estadounidenses):

Comparación de precios GPT-4o

Como puedes ver, GPT-4o tiene un precio significativamente más bajo que GPT-4 Turbo y GPT-4. También tiene un precio competitivo en comparación con otros modelos de idiomas de última generación, como Claude Opus y Gemini 1.5 Pro.

GPT-4o API: Consideraciones clave

Cuando trabajes con la API GPT-4o, es importante recordar algunas consideraciones clave para garantizar un rendimiento óptimo, rentabilidad y alineación con cada caso de uso específico. Aquí tienes tres factores cruciales que debes tener en cuenta:

Fijación de precios y gestión de costes

La API de OpenAI sigue un modelo de pago por uso, en el que los costes se basan en el número de tokens procesados.

Aunque GPT-4o es más barato que GPT-4 Turbo, planificar nuestro uso en consecuencia es crucial para estimar y gestionar los costes.

Para minimizar los costes, puedes considerar técnicas como la agrupación por lotes y la optimización de los avisos para reducir el número de llamadas a la API y de tokens procesados.

Latencia y rendimiento

Aunque GPT-4o ofrece un rendimiento impresionante y una baja latencia, sigue siendo un modelo lingüístico grande, lo que significa que el procesamiento de las peticiones puede ser intensivo desde el punto de vista computacional, lo que provoca una latencia relativamente alta.

Tenemos que optimizar nuestro código y utilizar técnicas como el almacenamiento en caché y el procesamiento asíncrono para mitigar los problemas de latencia.

Además, podemos explorar el uso de las instancias dedicadas de OpenAI o ajustar el modelo a nuestro caso de uso específico, lo que puede mejorar el rendimiento y reducir la latencia.

Alineación de casos de uso

GPT-4o es un potente modelo general con una amplia gama de capacidades, pero tenemos que asegurarnos de que nuestro caso de uso específico se ajusta a los puntos fuertes del modelo.

Antes de confiar únicamente en GPT-4o, debemos evaluar cuidadosamente nuestro caso de uso y considerar si las capacidades del modelo se adaptan a nuestras necesidades.

Si fuera necesario, podríamos afinar modelos más pequeños o explorar otros modelos que pudieran ser más adecuados para nuestra tarea concreta.

Conclusión

Las capacidades multimodales de GPT-4o abordan las limitaciones de los modelos anteriores, que tenían dificultades para integrar y procesar sin problemas distintos tipos de datos.

Si aprovechan la API GPT-4o, los desarrolladores pueden crear soluciones innovadoras que integren a la perfección datos de texto, audio e imágenes.

Si quieres adquirir más práctica con GPT-4o, te recomiendo este code-along sobre la creación de asistentes de IA con GPT-4o. Del mismo modo, si quieres aprender más sobre cómo trabajar con API, te recomiendo estos recursos:

Preguntas frecuentes

¿Qué es el GPT-4o y en qué se diferencia de los modelos anteriores?

GPT-4o es un modelo de lenguaje multimodal desarrollado por OpenAI, capaz de procesar y generar datos de texto, audio y visuales. A diferencia de modelos anteriores como el GPT-4, que solo manejaba texto, el GPT-4o integra información sonora y visual, lo que permite interacciones más naturales y capacidades mejoradas en todas las modalidades.

¿Cómo pueden acceder los desarrolladores a GPT-4o a través de la API de OpenAI?

Los desarrolladores pueden acceder a GPT-4o a través de la API de OpenAI si se registran en una cuenta OpenAI, obtienen una clave API e instalan la biblioteca OpenAI Python.

¿Cuánto cuesta utilizar la API de GPT-4o y cómo se compara con otros modelos?

La API de GPT-4o sigue un modelo de pago por uso, con costes basados en el número de tokens procesados. En comparación con modelos anteriores como el GPT-4, el GPT-4o ofrece una reducción de costes del 50%, lo que lo hace más asequible. En el artículo se ofrece una comparación de precios con otros modelos.

¿Se puede ajustar GPT-4o para casos de uso o sectores específicos?

Sí, la GPT-4o puede ajustarse a casos de uso o sectores específicos mediante técnicas como el aprendizaje por transferencia. Al realizar un ajuste preciso sobre datos o tareas específicos del dominio, los desarrolladores pueden mejorar el rendimiento del modelo y adaptarlo a sus necesidades únicas.

¿Qué recursos hay disponibles para seguir aprendiendo y aplicar la API GPT-4o?

Hay disponibles varios recursos, como tutoriales, cursos y ejemplos prácticos, para seguir aprendiendo e implementar la API GPT-4o. El artículo recomienda explorar el curso de DataCamp Trabajar con la API de OpenAI, el Libro de cocina de OpenAI y la hoja de trucos de DataCamp para una referencia rápida y una guía práctica de implementación.

Temas

Aprende IA con estos cursos

programa

Fundamentos de la IA

10 horas hr
Descubre los fundamentos de la IA, sumérgete en modelos como ChatGPT y descifra los secretos de la IA generativa para navegar por el dinámico panorama de la IA.
Ver detallesRight Arrow
Comienza El Curso
Certificación disponible

curso

Desarrollo de sistemas de IA con la API OpenAI

3 hr
2.5K
Aprovecha la API OpenAI para preparar tus aplicaciones de IA para la producción.
Ver másRight Arrow
Relacionado
An avian AI exits its cage

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.
Abid Ali Awan's photo

Abid Ali Awan

9 min

tutorial

Uso de GPT-3.5 y GPT-4 mediante la API OpenAI en Python

En este tutorial, aprenderás a trabajar con el paquete OpenAI Python para mantener conversaciones programáticamente con ChatGPT.
Richie Cotton's photo

Richie Cotton

14 min

tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.
Zoumana Keita 's photo

Zoumana Keita

12 min

tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.
Arunn Thevapalan's photo

Arunn Thevapalan

13 min

tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

See MoreSee More