GPT-4o API Tutorial: Introducción a la API de OpenAI

Para conectarte a través de la API de GPT-4o, obtén tu clave API de OpenAI, instala la biblioteca Python de OpenAI y utilízala para enviar solicitudes y recibir respuestas de los modelos GPT-4o.

Actualizado 9 jul 2025 · 8 min de lectura

El GPT-4o de OpenAI integra capacidades de audio, visión y texto en un único y potente modelo lingüístico.

Este avance supone un paso importante hacia una interacción más natural e intuitiva entre los seres humanos y los ordenadores.

En este tutorial, te proporcionaré una guía paso a paso sobre cómo utilizar GPT-4o a través de la API de OpenAI.

Aunque OpenAI ha lanzado recientemente el modelo o3, su modelode razonamiento más capaz, GPT-4o y GPT-4o mini siguen siendo las mejores opciones para aplicaciones que requieren respuestas rápidas, manejo de imágenes o llamadas a funciones. Si tu proyecto requiere un razonamiento avanzado, no te pierdas este tutorial sobre la API O1 de OpenAI, que te guiará a través del proceso de uso de un modelo de razonamiento a través de la API.

¿Qué es GPT-4o?

GPT-4o, abreviatura de «omni», representa un avance significativo en la IA. A diferencia de GPT-4, que solo maneja texto, GPT-4o es un modelo multimodal que procesa y genera texto, audio y datos visuales.

Al incorporar datos audiovisuales junto con el texto, GPT-4o se libera de las limitaciones de los modelos tradicionales basados únicamente en texto, creando interacciones más naturales e intuitivas.

GPT-4o tiene un tiempo de respuesta más rápido, es un 50 % más barato que GPT-4 Turbo y es mejor en la comprensión de audio y visión que los modelos existentes.

Si deseas obtener una descripción más detallada de GPT-4o, consulta este artículo sobre ¿Qué es GPT-4o de OpenAI?

Casos de uso de GPT-4o

Además de interactuar con GPT-4o a través de la interfaz ChatGPT, los programadores pueden interactuar con GPT-4o a través de la API de OpenAI, lo que les permite integrar las capacidades de GPT-4o en vuestras aplicaciones y sistemas.

La API GPT-4o abre un amplio arreglo de posibles casos de uso gracias a sus capacidades multimodales:

Modalidad	Casos de uso	Descripción
Texto	Generación de texto, resumen de texto, análisis de datos y codificación	Creación de contenido, resúmenes concisos, explicaciones de código y asistencia en la codificación.
Audio	Transcripción de audio, traducción en tiempo real, generación de audio	Convierte audio a texto, traduce en tiempo real, crea asistentes virtuales o aprende idiomas.
Visión	Subtitulado de imágenes, análisis y lógica de imágenes, accesibilidad para personas con discapacidad visual	Describe imágenes, analiza información visual y proporciona accesibilidad a personas con discapacidad visual.
Multi	Interacciones multimodales, escenarios de juego de roles	Combina modalidades a la perfección y crea experiencias inmersivas.

GPT-4o API: Cómo conectarse a la API de OpenAI

Ahora exploremos cómo utilizar GPT-4o a través de la API de OpenAI.

Paso 1: Generar una clave API

Antes de utilizar la API GPT-4o, debemos registrarte en OpenAI y obtener una clave API. Podemos crear una cuenta en el sitio web de OpenAI API.

Una vez que tengas una cuenta, puedes navegar a la página de claves API:

Ahora podemos generar una clave API. Tenemos que guardarlo bien, ya que no podremos volver a verlo. Pero siempre podemos generar uno nuevo si lo perdemos o necesitamos uno para un proyecto diferente.

Paso 2: Importa la API de OpenAI a Python

Para interactuar con la API de GPT-4o mediante programación, necesitaremos instalar la biblioteca Python de OpenAI. Podemos hacerlo ejecutando el siguiente comando:

Una vez instalado, podemos importar los módulos necesarios a nuestro script de Python:

from openai import OpenAI

Paso 3: Realizar una llamada API

Antes de poder realizar solicitudes API, tendremos que autenticarnos con nuestra clave API:

# Set the API keyclient = OpenAI(api_key="your_api_key_here")

Reemplaza "your_api_key_here" por tu clave API real.

Una vez completada la conexión con el cliente, podemos empezar a generar texto utilizando GPT-4o:

MODEL = "gpt-4o"completion = client.chat.completions.create(    model=MODEL,    messages=[        {"role": "system", "content": "You are a helpful assistant that helps me with my math homework!"},        {"role": "user", "content": "Hello! Could you solve 20 x 5?"}    ])print("Assistant: " + completion.choices[0].message.content)

Este fragmento de código utiliza la API de autocompletado de chat con el modelo GPT-4o, que acepta preguntas relacionadas con las matemáticas como entrada y genera una respuesta:

GPT-4o API: Casos de uso de audio

La transcripción y el resumen de audio se han convertido en herramientas esenciales en diversas aplicaciones, desde la mejora de la accesibilidad hasta el aumento de la productividad. Con la API GPT-4o, podemos gestionar de forma eficiente tareas como la transcripción y el resumen de contenido de audio.

Aunque GPT-4o tiene el potencial de manejar audio directamente, la función de entrada de audio directa aún no está disponible a través de la API. Por ahora, podemos utilizar un proceso de dos pasos con la API GPT-4o para transcribir y luego resumir el contenido de audio.

Paso 1: Transcribir audio a texto

Para transcribir un archivo de audio con GPT-4o, debemos proporcionar los datos de audio a la API. Aquí tienes un ejemplo:

# Transcribe the audioaudio_path = "path/to/audio.mp3"transcription = client.audio.transcriptions.create(    model="whisper-1",    file=open(audio_path, "rb"),)

Reemplaza "path/to/audio.mp3" por la ruta real de tu archivo de audio. Este ejemplo utiliza el modelo de transcripción « whisper-1 » (palabra, frase, oración, párrafo, párrafo, oración, frase

Paso 2: Resume el texto del audio.

response = client.chat.completions.create(    model=MODEL,    messages=[        {            "role": "system",            "content": """You are generating a transcript summary. Create a summary of the provided transcription. Respond in Markdown."""        },        {            "role": "user",            "content": [                {"type": "text", "text": f"The audio transcription is: {transcription.text}"}            ],        }    ],    temperature=0,)print(response.choices[0].message.content)

GPT-4o API: Casos de uso de la visión

El análisis visual de datos es fundamental en diversos ámbitos, desde la sanidad hasta la seguridad, entre otros. Con la API GPT-4o, puedes analizar imágenes a la perfección, participar en conversaciones sobre contenido visual y extraer información valiosa de las imágenes.

Paso 1: Añadir datos de imagen a la API

Para analizar una imagen con GPT-4o, primero debemos proporcionar los datos de la imagen a la API. Podemos hacerlo codificando una imagen local como una cadena base64 o proporcionando una URL a una imagen en línea:

import base64IMAGE_PATH = "image_path"# Open the image file and encode it as a base64 stringdef encode_image(image_path):    with open(image_path, "rb") as image_file:        return base64.b64encode(image_file.read()).decode("utf-8")base64_image = encode_image(IMAGE_PATH)

 "url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"

Paso 2: Analiza los datos de la imagen.

Una vez procesada la imagen introducida, podemos pasar los datos de la imagen a la API para su análisis.

Intentemos analizar una imagen para determinar el área de una forma. Primero, utilicemos la imagen siguiente:

Ahora le pediremos a GPT-4o que calcule el área de esta forma. Observa que estamos utilizando una imagen en formato base64 como entrada:

response = client.chat.completions.create(    model=MODEL,    messages=[        {            "role": "system",            "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"        },        {            "role": "user",            "content": [                {"type": "text", "text": "What's the area of the shape in this image?"},                {                    "type": "image_url",                    "image_url": {                        "url": f"data:image/png;base64,{base64_image}"                    }                }            ]        }    ],    temperature=0.0,)print(response.choices[0].message.content)

Consideremos ahora esta forma:

Pasaremos la URL de la imagen a GPT-4o para encontrar el área de la forma:

response = client.chat.completions.create(    model=MODEL,    messages=[        {            "role": "system",            "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"        },        {            "role": "user",            "content": [                {"type": "text", "text": "What's the area of the shape in the image?"},                {                    "type": "image_url",                    "image_url": {                        "url": "https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp"                    }                }            ]        }    ],    temperature=0.0,)print(response.choices[0].message.content)

Observa que GPT-4o midió incorrectamente el ancho del rectángulo vertical: debería ser cuatro centímetros, no dos. Esta discrepancia se debe a la desalineación entre las etiquetas de medición y las proporciones reales del rectángulo. En todo caso, esto pone de relieve una vez más la importancia de la supervisión y la validación humanas.

Precios de la API GPT-4o

A partir de julio de 2025, el precio de pago por uso de GPT-4o será el siguiente:

Tokens de entrada: 5,00 $ por cada millón de tokens
Tokens de entrada almacenados en caché: 2,50 $ por cada millón de tokens
Tokens de salida: 20,00 $ por cada millón de tokens

GPT-4o Mini: Una alternativa rentable

Para aplicaciones que requieren llamadas API de gran volumen, OpenAI ofrece GPT-4o Mini, una versión optimizada de GPT-4o:

Tokens de entrada: 0,60 $ por cada millón de tokens
Tokens de entrada almacenados en caché: 0,30 $ por millón de tokens
Tokens de salida: 2,40 $ por millón de tokens

Descuentos por API por lotes

La API por lotes de OpenAI ofrece un descuento del 50 % en los costes de tokens de entrada y salida para GPT-4o:

Tokens de entrada: 2,50 $ por cada millón de tokens
Tokens de salida: 10,00 $ por cada millón de tokens

Esto es ideal para procesar grandes volúmenes de datos de forma asíncrona.

GPT-4o API: Consideraciones clave

Al trabajar con la API de GPT-4o, es importante tener en cuenta algunas consideraciones clave para garantizar un rendimiento óptimo, la rentabilidad y la alineación con cada caso de uso específico. Aquí hay tres factores cruciales a tener en cuenta:

Gestión de precios y costes

La API de OpenAI sigue un modelo de pago por uso, en el que los costes se incurren en función del número de tokens procesados.

Aunque GPT-4o es más barato que GPT-4 Turbo, planificar tu uso en consecuencia es fundamental para estimar y gestionar los costes.

Para minimizar los costes, puedes considerar técnicas como la agrupación y la optimización de las solicitudes para reducir el número de llamadas a la API y los tokens procesados.

Latencia y rendimiento

Aunque GPT-4o ofrece un rendimiento impresionante y una baja latencia, sigue siendo un modelo de lenguaje grande, lo que significa que el procesamiento de las solicitudes puede requerir un gran esfuerzo computacional, lo que da lugar a una latencia relativamente alta.

Necesitamos optimizar nuestro código y utilizar técnicas como el almacenamiento en caché y el procesamiento asíncrono para mitigar los problemas de latencia.

Además, podemos explorar el uso de instancias dedicadas de OpenAI o ajustar el modelo a vuestro caso de uso específico, lo que puede mejorar el rendimiento y reducir la latencia.

Alineación de casos de uso

GPT-4o es un potente modelo general con una amplia gama de capacidades, pero debemos asegurarnos de que vuestro caso de uso específico se ajusta a los puntos fuertes del modelo.

Antes de confiar únicamente en GPT-4o, debemos evaluar cuidadosamente nuestro caso de uso y considerar si las capacidades del modelo se ajustan a nuestras necesidades.

Si fuera necesario, podríamos ajustar modelos más pequeños o explorar otros modelos que puedan ser más adecuados para nuestra tarea concreta.

Conclusión

Las capacidades multimodales de GPT-4 superan las limitaciones de los modelos anteriores, que tenían dificultades para integrar y procesar diferentes tipos de datos de forma fluida.

Al aprovechar la API GPT-4o, los programadores pueden crear soluciones innovadoras que integran a la perfección datos de texto, audio y visuales.

Si deseas practicar más con GPT-4o, te recomiendo este código para crear asistentes de IA con GPT-4o. Del mismo modo, si deseas obtener más información sobre cómo trabajar con API, te recomiendo estos recursos:

¿Qué es GPT-4o y en qué se diferencia de los modelos anteriores?

¿Cómo pueden los programadores acceder a GPT-4o a través de la API de OpenAI?

¿Cuáles son los costes de utilizar la API GPT-4o y cómo se compara con otros modelos?

¿Se puede ajustar GPT-4o para casos de uso o sectores específicos?

¿Qué recursos hay disponibles para seguir aprendiendo y aplicando la API GPT-4o?

¿Cuándo debo usar GPT-4o en lugar de GPT-4o-mini?

¿En qué se diferencia la API GPT-4o de la API o1 en casos de uso específicos?

Mientras que GPT-4o es excelente para tareas que implican datos multimodales (texto, audio e imágenes), la API o1 destaca en tareas complejas de razonamiento y resolución de problemas, especialmente en ciencias, codificación y matemáticas. Si necesitas respuestas rápidas con un razonamiento moderado, GPT-4o es tu mejor opción. Sin embargo, para tareas que requieren un análisis lógico profundo y precisión, como generar código complejo o resolver problemas matemáticos avanzados, la API o1 ofrece capacidades más potentes.

Introducción a los agentes de IA

Aprende los fundamentos de los agentes de IA, sus componentes y su uso en el mundo real, sin necesidad de programar.

Explora el curso

Author

Ryan Ong

Ryan es un científico de datos líder especializado en la creación de aplicaciones de IA utilizando LLMs. Es candidato al doctorado en Procesamiento del Lenguaje Natural y Grafos de Conocimiento en el Imperial College de Londres, donde también completó su máster en Informática. Fuera de la ciencia de datos, escribe un boletín semanal de Substack, The Limitless Playbook, donde comparte una idea procesable de los mejores pensadores del mundo y ocasionalmente escribe sobre conceptos básicos de la IA.

Temas

Inteligencia Artificial

Python

¡Aprende IA con estos cursos!

Programa

Fundamentos de la IA

0 min

Descubre los fundamentos de la IA, sumérgete en modelos como ChatGPT y descifra los secretos de la IA generativa para navegar por el dinámico panorama de la IA.

Ver detalles

Comienza el curso

Programa

Fundamentos empresariales de la IA

0 min

Acelera tu viaje hacia la IA, conquista ChatGPT y desarrolla una estrategia global de Inteligencia Artificial.

Ver detalles

Comienza el curso

Curso

Desarrollar sistemas de IA con la API OpenAI

3 h

12.6K

Aprovecha la API OpenAI para preparar tus aplicaciones de IA para la producción.

Ver detalles

Comienza el curso

Relacionado

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

Tutorial

Uso de GPT-3.5 y GPT-4 mediante la API OpenAI en Python

En este tutorial, aprenderás a trabajar con el paquete OpenAI Python para mantener conversaciones programáticamente con ChatGPT.

Richie Cotton

Tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.

Zoumana Keita

Tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.

Arunn Thevapalan

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Ver más Ver más

¿Qué es GPT-4o?

Casos de uso de GPT-4o

GPT-4o API: Cómo conectarse a la API de OpenAI

Paso 1: Generar una clave API

Paso 2: Importa la API de OpenAI a Python

Paso 3: Realizar una llamada API

GPT-4o API: Casos de uso de audio

Paso 1: Transcribir audio a texto

Paso 2: Resume el texto del audio.

GPT-4o API: Casos de uso de la visión

Paso 1: Añadir datos de imagen a la API

Paso 2: Analiza los datos de la imagen.

Precios de la API GPT-4o

GPT-4o Mini: Una alternativa rentable

Descuentos por API por lotes

GPT-4o API: Consideraciones clave

Gestión de precios y costes

Latencia y rendimiento

Alineación de casos de uso

Conclusión

Preguntas frecuentes

¿Cuáles son los costes de utilizar la API GPT-4o y cómo se compara con otros modelos?

¿Se puede ajustar GPT-4o para casos de uso o sectores específicos?

¿Qué recursos hay disponibles para seguir aprendiendo y aplicando la API GPT-4o?

¿Cuándo debo usar GPT-4o en lugar de GPT-4o-mini?

¿En qué se diferencia la API GPT-4o de la API o1 en casos de uso específicos?

Introducción a los agentes de IA

12 alternativas de código abierto a GPT-4

¿Qué es GPT-4 y por qué es importante?

Uso de GPT-3.5 y GPT-4 mediante la API OpenAI en Python

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Visión GPT-4: Guía completa para principiantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de la IA

Fundamentos empresariales de la IA

Desarrollar sistemas de IA con la API OpenAI

12 alternativas de código abierto a GPT-4

¿Qué es GPT-4 y por qué es importante?

Uso de GPT-3.5 y GPT-4 mediante la API OpenAI en Python

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Visión GPT-4: Guía completa para principiantes

Fundamentos de la IA