Saltar al contenido principal

O4-Mini de OpenAI: Pruebas, características, comparación con el O3 y más

Infórmate sobre el nuevo modelo de razonamiento o4-mini de OpenAI, sus capacidades, pruebas de rendimiento, rentabilidad y cómo se compara con otros modelos como el o3.
Actualizado 17 abr 2025  · 8 min de lectura

OpenAI ha presentado recientemente o4-mini, un nuevo modelo de razonamiento diseñado para ser más rápido y barato que o3, sin dejar de ser compatible con herramientas como Python, la navegación y la entrada de imágenes. A diferencia de o3-mini, también es multimodal por defecto.

En este artículo, examino más de cerca lo que o4-mini puede hacer realmente. He realizado algunas pruebas prácticas de matemáticas, código y entradas visuales, y he incluido las cifras oficiales de referencia de OpenAI para mostrar cómo se compara con modelos como o3 y o1.

También encontrarás detalles sobre precios, disponibilidad y cuándo tiene sentido elegir o4-mini frente a otros modelos.

Mantenemos a nuestros lectores al día de lo último en IA enviándoles The Median, nuestro boletín gratuito de los viernes que desglosa las noticias clave de la semana. Suscríbete y mantente alerta en sólo unos minutos a la semana:

¿Qué es O4-Mini?

O4-mini es el modelo de razonamiento a pequeña escala más reciente de OpenAI en la serie o. Está optimizado para la velocidad, la asequibilidad y el razonamiento potenciado por herramientas, con una ventana contextual de 200.000 tokens y soporte para hasta 100.000 tokens de salida, a la par con o3 y o1.

Detalles del modelo O4-mini

Fuente: OpenAI

En lo que más difiere es en el coste y la eficacia de la implantación. o4-mini cuesta 1,10 $ por millón de fichas de entrada y 4,40 $ por millón de fichas de salida, frente a los 10 $ de entrada y 40 $ de salida de o3, lo que supone una reducción de costes de aproximadamente 10 veces, tanto para la entrada como para la salida. Como veremos en la sección de pruebas comparativas, o4-mini ofrece un rendimiento comparable a o3.

precios o4-mini vs o3

Precio de la API de o4-mini (izquierda) frente al precio de o3 (derecha)

En cuanto a las herramientas, o4-mini es compatible con Python, la navegación y las entradas de imágenes, y se integra con los puntos finales estándar de OpenAI, incluidas las finalizaciones y respuestas de chat. Se admite el streaming, la llamada a funciones y las salidas estructuradas. El ajuste fino y las incrustaciones no lo son.

o4-mini vs. o4-mini-alto

Si has abierto la aplicación ChatGPT, habrás observado la opción de elegir entre o4-mini y o4-mini-high. o4-mini-high es una configuración del mismo modelo subyacente con un mayor esfuerzo de inferencia. Es decir:

  • Dedica más tiempo a procesar internamente cada consulta,
  • Generalmente produce resultados de mayor calidad, especialmente para tareas de varios pasos,
  • Pero con tiempos de respuesta más lentos y un uso de tokens potencialmente mayor.

Si necesitas terminaciones más rápidas, o4-mini puede ser la mejor opción. Para razonamientos más complejos (sobre todo si el razonamiento debe hacerse sobre codificación o entrada visual), contextos más largos o casos de uso en los que la precisión es crítica, o4-mini-high podría darte mejores resultados.

Prueba O4-Mini

Pongamos a prueba o4-mini con un poco de matemáticas, codificación y multimodal multimodal.

Matemáticas

En primer lugar, quería empezar con un cálculo sencillo que suele confundir a los modelos lingüísticos. No pretendía poner a prueba las habilidades aritméticas básicas, sino ver si el modelo elegía el método correcto para resolverlo, ya fuera razonando paso a paso o llamando a una herramienta como una calculadora.

o4-mini falla en aritmética básica

La salida fue errónea en el primer intento. Sugerí utilizar la calculadora, y aunque la segunda respuesta era correcta, seguía habiendo dos problemas. En primer lugar, describió el resultado como "aproximadamente", a pesar de que para esta resta no era necesario redondear ni estimar.

En segundo lugar, su razonamiento mostraba que en realidad no había utilizado la calculadora, a pesar de que la salida decía "La calculadora muestra" (lo que falsea cómo se obtuvo el resultado). Curiosamente, también buscó en Internet, lo que parece innecesario para un problema matemático básico.

o4-mini cadena de pensamiento

A continuación, probé el modelo en un problema matemático más difícil, y el resultado fue sólido esta vez. Respondió rápidamente y resolvió el problema mediante un breve script de Python, que pude ver directamente en su cadena de pensamiento. Poder inspeccionar el código como parte del proceso de razonamiento es una función realmente útil.

o4-mini test de matemáticas

Generar un juego corto en P5js

Hace unas semanas, cuando probé Géminis 2.5 Progeneré un rápido juego p5.js para ver cómo gestionaba las tareas de codificación creativa. Quería ejecutar la misma consulta con o4-mini, pero esta vez he utilizado o4-mini-high. El resultado no estuvo muy lejos del Gemini 2.5 Pro, lo que es estupendo teniendo en cuenta que se trata de un modelo más pequeño.

La pregunta era: Hazme un juego endless runner cautivador. Instrucciones clave en pantalla. Escena p5js, sin HTML. Me gustan los dinosaurios pixelados y los fondos interesantes.

Y el primer resultado:

Había algunas cosas que quería cambiar. Envié este mensaje de seguimiento:

1. Dibuja un dinosaurio más convincente: esa mancha no se parece en nada a un dinosaurio.

2. Da al usuario la opción de iniciar el juego pulsando una tecla; no lo inicies inmediatamente. Asegúrate de seguir manteniendo todas las instrucciones en la pantalla.

3. Cuando se acabe el juego, dale al usuario la oportunidad de volver a intentarlo.

El segundo resultado:

Ese dinosaurio me parece más bien una vieja cámara de cine, pero el resto es genial.

Razonamiento multimodal con grandes entradas

Stanford ha publicado recientemente Informe sobre el Índice de IA 2025un resumen de 450 páginas (117.649 fichas) sobre el estado actual de la industria de la IA. Pedí a o4-mini-high que lo leyera y predijera 10 tendencias para 2026. Realizó bien la tarea y la completó en sólo 9 segundos.

Estas son las tendencias que predijo para 2026:

  1. Rendimiento casi humano en nuevas pruebas de razonamiento
  2. Inferencia de coste ultrabajo para LLM de producción
  3. Tuberías de entrenamiento sintético-más datos reales
  4. Adopción generalizada de hardware nativo de IA
  5. Modelos de cimentación multimodal normalizados
  6. Regímenes de Certificación y Auditoría de Inteligencia Artificial Responsable
  7. El descubrimiento científico impulsado por la IA acelera el trabajo ganador del Nobel
  8. Marcos de Gobernanza de la IA Localizados con Alineación Global
  9. Democratización de la educación en IA y preparación de la mano de obra
  10. Agentes de IA como trabajadores del conocimiento colaborativos

La mayoría tenían sentido, aunque algunas predicciones se inclinan hacia el optimismo. Toma número dos: sí, los costes de inferencia están bajando, pero "ultrabajos" es una exageración, sobre todo para los modelos más grandes y las implantaciones menos optimizadas.

El número cuatro es similar: El hardware nativo de IA está progresando, pero su adopción generalizada depende de las cadenas de suministro, la integración del software y el apoyo del ecosistema, todo lo cual lleva su tiempo.

En cuanto al número nueve, aún estamos bastante lejos de algo que pueda llamarse democratización completa de la educación en IA, pero para ser justos, el modelo no decía "completa".

Puntos de referencia O4-Mini

O4-mini se diseñó para ser un modelo rápido y económico, pero aún así rinde bien en un amplio conjunto de pruebas de razonamiento. En algunos casos, incluso supera a modelos más grandes como el o3.

Matemáticas y lógica

Estas pruebas se centran en el razonamiento estructurado, y a menudo requieren múltiples pasos para resolver correctamente problemas matemáticos. Los puntos de referencia del AIME, por ejemplo, proceden de concursos de matemáticas de secundaria.

  • AIME 2024puntuaciones o4-mini (sin herramientas) 93.4%superando a o3 (91,6%), o3-mini (87,3%) y o1 (74,3%).
  • AIME 2025puntuaciones o4-mini (sin herramientas) 92.7%superando de nuevo a o3 (88,9%), o3-mini (86,5%) y o1 (79,2%)

o4-mini en el punto de referencia AIME

Fuente: OpenAI

Codificación

Estos puntos de referencia ponen a prueba la capacidad del modelo para escribir, depurar y comprender código. Codeforces es un conjunto de datos de programación competitiva, mientras que SWE-Bench y Aider Polyglot simulan tareas de ingeniería del mundo real.

  • Codeforceso4-mini (con terminal) obtiene un ELO de 2719ligeramente por encima de o3 (2706). o3-mini obtiene 2073y o1 se queda muy atrás con 1891.
  • SWE-Bench VerificadoPuntuaciones de o4-mini 68.1%justo por detrás de o3 con 69.1%y por delante de o1 (48,9%) y o3-mini (49,3%).
  • Aider Polyglot (edición de código): o4-mini-alta puntuación 68,9% (entero) y 58,2% (diff). En comparación, las puntuaciones o3-altas 81,3% (total) y 79,6% (dif).

pruebas o4-mini en aider polyglot

Fuente: OpenAI

Razonamiento multimodal

Estos puntos de referencia miden lo bien que el modelo procesa entradas visuales como diagramas, gráficos y figuras. Las pruebas combinan la comprensión de imágenes con el razonamiento lógico.

  • MMMUpuntuaciones o4-mini 81.6%cerca de o3 (82,9%) y mejor que o1 (77,6%).
  • MathVistaPuntuaciones de o4-mini 84.3%por detrás de o3 (86,8%), pero significativamente por encima de o1 (71,8%).
  • CharXiv (cifras científicas)o4-mini alcanza 72.0%por detrás de o3 (78,6%) pero por encima de o1 (55,1%).

o4-mini puntos de referencia sobre razonamiento multimodal

Fuente: OpenAI

Garantía general de calidad y razonamiento

Estos conjuntos de datos ponen a prueba la capacidad de respuesta a preguntas generales, incluidas preguntas científicas de nivel de doctorado y razonamiento abierto en todas las asignaturas. A menudo se requiere el uso de herramientas para puntuar bien.

  • Diamante GPQApuntuaciones o4-mini 81.4%por detrás de o3 (83,3%) pero por encima de o1 (78,0%) y o3-mini (77,0%).
  • El último examen de la humanidad:
    • o4-mini (sin herramientas): 14.28%
    • o4-mini (con Python + navegación): 17.70%
    • Para contextualizar, o3 (con herramientas) obtuvo 24.90%y Deep Research obtuvo 26.60%.

o4-mini puntos de referencia sobre la GC general

Fuente: OpenAI

O4-Mini vs O3: ¿Cuál debes utilizar?

O4-mini y o3 se basan en la misma filosofía de diseño subyacente: modelos que pueden razonar con herramientas, pensar paso a paso y trabajar con texto, código e imágenes. Pero están hechos para diferentes compensaciones. Resumiendo:

  • Elige o3 si la precisión es tu máxima prioridad y el coste te preocupa menos.
  • Elige o4-mini si la velocidad, el volumen o la rentabilidad son más importantes que conseguir unos puntos de referencia adicionales.

El O3 es más fuerte en general

O3 obtiene mejores resultados que o4-mini en pruebas de referencia como CharXiv, MathVista y Humanity's Last Exam. También muestra una mayor coherencia en tareas complejas que requieren cadenas de razonamiento más largas o una generación de código precisa. Si trabajas en problemas de investigación, flujos de trabajo científicos o cualquier cosa en la que la precisión importe más que la velocidad o el coste, o3 es probablemente la elección más segura.

O4-mini es mucho más barato y rápido

La diferencia de precio es significativa: o4-mini cuesta 1,10 $ de entrada y 4,40 $ de salida, frente a o3 a 10 $ y 40 $ respectivamente. Eso supone una diferencia de casi 10 veces en todos los ámbitos. También obtienes tiempos de respuesta más rápidos y un mayor rendimiento, lo que lo hace más adecuado para entornos de producción, herramientas en tiempo real o cualquier cosa que se ejecute a escala.

La multimodalidad no es un factor decisivo

Ambos modelos son multimodales y aptos para herramientas. Ambos admiten Python, navegación y visión. Si sólo buscas ese conjunto de funciones, cualquiera de los dos te servirá.

Cómo acceder a o4-mini en ChatGPT y API

Puedes utilizar o4-mini tanto en ChatGPT como en la API OpenAI, dependiendo de tu plan.

En ChatGPT

Si utilizas ChatGPT con una suscripción Plus, Pro o Team, o4-mini ya está disponible. Lo verás catalogado como "o4-mini" y "o4-mini-alto" en el selector de modelos.

o4-mini en chatgpt

Sustituyen a las antiguas opciones o3-mini y o1. Los usuarios gratuitos también pueden probar o4-mini de forma limitada seleccionando el modo "Pensar" en el compositor antes de enviar una solicitud. Ten en cuenta que:

  • o4-mini es la versión rápida por defecto.
  • o4-mini-carreras con mayor esfuerzo de inferencia para obtener mejor calidad a costa de la velocidad.

En la API

o4-mini también está disponible a través de la API de OpenAI en los puntos finales "Finalización del chat" y "Respuestas". Ambas versiones (estándar y alta) admiten el uso de herramientas, incluyendo la navegación, Python y la entrada de imágenes, dependiendo de cómo hayas configurado tu conjunto de herramientas.

El ID del modelo de la instantánea actual es o4-mini-2025-04-16 . El precio es de 1,10 $ por millón de tokens de entrada y 4,40 $ por millón de tokens de salida, y admite almacenamiento en caché y por lotes. Si trabajas con la API de Respuestas, también obtienes visibilidad del token de razonamiento y más control sobre la ejecución de herramientas dentro de cadenas de varios pasos.

Conclusión

o4-mini ofrece un sólido rendimiento en tareas matemáticas, de código y multimodales, al tiempo que reduce los costes de inferencia en un orden de magnitud en comparación con o3. Los puntos de referencia demuestran que resiste bien, incluso en tareas en las que los modelos suelen tener dificultades, como el razonamiento multimodal o la codificación.

También es la primera vez que un modelo mini de OpenAI incluye soporte completo de herramientas y multimodalidad nativa. Sólo por eso ya está por delante de o3-mini y o1, a los que sustituye en la mayoría de los niveles de ChatGPT. Y con la incorporación de o4-mini-high, los usuarios tienen un poco más de control sobre el equilibrio entre velocidad y calidad de salida.

Que o4-mini sea el modelo adecuado depende de la tarea. No superará a o3 en términos de capacidad bruta, pero para cualquier cosa que necesite ejecutarse rápidamente, escalar con facilidad o mantenerse dentro de un presupuesto más ajustado, es una opción sólida y, en muchos casos, suficientemente buena.

Preguntas frecuentes

¿Puedo ajustar o4-mini?

No. Por ahora, el ajuste fino no es compatible con o4-mini.

¿Qué herramientas soporta o4-mini en la API?

o4-mini funciona con herramientas como Python, análisis de imágenes y navegación web, dependiendo de la configuración. 

¿Qué es la ventana contextual de o4-mini?

o4-mini admite una ventana de contexto de 200.000 tokens, con un máximo de 100.000 tokens de salida. Esto le permite manejar documentos largos, transcripciones o tareas de razonamiento de varios pasos sin truncarlos.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Soy editora y redactora de blogs, tutoriales y noticias sobre IA, y me aseguro de que todo se ajuste a una sólida estrategia de contenidos y a las mejores prácticas de SEO. He escrito cursos de ciencia de datos sobre Python, estadística, probabilidad y visualización de datos. También he publicado una novela premiada y dedico mi tiempo libre a escribir guiones y dirigir películas.

Temas

Aprende IA con estos cursos

Programa

Desarrollo de aplicaciones de IA

21 horas hr
Aprende a crear aplicaciones potenciadas por IA con las últimas herramientas para desarrolladores de IA, como la API OpenAI, Hugging Face y LangChain.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.
Abid Ali Awan's photo

Abid Ali Awan

9 min

An avian AI exits its cage

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

Todo lo que sabemos sobre GPT-5

Descubre cómo GPT-5 evolucionará hasta convertirse en un sistema unificado con funciones avanzadas, cuyo lanzamiento está previsto para el verano de 2025, basándose en la última hoja de ruta de OpenAI y en la historia de GPT.
Josep Ferrer's photo

Josep Ferrer

8 min

blog

¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características

Descubre Sora de OpenAI a través de vídeos de ejemplo y explora sus funciones, como Remix, Re-cut, Loop, Storyboard, Blend y Style Preset.
Richie Cotton's photo

Richie Cotton

8 min

Tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.
Zoumana Keita 's photo

Zoumana Keita

12 min

Tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.
Arunn Thevapalan's photo

Arunn Thevapalan

13 min

Ver másVer más