Saltar al contenido principal

O3 de OpenAI: Características, comparación con el O1, fecha de lanzamiento y más

Infórmate sobre o3 y o3 mini de OpenAI, incluidas sus fechas de lanzamiento, características clave, avances en AGI de ARC e innovaciones de seguridad como la alineación deliberativa.
Actualizado 20 dic 2024  · 8 min de lectura

OpenAI concluyó su evento de 12 días presentando o3su último modelo de IA, junto con su hermano más económico, o3 mini.

La decisión de omitir el o2 no fue aleatoria. Aunque OpenAI hizo referencia a la marca O2 de Telefónica como parte del razonamiento, sospechamos que también fue un movimiento estratégico para señalar un salto adelante más sustancial. Sam Altman bromeó durante el anuncio diciendo que los nombres no son su fuerte, pero la elección parece calculada.

O3 se centra en gran medida en el razonamiento, con capacidades diseñadas para manejar tareas complejas de codificación, matemáticas e inteligencia general. OpenAI está empezando con pruebas de seguridad pública en lugar de un lanzamiento completo, lo que creemos que refleja un enfoque prudente y transparente. Si los primeros resultados se mantienen, o3 podría marcar un paso notable en la progresión de los modelos de IA.

Fundamentos de OpenAI

¡Empieza a utilizar la API OpenAI y mucho más!

Empieza ahora

¿Qué es OpenAI O3?

O3 es el último modelo de frontera de OpenAI, diseñado para hacer avanzar las capacidades de razonamiento en una serie de tareas complejas. Anunciado junto a su homólogo más pequeño, el o3 mini, se centra en abordar retos de codificación, matemáticas e inteligencia general.

Consideramos que el o3 destaca por su énfasis en pruebas más duras que ponen a prueba el razonamiento de formas que los modelos anteriores no han abordado del todo. OpenAI ha destacado sus mejoras respecto a o1, posicionándolo como un sistema más capaz de manejar la resolución de problemas complejos.

O1 vs o3 en codificación

O1 vs o3 en codificación. Fuente: OpenAI

Actualmente, el O3 no está disponible para uso general. OpenAI está empezando con pruebas de seguridad pública, invitando a los investigadores a explorar sus puntos fuertes y sus limitaciones. Creemos que este enfoque colaborativo refleja un reconocimiento cada vez mayor de la necesidad de una evaluación cuidadosa a medida que los modelos de IA son cada vez más capaces.

O1 vs. O3

O3 se basa directamente en los cimientos establecidos por o1, pero las mejoras son significativas en áreas clave. OpenAI ha posicionado o3 como un modelo diseñado para manejar tareas de razonamiento más complejas, con mejoras de rendimiento reflejadas en sus puntos de referencia.

Codificación

Hemos observado algunas diferencias claras entre los dos modelos (véase el gráfico anterior). En las tareas de codificación de tipo software, O3 consiguió un 71,7% de precisión en Bench Verified, una mejora sustancial respecto a o1.

Del mismo modo, en programación competitiva, o3 alcanzó una puntuación ELO de 2727, superando con creces el máximo anterior de o1 de 1891. Estas cifras indican un enfoque en el avance de la capacidad del modelo para afrontar los retos de codificación del mundo real.

Matemáticas y ciencias

Las mejoras no se limitan a la codificación. o3 también destacó en razonamiento matemático, con un 96,7% de acierto en el AIME 2024, frente al 83,3% de o1. Estos avances sugieren un modelo que puede manejar problemas más matizados y difíciles, acercándose a puntos de referencia tradicionalmente dominados por expertos humanos.

O1 vs o3 en matemáticas y ciencias

O1 vs o3 en matemáticas y ciencias. Fuente: OpenAI

El salto es igualmente evidente en los puntos de referencia relacionados con la ciencia. En el GPQA Diamond, que mide el rendimiento en preguntas científicas de nivel de doctorado, o3 alcanzó una precisión del 87,7%, por encima del 78% de o1. Estos avances demuestran una amplia mejora de la capacidad del modelo para resolver problemas técnicamente exigentes en todas las disciplinas.

EpochAI Frontera Matemática

Un área en la que los progresos de o3 son especialmente notables es en la prueba comparativa EpochAI Frontier Math.

Se considera uno de los puntos de referencia más desafiantes de la IA porque consiste en problemas novedosos e inéditos, diseñados intencionadamente para que sean mucho más difíciles que los conjuntos de datos estándar. Muchos de estos problemas están al nivel de la investigación matemática, y a menudo requieren horas o incluso días a matemáticos profesionales para resolver un solo problema. Los sistemas de IA actuales suelen obtener una puntuación inferior al 2% en este parámetro, lo que pone de manifiesto su dificultad.

O3 en EpochAI Frontier Math

O3 en EpochAI Frontier Math. Fuente: OpenAI

Las Matemáticas Fronterizas de Epic AI son importantes porque llevan a los modelos más allá de la memorización u optimización de patrones familiares. En cambio, pone a prueba su capacidad para generalizar, razonar de forma abstracta y abordar problemas que no se han planteado antes, rasgos esenciales para el avance de las capacidades de razonamiento de la IA. La puntuación de 25,2% de o3 en este punto de referencia parece un avance significativo.

Avance de O3 en ARC AGI

Uno de los logros más sorprendentes de o3 es su rendimiento en la prueba de referencia ARC AGI, una prueba ampliamente considerada como patrón oro para evaluar la inteligencia general en la IA.

Desarrollado en 2019 por François Chollet, el ARC (Corpus de Abstracción y Razonamiento) se centra en evaluar la capacidad de una IA para aprender y generalizar nuevas habilidades a partir de ejemplos mínimos. A diferencia de los puntos de referencia tradicionales, que suelen poner a prueba el conocimiento preformado o el reconocimiento de patrones, las tareas ARC están diseñadas para desafiar a los modelos a inferir reglas y transformaciones sobre la marcha, tareas que los humanos pueden resolver intuitivamente, pero con las que la IA ha tenido históricamente dificultades.

Lo que hace que el ARC AGI sea especialmente difícil es que cada tarea requiere distintas capacidades de razonamiento. Los modelos no pueden basarse en soluciones o plantillas memorizadas, sino que deben adaptarse a retos totalmente nuevos en cada prueba. Por ejemplo, una tarea podría implicar la identificación de patrones en transformaciones geométricas, mientras que otra podría requerir el razonamiento sobre secuencias numéricas. Esta diversidad hace que ARC AGI sea una poderosa medida de lo bien que una IA puede pensar y aprender realmente como un humano.

Ejemplo de tarea del test ARC AGI

¿Puedes adivinar la lógica por la que la entrada se transforma en salida? Fuente: OpenAI

El rendimiento de o3 en ARC AGI marca un hito importante. En configuraciones de bajo cálculo, el o3 obtuvo un 76% en el conjunto semiprivado de espera, una cifra muy superior a la de cualquier modelo anterior.

Cuando se probó con ajustes de alta computación, alcanzó un 88% aún más impresionante, superando el umbral del 85% citado a menudo como rendimiento de nivel humano. Es la primera vez que una IA supera a los humanos en este punto de referencia, estableciendo un nuevo estándar para las tareas basadas en el razonamiento.

Rendimiento de la serie O en ARC AGI

Rendimiento de la serie O. Fuente: ArcPrize

Creemos que estos resultados son especialmente dignos de mención porque demuestran la capacidad de o3 para realizar tareas que exigen adaptabilidad y generalización en lugar de conocimiento memorístico o cálculo de fuerza bruta. Es un claro indicio de que el o3 se está acercando a la verdadera inteligencia general, yendo más allá de las capacidades específicas de un dominio y adentrándose en áreas que antes se consideraban territorio exclusivamente humano.

¿Qué es o3 Mini?

o3 mini se introdujo junto a o3 como una alternativa rentable diseñada para llevar las capacidades avanzadas de razonamiento a más usuarios, manteniendo el rendimiento. OpenAI lo describió como una redefinición de la "frontera coste-rendimiento" en los modelos de razonamiento, haciéndolo accesible para tareas que exigen una gran precisión pero necesitan equilibrar las limitaciones de recursos.

Una de las características destacadas de o3 mini es su tiempo de pensamiento adaptativo, que permite a los usuarios ajustar el esfuerzo de razonamiento del modelo en función de la complejidad de la tarea. Para problemas más sencillos, los usuarios pueden seleccionar razonamiento de bajo esfuerzo para maximizar la velocidad y la eficacia.

Para tareas más exigentes, las opciones de mayor esfuerzo de razonamiento permiten al modelo rendir a niveles comparables al propio o3, pero a una fracción del coste. Esta flexibilidad es especialmente atractiva para los desarrolladores e investigadores que trabajan en diversos casos de uso.

Puntos de referencia del O3 mini

Puntos de referencia del O3 mini. Fuente: OpenAI

La demostración en directo mostró cómo o3 mini cumple su promesa. Por ejemplo, en una tarea de codificación, se encargó a o3 mini que generara un script de Python para crear un servidor local con una interfaz de usuario interactiva para realizar pruebas. A pesar de la complejidad de la tarea, el modelo funcionó bien, demostrando su capacidad para afrontar retos de programación sofisticados.

IU interactiva creada con o3 mini durante la demostración en directo

IU interactiva creada con o3 mini durante la demostración en directo. Fuente: OpenAI

Vemos el o3 mini como una solución práctica para escenarios en los que la rentabilidad y el rendimiento deben estar alineados.

Alineación Deliberativa: Innovaciones en las pruebas de seguridad

OpenAI ha adoptado un enfoque proactivo en las pruebas de seguridad de o3 y o3 mini, abriendo el acceso a los investigadores para que realicen evaluaciones públicas de seguridad antes de la publicación completa de los modelos.

Una característica central de la estrategia de seguridad de OpenAI para o3 es la alineación deliberativa, un método que va más allá de los enfoques de seguridad tradicionales. El siguiente gráfico muestra en qué se diferencia el alineamiento deliberativo de otros métodos como el RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana), RLAIF (Aprendizaje por Refuerzo con Retroalimentación AI), y técnicas de refinamiento en tiempo de inferencia como Self-REFINE.

alineación deliberativa vs rlhf vs rlaif vs técnicas de refinamiento en tiempo de inferencia

Fuente: OpenAI

En la alineación deliberativa, el modelo no se basa simplemente en reglas estáticas o conjuntos de datos de preferencias para determinar si una indicación es segura o insegura. En su lugar, utiliza sus capacidades de razonamiento para evaluar las indicaciones en tiempo real. El gráfico anterior ilustra este proceso:

  1. Generación de datos de entrenamiento: A diferencia del RLHF, en el que la aportación humana informa directamente al modelo, la alineación deliberativa utiliza un modelo de razonamiento para generar cadena de pensamiento (CoT) para indicaciones concretas. Estos resultados de CoT proporcionan patrones de razonamiento matizados que guían el proceso de entrenamiento, ayudando al modelo a comprender el contexto y la intención con mayor eficacia.
  2. Tiempo de inferencia: Durante la inferencia, el modelo de razonamiento evalúa las indicaciones y proporciona una explicación de la cadena de pensamiento junto con sus respuestas. Este paso permite al modelo evaluar dinámicamente la intención y el contexto de una indicación, identificando posibles riesgos ocultos o ambigüedades que las reglas estáticas podrían pasar por alto.

Fecha de lanzamiento de O3

Por ahora, o3 y o3 mini no están ampliamente disponibles, pero OpenAI ha abierto el acceso a los investigadores a través de su programa de pruebas de seguridad.

En cuanto a la disponibilidad pública, OpenAI ha compartido un calendario provisional. Se espera que o3 mini se lance a finales de enero, ofreciendo una opción rentable para las tareas de razonamiento. El lanzamiento completo de la o3 se producirá poco después, aunque OpenAI ha subrayado que su calendario depende de los comentarios y opiniones que se obtengan durante la fase de pruebas de seguridad.

Consideramos que este enfoque cauteloso es un paso positivo, que da prioridad a la evaluación exhaustiva y a la alineación reflexiva con las necesidades de los usuarios, al tiempo que mantiene la transparencia en todo el proceso de desarrollo.

Conclusión

O3 y o3 mini ponen de relieve la creciente complejidad de los sistemas de IA y los retos que plantea su liberación responsable. Aunque los puntos de referencia son impresionantes, nos interesan más las preguntas que plantean estos modelos: ¿Cómo se comportarán en situaciones reales? ¿Son las medidas de seguridad lo suficientemente sólidas como para abordar casos extremos a escala?

El cauteloso despliegue de OpenAI es un planteamiento, pero que consiga el equilibrio adecuado entre capacidad y responsabilidad dependerá de cómo se utilicen y evalúen finalmente estos modelos.

Aun así, es difícil ignorar lo prometedor que resulta el razonamiento y la adaptabilidad del o3, que ofrece un atisbo de lo que podría conseguir la próxima generación de IA.

Si te interesa explorar los mayores y últimos lanzamientos de este mes, te recomendamos estos blogs:

Preguntas frecuentes

¿Qué es OpenAI o3 y en qué se diferencia de o1?

o3 es la última iteración de los modelos de razonamiento de OpenAI. En comparación con OpenAI o1, los modelos o3 y o3-mini demuestran un rendimiento mejorado en tareas de razonamiento, incluyendo la codificación, el análisis científico y la capacidad de avance hacia tareas novedosas.

¿Cuándo saldrá OpenAI o3?

A fecha de hoy, viernes 20 de diciembre, OpenAI tiene previsto lanzar o3-mini a finales de enero, seguido de o3 poco después. Sin embargo, estos plazos pueden cambiar en función de los resultados de las pruebas de seguridad.

¿Es OpenAI o3 multimodal?

De momento, no se ha anunciado nada sobre las capacidades multimodales de o3.

¿Cómo puedo acceder a OpenAI o3?

OpenAI ofrece actualmente acceso anticipado a o3 para pruebas de seguridad. Puedes solicitar el acceso a través del sitio web oficial de OpenAI.

¿Cómo funciona OpenAI o3?

Aunque no se ha facilitado una descripción detallada de cómo funciona o3, es razonable suponer que sigue una arquitectura similar al modelo o1 de OpenAI. Esto incluye una combinación de aprendizaje por refuerzo, razonamiento en cadena y un marco basado en transformadores.

¿Cuánto costará OpenAI o3?

Aunque no se ha hablado del precio de OpenAI o3, es razonable suponer que tendrá un precio similar o superior al del modo OpenAI o1 pro.

¿Cuál es la diferencia entre OpenAI o3 y o3-mini?

Al igual que OpenAI O1 y O1-mini, se espera que OpenAI O3-mini tenga un rendimiento ligeramente inferior a O3, pero que su ejecución y utilización sean más rentables. 


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Jota de todos los oficios, maestra de Python, marketing y estrategia de contenidos, SEO, edición, redacción. Técnico: escribí cursos sobre Python, estadística y probabilidad. Pero también publiqué una novela premiada. Edición de vídeo y etalonaje en DaVinci.


Adel es educador de Ciencia de Datos, conferenciante y Evangelista en DataCamp, donde ha publicado varios cursos y formación en directo sobre análisis de datos, aprendizaje automático e ingeniería de datos. Le apasiona difundir las habilidades y la alfabetización en materia de datos en las organizaciones y en la intersección entre tecnología y sociedad. Tiene un máster en Ciencia de Datos y Análisis Empresarial. En su tiempo libre, puedes encontrarle pasando el rato con su gato Louis.

Temas

Aprende IA con estos cursos 

programa

ChatGPT Fundamentals

3hrs hr
Explore the essentials of ChatGPT and prompt engineering. Master crafting prompts to maximize ChatGPT's capabilities.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

Todo lo que sabemos sobre GPT-5

Predecir cómo podría ser la próxima evolución de la tecnología de IA de OpenAI y qué avances podría tener el modelo GPT-5.
Josep Ferrer's photo

Josep Ferrer

10 min

blog

¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características

Descubre Sora de OpenAI a través de vídeos de ejemplo y explora sus funciones, como Remix, Re-cut, Loop, Storyboard, Blend y Style Preset.
Richie Cotton's photo

Richie Cotton

8 min

tutorial

Tutorial de la API de OpenAI Assistants

Una visión completa de la API Assistants con nuestro artículo, que ofrece una mirada en profundidad a sus características, usos en la industria, guía de configuración y las mejores prácticas para maximizar su potencial en diversas aplicaciones empresariales.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Ajuste fino de GPT-3 mediante la API OpenAI y Python

Libere todo el potencial de GPT-3 mediante el ajuste fino. Aprenda a utilizar la API de OpenAI y Python para mejorar este modelo de red neuronal avanzado para su caso de uso específico.
Zoumana Keita 's photo

Zoumana Keita

12 min

tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

11 min

tutorial

Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas

Este tutorial te presenta la API de OpenAI, sus casos de uso, un enfoque práctico para utilizar la API y todas las prácticas recomendadas que debes seguir.
Arunn Thevapalan's photo

Arunn Thevapalan

13 min

See MoreSee More