Curso
Tras dos años de expectación intermitente por parte del director ejecutivo Sam Altman, muchos esperaban que GPT-5 fuera un claro paso hacia la IA. En cambio, lo que OpenAI ha presentado no es tanto un salto hacia la ciencia ficción como una revisión sustancial de la experiencia de usuario (aunque muy buena) al unir todos sus modelos anteriores bajo un único buque insignia: GPT-5.
Sin embargo, la ventana de contexto sigue siendo sorprendentemente limitada: 8K tokens para usuarios gratuitos, 32K para Plus y 128K para Pro. Para ponerlo en perspectiva, si subes solo dos artículos en PDF aproximadamente del tamaño de este, ya habrás agotado el límite gratuito.
Aun así, ChatGPT probablemente siga siendo la herramienta de IA más útil y accesible para la gran mayoría de las personas. La mayoría de los casos de uso cotidiano simplemente no requieren una memoria de un millón de tokens y, para ser sincero, sigue siendo mi opción preferida, con la ayuda ocasional de Gemini 2.5 para trabajos con mucho contexto.
En este artículo, te ofreceré un análisis sincero de lo que realmente ofrece GPT-5, tanto lo bueno como lo malo. Repasaré las novedades, pondré a prueba el modelo y veré cómo funciona realmente en la práctica.
Mantenemos a nuestros lectores al día sobre las últimas novedades en IA mediante el envío de The Median, nuestro boletín informativo gratuito de los viernes que resume las noticias más importantes de la semana. Suscríbete y mantente al día en solo unos minutos a la semana:
¿Qué es GPT-5?
GPT-5 es el nuevo modelo insignia de OpenAI y sustituye por completo a la combinación de sistemas de la era GPT-4. Si estabas acostumbrado a ver opciones como GPT-4o, GPT-4o-mini u o3 en el selector de modelos, estas han desaparecido. Ya no tienes que decidir cuál usar para obtener mayor velocidad o calidad: ahora el sistema lo hace automáticamente.

Cuando escribes una solicitud, el enrutador de GPT-5 decide en tiempo real si te da una respuesta rápida o si se involucra en un razonamiento más profundo y lento. El objetivo es que la experiencia sea fluida: un solo nombre de modelo, un comportamiento coherente y sin cambios manuales.
Como puedes ver en la imagen anterior, aún puedes seleccionar manualmente GPT-5 Thinking si deseas que el modelo se tome más tiempo y ofrezca respuestas más detalladas y paso a paso, o GPT-5 Pro si necesitas la máxima profundidad y precisión en el razonamiento para tareas de investigación. La diferencia es que ahora se trata de variaciones del mismo modelo básico.
Así es como se compara la nueva familia con la generación anterior :
|
Modelo anterior |
Modelo GPT-5 |
|
GPT-4o |
gpt-5-principal |
|
GPT-4o-mini |
gpt-5-main-mini |
|
OpenAI o3 |
gpt-5-pensamiento |
|
OpenAI o4-mini |
gpt-5-thinking-mini |
|
GPT-4.1-nano |
gpt-5-thinking-nano |
|
OpenAI o3 Pro |
gpt-5-thinking-pro |
Fuente: OpenAI
Lo que obtienes según tu nivel
La versión gratuita te da acceso al modelo GPT-5 principal, así como a GPT-5 Thinking, pero con la ventana de contexto más pequeña y límites de uso más estrictos. Está bien para charlar a diario, redactar borradores breves o responder preguntas, pero pronto te darás cuenta de sus limitaciones si intentas trabajar con documentos más largos.uments.
|
Plan |
Ventana de contexto |
|
Gratis |
8K tokens |
|
Plus |
32 000 tokens |
|
Pro |
128 000 tokens |
|
Equipo |
32 000 tokens |
|
Empresa |
128 000 tokens |
Consulta la página de precios para obtener la información más actualizada.
Además, los suscriptores obtienen los mismos modelos, pero con un uso ampliado y una ventana de contexto de tokens de 32K más grande, suficiente para manejar archivos PDF de tamaño medio o un intercambio más prolongado antes de que se agote la memoria. Los tiempos de respuesta también son notablemente más rápidos aquí en comparación con el nivel gratuito, que se limita en función de la disponibilidad.
Pro es donde todo se abre. Obtienes GPT-5, GPT-5 Thinking y GPT-5 Pro, la variante de gama alta diseñada para ofrecer la máxima profundidad y precisión en el razonamiento. La ventana de contexto salta a 128 000 tokens, lo cual es suficiente para trabajar con capítulos de libros o varios archivos largos en una sola sesión.
Los planes Team y Enterprise son esencialmente acuerdos personalizados, pero incluyen todas las variantes, un uso flexible y los tiempos de respuesta más rápidos disponibles. Los usuarios Enterprise también obtienen la ventana de contexto de 128 K, mientras que Team se queda en 32 K.
Nuevas funciones en GPT-5
Funciones basadas en chat
Personaliza el color de tus chats
Ahora puedes elegir la combinación de colores para tus chats. Es puramente estético, pero ayuda a que la interfaz se parezca más a tu propio entorno. Puedes cambiar el color en la sección General de , en Configuración:

Cambiar personalidades
GPT-5 introduce personalidades predefinidas, lo que te permite cambiar el estilo del asistente para que sea más servicial, conciso y profesional, o incluso ligeramente sarcástico. Gracias a la mejora de la capacidad de orientación de GPT-5, estos estilos se mantienen a lo largo de toda la conversación, en lugar de desvanecerse tras unas pocas respuestas.
Para acceder a esta función, ve a la Personalización en Configuración, haz clic en Instrucciones personalizadasy, a continuación, selecciona la personalidad que desees eligiendo una configuración predefinida:
Integración con Gmail y Google Calendar
Para los usuarios de Plus, Pro, Team y Enterprise, GPT-5 puede conectarse directamente a tu Gmail y Google Calendar. Puede importar tu agenda, ayudarte a encontrar tiempo libre e incluso redactar respuestas a los correos electrónicos que has estado ignorando. Es un paso real hacia una gestión activa de tu día a día por parte de la IA.
Para utilizar esta función, ve a los Conectores en Configuración y sigue las instrucciones que aparecen en pantalla para conectar tu cuenta de Gmail y Google Calendar.

Finalizaciones más seguras y útiles
GPT-5 sustituye el antiguo enfoque de seguridad basado en el rechazo por «finalizaciones seguras». En lugar de bloquear simplemente una solicitud que podría ser insegura, te proporciona toda la información útil y segura posible, al tiempo que te explica cualquier limitación. También reduce la adulación, esas respuestas excesivamente complacientes que a veces hacían que los modelos anteriores parecieran poco auténticos.
Funciones orientadas a programadores
Esta breve sección está dirigida a programadores, así que si no te interesa, puedes pasar directamente a la siguiente sección, donde pruebo GPT-5.
Controles de razonamiento y verbosidad
En la API, ahora puedes controlar la profundidad de pensamiento del modelo con el parámetro « reasoning_effort », que añade una nueva configuración «mínima» para obtener respuestas más rápidas cuando no necesitas un razonamiento detallado. También hay un parámetro verbosity para controlar si las respuestas son cortas, medianas o largas sin cambiar tu mensaje.
Herramientas personalizadas con texto sin formato
GPT-5 es compatible con «herramientas personalizadas», lo que te permite llamar a herramientas utilizando texto sin formato en lugar de JSON. Esto evita los problemas de escape que podrían romper salidas complejas, como bloques de código grandes. También puedes aplicar tu propio formato restringiendo las llamadas a herramientas con expresiones regulares o una gramática completa.
Mejor en tareas largas y de varios pasos.
El modelo es significativamente mejor en el manejo de tareas agenciales de larga duración. Puede encadenar docenas de llamadas a herramientas, tanto en secuencia como en paralelo, sin perder el contexto del programa.
Codificación frontal mejorada
En pruebas internas, GPT-5 superó a OpenAI o3 en escenarios de desarrollo front-end en el 70 % de los casos, produciendo interfaces más limpias y estéticas con mejores diseños predeterminados, tipografía y espaciado.
Contexto más amplio, menos alucinaciones
En la API, GPT-5 admite una longitud combinada de contexto de entrada y salida de 400 000 tokens. Las pruebas comparativas demuestran que recupera información con mayor precisión a partir de grandes volúmenes de datos que los modelos anteriores, al tiempo que reduce drásticamente las tasas de alucinaciones en tareas basadas en hechos.
Probando GPT-5
Hace unas semanas, probé Grok 4y, con el fin de compararlos, quise probar GPT-5 con las mismas indicaciones para ver cómo se comportaban. Esto no es en absoluto una evaluación exhaustiva de GPT-5, sino solo una forma rápida de hacerse una idea de cómo se comporta en una configuración de chat típica.
Matemáticas
Para empezar, le planteé a GPT-5 un pequeño reto matemático: 9,11 menos 9,9. A primera vista, es una resta fácil, pero operaciones aritméticas sencillas como esta a veces pueden poner de manifiesto peculiaridades en el razonamiento de los modelos lingüísticos.Claude Sonnet 4, se topó con ello cuando lo probé. Una calculadora podría dar la respuesta al instante, pero lo que realmente estoy probando es el proceso: ¿razonará GPT-5 paso a paso o decidirá recurrir a una herramienta integrada?
Sorprendentemente, GPT-5 me proporcionó la solución correcta en menos de un segundo; la respuesta fue realmente instantánea. Según mi pregunta de seguimiento, es probable que la resta implicara una forma de razonamiento en cadena, en la que el modelo representaba internamente pasos intermedios como reescribir 9,9 como 10-0,1, restar de 9,11 y luego ajustar el resultado.

Poco después, tuve una divertida interacción con GPT-5 cuando le sugerí engañosamente que su cálculo era incorrecto. Sus carácter adulador lo llevó a estar de acuerdo conmigo, pero aun así llegó a la respuesta correcta, lo cual es una señal de que, al menos para problemas objetivos como las matemáticas, se puede confiar en el modelo.

A continuación, probé el modelo con un problema matemático más complejo:
Utiliza todos los dígitos del 0 al 9 exactamente una vez para formar tres números x, y, z tales que x + y = z.
Mientras esperaba la respuesta, vi que había una opción para obtener una respuesta rápida. No lo he probado, pero podría ser útil si tienes prisa o si crees que el modelo está complicando demasiado un problema que en realidad es sencillo. Estudios recientes han demostrado que razonar más no siempre es el mejor enfoque.
Después de pensar durante 30 segundos, GPT-5 me dio dos respuestas correctas. En el razonamiento, mencionaste explícitamente el uso de «un programa rápido» para resolver el problema, lo cual es un enfoque inteligente, ya que resolverlo mentalmente mediante una cadena de pensamientos podría llevar mucho tiempo (hay 10! = 3 628 800 permutaciones con muchas divisiones posibles). Sin embargo, no pude ver el programa real que se ejecutaba en segundo plano, lo que habría sido muy útil.

Codificación
Para la tarea de programación, intenté crear el mismo juego que había creado anteriormente con Grok. La única diferencia en la indicación era que le pedí a GPT-5 que ejecutara el código en Canvas.
Mensaje: Hazme un juego de carreras infinitas cautivador. Instrucciones clave en la pantalla. Escena p5.js, sin HTML. Me gustan los dinosaurios pixelados y los fondos interesantes. Ejecuta el código en Canvas.
Después de tres fallos en la compilación, renuncié a ejecutarlo en Canvas y, en su lugar, ejecuté el código en un editor p5.js. Este es el resultado:
El modelo escribió la impresionante cifra de 764 líneas de código y produjo la mejor V1 de este juego que he conseguido generar con cualquier modelo que haya probado. La mayoría de los modelos, por ejemplo, no iniciaban el juego con una pantalla de pausa que permitiera al jugador decidir cuándo comenzar, sino que se ejecutaban tan pronto como se ejecutaba el código. Y ninguno incluía características como las mejores puntuaciones, la posibilidad de planear o pausar el juego.
Multimodal de contexto largo
Al igual que con Grok 4, quería probar un PDF más grande, así que subí el informe de la Comisión Europea titulado « Informe sobre las perspectivas de la IA generativa (43 087 tokens / 167 páginas) y le di a GPT-5 la siguiente indicación:
Mensaje: Analiza todo este informe e identifica los tres gráficos más informativos. Resume cada uno y dime en qué página del PDF aparecen.
Antes de mostrarte los resultados (utilizando mi cuenta Pro), ten en cuenta que, dado el gran tamaño de este PDF, es muy probable que no se pueda ejecutar en ChatGPT Free (límite de 8K tokens) ni siquiera en ChatGPT Plus (límite de 32K tokens). Por ejemplo, cuando le pedí que resumiera el documento (utilizando mi cuenta gratuita), se produjo un error en el flujo de mensajes, probablemente debido a limitaciones de memoria.

Una vez que ejecuté esta tarea con una cuenta Pro, obtuve algunos resultados, pero como puedes ver en el vídeo a continuación, hubo bastantes problemas:
El resultado fue terriblemente malo y no necesita más comentarios por mi parte. Ni siquiera intenté darles más información. Definitivamente, esto no parece «hablar con un doctor», ni nada parecido a «AGI».
Pruebas de rendimiento de GPT-5
OpenAI publicó un amplio conjunto de resultados de referencia para GPT-5, que abarca codificación, matemáticas, razonamiento multimodal, seguimiento de instrucciones, uso de herramientas, recuperación de contextos largos y veracidad. A continuación se muestra un resumen de las cifras comunicadas en su documentación oficial y en las entradas de su blog.
Rendimiento de codificación
En SWE-bench Verified, un punto de referencia de tareas de codificación Python del mundo real, GPT-5 obtiene una puntuación del 74,9 %, frente al 69,1 % de OpenAI o3 y muy por delante de GPT-4.1 (54,6 %). Las ganancias son aún más impresionantes si se tiene en cuenta la eficiencia: con un gran esfuerzo de razonamiento, GPT-5 utiliza un 22 % menos de tokens de salida y un 45 % menos de llamadas a herramientas que o3 para lograr esos resultados.

Fuente: OpenAI
En Aider Polyglot, que prueba la edición de código multilingüe, GPT-5 alcanza el 88 %, frente al 81 % de o3, lo que supone una reducción de aproximadamente un tercio en la tasa de error. Puedes encontrar más resultados en este informe dirigido a programadores.
Matemáticas y razonamiento científico
GPT-5 también obtiene buenos resultados en pruebas de rendimiento con gran peso matemático. En AIME 2025 (matemáticas de nivel competitivo sin herramientas), GPT-5 (sin herramientas) obtiene una puntuación del 94,6 %, frente al 88,9 % de o3 (sin herramientas). En el HMMT (torneo de matemáticas de Harvard-MIT), alcanza el 93,3 % sin herramientas, superando el 85 % de o3. En FrontierMath (matemáticas de nivel experto con una herramienta Python), GPT-5 obtiene una puntuación del 26,3 %, lo que no es una cifra muy alta, pero sigue estando por delante del 15,8 % de o3.

Fuente: OpenAI
En GPQA Diamond (preguntas científicas de nivel de doctorado), GPT-5 alcanza un 87,3 % con herramientas (Python) y un 85,7 % sin ellas, superando ligeramente a o3 en ambas configuraciones.
Razonamiento multimodal
En pruebas comparativas multimodales, GPT-5 establece un nuevo estándar de vanguardia. Obtiene una puntuación del 84,2 % en MMMU (razonamiento visual a nivel universitario) y del 78,4 % en MMMU-Pro (nivel de posgrado), superando a o3 en ambos casos. En VideoMMMU (razonamiento basado en vídeo con hasta 256 fotogramas), GPT-5 alcanza una precisión del 84,6 % frente al 83,3 % de o3.
También obtiene buenos resultados en CharXiv Reasoning (interpretación de figuras científicas) con un 81,1 % cuando se habilita el pensamiento, y en ERQA (razonamiento espacial) con un 65,7 %, ambos por delante de o3.
El último examen de la humanidad (HLE)
Humanity’s Last Exam es un exigente examen compuesto por 2500 preguntas seleccionadas a mano y de nivel de doctorado que abarcan matemáticas, física, química, lingüística e ingeniería.
Según los resultados publicados por OpenAI, GPT-5 obtiene una puntuación del 24,8 % sin herramientas y del 42,0 % en su variante Pro.

Fuente: OpenAI
Grok 4, según datos propios de xAI, alcanza alrededor del 26 % sin herramientas y el 41,0 % con herramientas. La configuración Grok 4 Heavy, que ejecuta varios agentes en paralelo y fusiona los resultados, lleva esta cifra aún más lejos, hasta el 50,7 %, lo que demuestra la ventaja de la configuración multiagente. Aunque ambos modelos ofrecen resultados similares en modo de agente único asistido por herramientas, la arquitectura de Grok 4 Heavy le confiere una ventaja notable en este aspecto.

Fuente: xAI
Conclusión
GPT-5 no es el hito de la AGI que algunos esperaban, y desde luego no da la sensación de tener un «doctorado en el bolsillo». Sin embargo, se trata de una consolidación bien ejecutada de la gama anterior de OpenAI en una única experiencia más fluida, respaldada por algunas mejoras técnicas significativas, aunque incrementales.
Las nuevas funciones basadas en chat, como las personalidades, la personalización de colores y la integración con Gmail/Calendar, hacen que ChatGPT resulte más personal y útil para los flujos de trabajo diarios. Por parte de los programadores, el control más preciso sobre el razonamiento, la verbosidad y los formatos de las herramientas, además de un mejor rendimiento en tareas de larga duración, son mejoras muy bienvenidas que facilitan el trabajo.
En las pruebas, GPT-5 manejó muy bien tareas sencillas de razonamiento y codificación, e incluso produjo la mejor primera versión de un juego que he visto hasta ahora en cualquier modelo. Sin embargo, su rendimiento multimodal en contextos largos aún dejaba mucho que desear, ya que los recursos de nivel Pro no lograban ofrecer resultados a la altura de las expectativas.
Para la mayoría de las personas, GPT-5 seguirá siendo la herramienta de IA más accesible y versátil disponible en la actualidad. Pero no esperes que supere los límites de lo que es posible con los modelos actuales. Es una evolución, no una revolución, y dependiendo de sus necesidades, puede que sea justo lo que está buscando.
Preguntas frecuentes
¿Puedo seguir utilizando modelos GPT-4 más antiguos si lo deseo?
No, los modelos más antiguos como GPT-4o y o3 ya no se pueden seleccionar en ChatGPT. Los programadores de API aún pueden trabajar con ciertos modelos heredados por ahora, pero OpenAI está claramente desplazando todo el desarrollo y las actualizaciones hacia GPT-5.
¿Qué es GPT-5 Thinking y en qué se diferencia del GPT-5 normal?
El pensamiento GPT-5 es el mismo modelo básico, pero configurado para dedicar más tiempo a razonar a partir de indicaciones complejas. Está diseñado para ofrecer respuestas más detalladas y paso a paso cuando el problema lo requiere.
¿Qué es GPT-5 Pro?
GPT-5 Pro es una versión de alto rendimiento de GPT-5 Thinking. Está pensado para las tareas más complejas, que requieren varios pasos o de nivel investigador, en las que la precisión, la exhaustividad y la profundidad del razonamiento son prioridades fundamentales.
¿Qué es la ventana de contexto de GPT-5?
La ventana de contexto es la cantidad de información que GPT-5 puede «ver» a la vez cuando procesa tu solicitud. En ChatGPT, depende de tu nivel de suscripción: 8K tokens gratis, 32K para Plus y 128K para Pro y Enterprise. En la API, GPT-5 admite un límite combinado de entrada y salida de hasta 400 000 tokens, lo que es significativamente mayor que en las versiones de chat.
¿Cuál es la diferencia entre la ventana de contexto y la memoria?
La ventana de contexto es la cantidad de texto (o tokens equivalentes) que el modelo puede «ver» y procesar a la vez; se restablece con cada conversación. La memoria, por otro lado, es una función persistente que recuerda los detalles entre sesiones si la habilitas.
¿Cómo gestiona GPT-5 las imágenes y otros medios?
GPT-5 admite entradas multimodales, lo que significa que puede interpretar imágenes, gráficos, diagramas y algunos fotogramas de vídeo en contextos compatibles. En ChatGPT, puedes cargar imágenes para su análisis; en la API, las capacidades multimodales varían en función del punto final.
¿GPT-5 se ejecuta localmente en mi ordenador?
No. GPT-5 se ejecuta en los servidores de OpenAI y, en el caso de implementaciones empresariales, en Microsoft Azure. Tu dispositivo solo actúa como interfaz para enviar y recibir datos.
¿Qué tan seguro es GPT-5?
OpenAI ha añadido un enfoque de «autocompletado seguro», que intenta proporcionar tanta información útil como sea posible sin traspasar los límites de seguridad. El GPT-5 también tiene menores índices de alucinación y engaño que sus predecesores.



