GPT-5: Nuevas funciones, pruebas, comparativas y mucho más

Descubre las nuevas funciones de GPT-5, sus pruebas de rendimiento y cómo consolida los modelos anteriores de OpenAI en una experiencia de usuario unificada.

Actualizado 8 ago 2025 · 8 min leer

Tras dos años de expectación intermitente por parte del director ejecutivo Sam Altman, muchos esperaban que GPT-5 fuera un claro paso hacia la IA. En cambio, lo que OpenAI ha presentado no es tanto un salto hacia la ciencia ficción como una revisión sustancial de la experiencia de usuario (aunque muy buena) al unir todos sus modelos anteriores bajo un único buque insignia: GPT-5.

Sin embargo, la ventana de contexto sigue siendo sorprendentemente limitada: 8K tokens para usuarios gratuitos, 32K para Plus y 128K para Pro. Para ponerlo en perspectiva, si subes solo dos artículos en PDF aproximadamente del tamaño de este, ya habrás agotado el límite gratuito.

Aun así, ChatGPT probablemente siga siendo la herramienta de IA más útil y accesible para la gran mayoría de las personas. La mayoría de los casos de uso cotidiano simplemente no requieren una memoria de un millón de tokens y, para ser sincero, sigue siendo mi opción preferida, con la ayuda ocasional de Gemini 2.5 para trabajos con mucho contexto.

En este artículo, te ofreceré un análisis sincero de lo que realmente ofrece GPT-5, tanto lo bueno como lo malo. Repasaré las novedades, pondré a prueba el modelo y veré cómo funciona realmente en la práctica.

Mantenemos a nuestros lectores al día sobre las últimas novedades en IA mediante el envío de The Median, nuestro boletín informativo gratuito de los viernes que resume las noticias más importantes de la semana. Suscríbete y mantente al día en solo unos minutos a la semana:

¿Qué es GPT-5?

GPT-5 es el nuevo modelo insignia de OpenAI y sustituye por completo a la combinación de sistemas de la era GPT-4. Si estabas acostumbrado a ver opciones como GPT-4o, GPT-4o-mini u o3 en el selector de modelos, estas han desaparecido. Ya no tienes que decidir cuál usar para obtener mayor velocidad o calidad: ahora el sistema lo hace automáticamente.

Cuando escribes una solicitud, el enrutador de GPT-5 decide en tiempo real si te da una respuesta rápida o si se involucra en un razonamiento más profundo y lento. El objetivo es que la experiencia sea fluida: un solo nombre de modelo, un comportamiento coherente y sin cambios manuales.

Como puedes ver en la imagen anterior, aún puedes seleccionar manualmente GPT-5 Thinking si deseas que el modelo se tome más tiempo y ofrezca respuestas más detalladas y paso a paso, o GPT-5 Pro si necesitas la máxima profundidad y precisión en el razonamiento para tareas de investigación. La diferencia es que ahora se trata de variaciones del mismo modelo básico.

Así es como se compara la nueva familia con la generación anterior :

Modelo anterior	Modelo GPT-5
GPT-4o	gpt-5-principal
GPT-4o-mini	gpt-5-main-mini
OpenAI o3	gpt-5-pensamiento
OpenAI o4-mini	gpt-5-thinking-mini
GPT-4.1-nano	gpt-5-thinking-nano
OpenAI o3 Pro	gpt-5-thinking-pro

Fuente: OpenAI

Lo que obtienes según tu nivel

La versión gratuita te da acceso al modelo GPT-5 principal, así como a GPT-5 Thinking, pero con la ventana de contexto más pequeña y límites de uso más estrictos. Está bien para charlar a diario, redactar borradores breves o responder preguntas, pero pronto te darás cuenta de sus limitaciones si intentas trabajar con documentos más largos.uments.

Plan	Ventana de contexto
Gratis	8K tokens
Plus	32 000 tokens
Pro	128 000 tokens
Equipo	32 000 tokens
Empresa	128 000 tokens

Consulta la página de precios para obtener la información más actualizada.

Además, los suscriptores obtienen los mismos modelos, pero con un uso ampliado y una ventana de contexto de tokens de 32K más grande, suficiente para manejar archivos PDF de tamaño medio o un intercambio más prolongado antes de que se agote la memoria. Los tiempos de respuesta también son notablemente más rápidos aquí en comparación con el nivel gratuito, que se limita en función de la disponibilidad.

Pro es donde todo se abre. Obtienes GPT-5, GPT-5 Thinking y GPT-5 Pro, la variante de gama alta diseñada para ofrecer la máxima profundidad y precisión en el razonamiento. La ventana de contexto salta a 128 000 tokens, lo cual es suficiente para trabajar con capítulos de libros o varios archivos largos en una sola sesión.

Los planes Team y Enterprise son esencialmente acuerdos personalizados, pero incluyen todas las variantes, un uso flexible y los tiempos de respuesta más rápidos disponibles. Los usuarios Enterprise también obtienen la ventana de contexto de 128 K, mientras que Team se queda en 32 K.

Nuevas funciones en GPT-5

Funciones basadas en chat

Personaliza el color de tus chats

Ahora puedes elegir la combinación de colores para tus chats. Es puramente estético, pero ayuda a que la interfaz se parezca más a tu propio entorno. Puedes cambiar el color en la sección General de , en Configuración:

Cambiar personalidades

GPT-5 introduce personalidades predefinidas, lo que te permite cambiar el estilo del asistente para que sea más servicial, conciso y profesional, o incluso ligeramente sarcástico. Gracias a la mejora de la capacidad de orientación de GPT-5, estos estilos se mantienen a lo largo de toda la conversación, en lugar de desvanecerse tras unas pocas respuestas.

Para acceder a esta función, ve a la Personalización en Configuración, haz clic en Instrucciones personalizadasy, a continuación, selecciona la personalidad que desees eligiendo una configuración predefinida:

Integración con Gmail y Google Calendar

Para los usuarios de Plus, Pro, Team y Enterprise, GPT-5 puede conectarse directamente a tu Gmail y Google Calendar. Puede importar tu agenda, ayudarte a encontrar tiempo libre e incluso redactar respuestas a los correos electrónicos que has estado ignorando. Es un paso real hacia una gestión activa de tu día a día por parte de la IA.

Para utilizar esta función, ve a los Conectores en Configuración y sigue las instrucciones que aparecen en pantalla para conectar tu cuenta de Gmail y Google Calendar.

Finalizaciones más seguras y útiles

GPT-5 sustituye el antiguo enfoque de seguridad basado en el rechazo por «finalizaciones seguras». En lugar de bloquear simplemente una solicitud que podría ser insegura, te proporciona toda la información útil y segura posible, al tiempo que te explica cualquier limitación. También reduce la adulación, esas respuestas excesivamente complacientes que a veces hacían que los modelos anteriores parecieran poco auténticos.

Funciones orientadas a programadores

Esta breve sección está dirigida a programadores, así que si no te interesa, puedes pasar directamente a la siguiente sección, donde pruebo GPT-5.

Controles de razonamiento y verbosidad

En la API, ahora puedes controlar la profundidad de pensamiento del modelo con el parámetro « reasoning_effort », que añade una nueva configuración «mínima» para obtener respuestas más rápidas cuando no necesitas un razonamiento detallado. También hay un parámetro verbosity para controlar si las respuestas son cortas, medianas o largas sin cambiar tu mensaje.

Herramientas personalizadas con texto sin formato

GPT-5 es compatible con «herramientas personalizadas», lo que te permite llamar a herramientas utilizando texto sin formato en lugar de JSON. Esto evita los problemas de escape que podrían romper salidas complejas, como bloques de código grandes. También puedes aplicar tu propio formato restringiendo las llamadas a herramientas con expresiones regulares o una gramática completa.

Mejor en tareas largas y de varios pasos.

El modelo es significativamente mejor en el manejo de tareas agenciales de larga duración. Puede encadenar docenas de llamadas a herramientas, tanto en secuencia como en paralelo, sin perder el contexto del programa.

Codificación frontal mejorada

En pruebas internas, GPT-5 superó a OpenAI o3 en escenarios de desarrollo front-end en el 70 % de los casos, produciendo interfaces más limpias y estéticas con mejores diseños predeterminados, tipografía y espaciado.

Contexto más amplio, menos alucinaciones

En la API, GPT-5 admite una longitud combinada de contexto de entrada y salida de 400 000 tokens. Las pruebas comparativas demuestran que recupera información con mayor precisión a partir de grandes volúmenes de datos que los modelos anteriores, al tiempo que reduce drásticamente las tasas de alucinaciones en tareas basadas en hechos.

Probando GPT-5

Hace unas semanas, probé Grok 4y, con el fin de compararlos, quise probar GPT-5 con las mismas indicaciones para ver cómo se comportaban. Esto no es en absoluto una evaluación exhaustiva de GPT-5, sino solo una forma rápida de hacerse una idea de cómo se comporta en una configuración de chat típica.

Matemáticas

Para empezar, le planteé a GPT-5 un pequeño reto matemático: 9,11 menos 9,9. A primera vista, es una resta fácil, pero operaciones aritméticas sencillas como esta a veces pueden poner de manifiesto peculiaridades en el razonamiento de los modelos lingüísticos.Claude Sonnet 4, se topó con ello cuando lo probé. Una calculadora podría dar la respuesta al instante, pero lo que realmente estoy probando es el proceso: ¿razonará GPT-5 paso a paso o decidirá recurrir a una herramienta integrada?

Sorprendentemente, GPT-5 me proporcionó la solución correcta en menos de un segundo; la respuesta fue realmente instantánea. Según mi pregunta de seguimiento, es probable que la resta implicara una forma de razonamiento en cadena, en la que el modelo representaba internamente pasos intermedios como reescribir 9,9 como 10-0,1, restar de 9,11 y luego ajustar el resultado.

Poco después, tuve una divertida interacción con GPT-5 cuando le sugerí engañosamente que su cálculo era incorrecto. Sus carácter adulador lo llevó a estar de acuerdo conmigo, pero aun así llegó a la respuesta correcta, lo cual es una señal de que, al menos para problemas objetivos como las matemáticas, se puede confiar en el modelo.

A continuación, probé el modelo con un problema matemático más complejo:

Utiliza todos los dígitos del 0 al 9 exactamente una vez para formar tres números x, y, z tales que x + y = z.

Mientras esperaba la respuesta, vi que había una opción para obtener una respuesta rápida. No lo he probado, pero podría ser útil si tienes prisa o si crees que el modelo está complicando demasiado un problema que en realidad es sencillo. Estudios recientes han demostrado que razonar más no siempre es el mejor enfoque.

Después de pensar durante 30 segundos, GPT-5 me dio dos respuestas correctas. En el razonamiento, mencionaste explícitamente el uso de «un programa rápido» para resolver el problema, lo cual es un enfoque inteligente, ya que resolverlo mentalmente mediante una cadena de pensamientos podría llevar mucho tiempo (hay 10! = 3 628 800 permutaciones con muchas divisiones posibles). Sin embargo, no pude ver el programa real que se ejecutaba en segundo plano, lo que habría sido muy útil.

Codificación

Para la tarea de programación, intenté crear el mismo juego que había creado anteriormente con Grok. La única diferencia en la indicación era que le pedí a GPT-5 que ejecutara el código en Canvas.

Mensaje: Hazme un juego de carreras infinitas cautivador. Instrucciones clave en la pantalla. Escena p5.js, sin HTML. Me gustan los dinosaurios pixelados y los fondos interesantes. Ejecuta el código en Canvas.

Después de tres fallos en la compilación, renuncié a ejecutarlo en Canvas y, en su lugar, ejecuté el código en un editor p5.js. Este es el resultado:

El modelo escribió la impresionante cifra de 764 líneas de código y produjo la mejor V1 de este juego que he conseguido generar con cualquier modelo que haya probado. La mayoría de los modelos, por ejemplo, no iniciaban el juego con una pantalla de pausa que permitiera al jugador decidir cuándo comenzar, sino que se ejecutaban tan pronto como se ejecutaba el código. Y ninguno incluía características como las mejores puntuaciones, la posibilidad de planear o pausar el juego.

Multimodal de contexto largo

Al igual que con Grok 4, quería probar un PDF más grande, así que subí el informe de la Comisión Europea titulado « Informe sobre las perspectivas de la IA generativa (43 087 tokens / 167 páginas) y le di a GPT-5 la siguiente indicación:

Mensaje: Analiza todo este informe e identifica los tres gráficos más informativos. Resume cada uno y dime en qué página del PDF aparecen.

Antes de mostrarte los resultados (utilizando mi cuenta Pro), ten en cuenta que, dado el gran tamaño de este PDF, es muy probable que no se pueda ejecutar en ChatGPT Free (límite de 8K tokens) ni siquiera en ChatGPT Plus (límite de 32K tokens). Por ejemplo, cuando le pedí que resumiera el documento (utilizando mi cuenta gratuita), se produjo un error en el flujo de mensajes, probablemente debido a limitaciones de memoria.

Una vez que ejecuté esta tarea con una cuenta Pro, obtuve algunos resultados, pero como puedes ver en el vídeo a continuación, hubo bastantes problemas:

El resultado fue terriblemente malo y no necesita más comentarios por mi parte. Ni siquiera intenté darles más información. Definitivamente, esto no parece «hablar con un doctor», ni nada parecido a «AGI».

Pruebas de rendimiento de GPT-5

OpenAI publicó un amplio conjunto de resultados de referencia para GPT-5, que abarca codificación, matemáticas, razonamiento multimodal, seguimiento de instrucciones, uso de herramientas, recuperación de contextos largos y veracidad. A continuación se muestra un resumen de las cifras comunicadas en su documentación oficial y en las entradas de su blog.

Rendimiento de codificación

En SWE-bench Verified, un punto de referencia de tareas de codificación Python del mundo real, GPT-5 obtiene una puntuación del 74,9 %, frente al 69,1 % de OpenAI o3 y muy por delante de GPT-4.1 (54,6 %). Las ganancias son aún más impresionantes si se tiene en cuenta la eficiencia: con un gran esfuerzo de razonamiento, GPT-5 utiliza un 22 % menos de tokens de salida y un 45 % menos de llamadas a herramientas que o3 para lograr esos resultados.

Fuente: OpenAI

En Aider Polyglot, que prueba la edición de código multilingüe, GPT-5 alcanza el 88 %, frente al 81 % de o3, lo que supone una reducción de aproximadamente un tercio en la tasa de error. Puedes encontrar más resultados en este informe dirigido a programadores.

Matemáticas y razonamiento científico

GPT-5 también obtiene buenos resultados en pruebas de rendimiento con gran peso matemático. En AIME 2025 (matemáticas de nivel competitivo sin herramientas), GPT-5 (sin herramientas) obtiene una puntuación del 94,6 %, frente al 88,9 % de o3 (sin herramientas). En el HMMT (torneo de matemáticas de Harvard-MIT), alcanza el 93,3 % sin herramientas, superando el 85 % de o3. En FrontierMath (matemáticas de nivel experto con una herramienta Python), GPT-5 obtiene una puntuación del 26,3 %, lo que no es una cifra muy alta, pero sigue estando por delante del 15,8 % de o3.

Fuente: OpenAI

En GPQA Diamond (preguntas científicas de nivel de doctorado), GPT-5 alcanza un 87,3 % con herramientas (Python) y un 85,7 % sin ellas, superando ligeramente a o3 en ambas configuraciones.

Razonamiento multimodal

En pruebas comparativas multimodales, GPT-5 establece un nuevo estándar de vanguardia. Obtiene una puntuación del 84,2 % en MMMU (razonamiento visual a nivel universitario) y del 78,4 % en MMMU-Pro (nivel de posgrado), superando a o3 en ambos casos. En VideoMMMU (razonamiento basado en vídeo con hasta 256 fotogramas), GPT-5 alcanza una precisión del 84,6 % frente al 83,3 % de o3.

También obtiene buenos resultados en CharXiv Reasoning (interpretación de figuras científicas) con un 81,1 % cuando se habilita el pensamiento, y en ERQA (razonamiento espacial) con un 65,7 %, ambos por delante de o3.

El último examen de la humanidad (HLE)

Humanity’s Last Exam es un exigente examen compuesto por 2500 preguntas seleccionadas a mano y de nivel de doctorado que abarcan matemáticas, física, química, lingüística e ingeniería.

Según los resultados publicados por OpenAI, GPT-5 obtiene una puntuación del 24,8 % sin herramientas y del 42,0 % en su variante Pro.

Fuente: OpenAI

Grok 4, según datos propios de xAI, alcanza alrededor del 26 % sin herramientas y el 41,0 % con herramientas. La configuración Grok 4 Heavy, que ejecuta varios agentes en paralelo y fusiona los resultados, lleva esta cifra aún más lejos, hasta el 50,7 %, lo que demuestra la ventaja de la configuración multiagente. Aunque ambos modelos ofrecen resultados similares en modo de agente único asistido por herramientas, la arquitectura de Grok 4 Heavy le confiere una ventaja notable en este aspecto.

Fuente: xAI

Conclusión

GPT-5 no es el hito de la AGI que algunos esperaban, y desde luego no da la sensación de tener un «doctorado en el bolsillo». Sin embargo, se trata de una consolidación bien ejecutada de la gama anterior de OpenAI en una única experiencia más fluida, respaldada por algunas mejoras técnicas significativas, aunque incrementales.

Las nuevas funciones basadas en chat, como las personalidades, la personalización de colores y la integración con Gmail/Calendar, hacen que ChatGPT resulte más personal y útil para los flujos de trabajo diarios. Por parte de los programadores, el control más preciso sobre el razonamiento, la verbosidad y los formatos de las herramientas, además de un mejor rendimiento en tareas de larga duración, son mejoras muy bienvenidas que facilitan el trabajo.

En las pruebas, GPT-5 manejó muy bien tareas sencillas de razonamiento y codificación, e incluso produjo la mejor primera versión de un juego que he visto hasta ahora en cualquier modelo. Sin embargo, su rendimiento multimodal en contextos largos aún dejaba mucho que desear, ya que los recursos de nivel Pro no lograban ofrecer resultados a la altura de las expectativas.

Para la mayoría de las personas, GPT-5 seguirá siendo la herramienta de IA más accesible y versátil disponible en la actualidad. Pero no esperes que supere los límites de lo que es posible con los modelos actuales. Es una evolución, no una revolución, y dependiendo de sus necesidades, puede que sea justo lo que está buscando.

¿Puedo seguir utilizando modelos GPT-4 más antiguos si lo deseo?

¿Qué es GPT-5 Thinking y en qué se diferencia del GPT-5 normal?

¿Qué es GPT-5 Pro?

¿Qué es la ventana de contexto de GPT-5?

¿Cuál es la diferencia entre la ventana de contexto y la memoria?

¿Cómo gestiona GPT-5 las imágenes y otros medios?

¿GPT-5 se ejecuta localmente en mi ordenador?

¿Qué tan seguro es GPT-5?

Temas

Inteligencia Artificial

ChatGPT

¡Aprende IA con estos cursos!

Curso

Building Agentic Workflows with LlamaIndex

2 h

1.2K

Build AI agentic workflows that can plan, search, remember, and collaborate, using LlamaIndex.

Ver detalles

Iniciar curso

Curso

Introducción a los agentes de IA

1 h 30 min

107.7K

Aprende los fundamentos de los agentes de IA, sus componentes y usos reales, sin necesidad de programar.

Ver detalles

Iniciar curso

Curso

Introducción a las consultas SQL con IA

3 h

5.2K

Aprende a consultar SQL con IA escribiendo prompts, generando consultas y analizando datos para resolver problemas del mundo real.

Ver detalles

Iniciar curso

Relacionado

blog

Todo lo que sabemos sobre GPT-5

Descubre cómo GPT-5 evolucionará hasta convertirse en un sistema unificado con funciones avanzadas, cuyo lanzamiento está previsto para el verano de 2025, basándose en la última hoja de ruta de OpenAI y en la historia de GPT.

Josep Ferrer

8 min

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.

Abid Ali Awan

9 min

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Tutorial

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Echa un vistazo a estos cinco sencillos pasos para liberar todo el potencial de ChatGPT con tus propios GPT personalizados.

Moez Ali

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.

Arunn Thevapalan

Ver más Ver más

¿Qué es GPT-5?

Lo que obtienes según tu nivel

Nuevas funciones en GPT-5

Funciones basadas en chat

Personaliza el color de tus chats

Cambiar personalidades

Integración con Gmail y Google Calendar

Finalizaciones más seguras y útiles

Funciones orientadas a programadores

Controles de razonamiento y verbosidad

Herramientas personalizadas con texto sin formato

Mejor en tareas largas y de varios pasos.

Codificación frontal mejorada

Contexto más amplio, menos alucinaciones

Probando GPT-5

Matemáticas

Codificación

Multimodal de contexto largo

Pruebas de rendimiento de GPT-5

Rendimiento de codificación

Matemáticas y razonamiento científico

Razonamiento multimodal

El último examen de la humanidad (HLE)

Conclusión

Preguntas frecuentes

¿Qué es GPT-5 Pro?

¿Qué es la ventana de contexto de GPT-5?

¿Cuál es la diferencia entre la ventana de contexto y la memoria?

¿Cómo gestiona GPT-5 las imágenes y otros medios?

¿GPT-5 se ejecuta localmente en mi ordenador?

¿Qué tan seguro es GPT-5?

Todo lo que sabemos sobre GPT-5

¿Qué es GPT-4 y por qué es importante?

12 alternativas de código abierto a GPT-4

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Visión GPT-4: Guía completa para principiantes

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Building Agentic Workflows with LlamaIndex

Introducción a los agentes de IA

Introducción a las consultas SQL con IA

Todo lo que sabemos sobre GPT-5

¿Qué es GPT-4 y por qué es importante?

12 alternativas de código abierto a GPT-4

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Visión GPT-4: Guía completa para principiantes

Building Agentic Workflows with LlamaIndex