Curso
Hace casi exactamente un año del lanzamiento de la primera versión de ChatGPT Images con un modelo llamado GPT Image 1. OpenAI ha renovado de nuevo su modelo de imagen y ahora nos propone una nueva idea: el "generador de imágenes" se convierte en un "compañero visual de pensamiento".
En este artículo, veremos qué hay de nuevo, cómo se compara con su predecesor ChatGPT Images 1.5, cómo se mide frente a Nano Banana 2 de Google y en qué brilla el modelo (y en qué no).
¿Qué es ChatGPT Images 2.0?
ChatGPT Images 2.0 es el modelo de imagen de nueva generación de OpenAI. Se presenta como una herramienta capaz de razonar, investigar y luego renderizar.
¿Quieres iniciarte en la IA Generativa?
Aprende a trabajar con LLMs en Python directamente en tu navegador

¿Qué hay de nuevo en ChatGPT Images 2.0?
Una de las grandes conclusiones con el lanzamiento de ChatGPT Images 1.5 fue el gran salto en velocidad. En su momento se afirmó que era 4 veces más rápido. Intentamos verificarlo y vimos que aplicaba a las ediciones, no a generar imágenes nuevas.
Esta vez, la gran promesa es la inteligencia. ChatGPT Images 2.0 es un modelo de imagen "pensante": se supone que busca, razona sobre hechos y traduce entradas poco pulidas (notas, bocetos, referencias) en visuales terminados con mucha menos ingeniería de prompts.
Otros temas clave del anuncio son:
- Más precisión y control sobre la propia generación
- Mejor rendimiento en varios idiomas y escrituras
- Mayor sofisticación estilística y realismo
- Inteligencia del mundo real mejorada integrada en el modelo
- Relaciones de aspecto flexibles para todo, desde móvil hasta formatos de banner
Un modelo que piensa
Una de las afirmaciones más fuertes del lanzamiento es que el nuevo modelo “piensa” y actúa como un “compañero visual de pensamiento”. La idea es que unos agentes trabajan entre bambalinas para entender a fondo la tarea y razonar sobre ella antes de ejecutar la generación.
Su conocimiento del mundo se ha actualizado hasta diciembre de 2025, de modo que los resultados son más precisos en contexto. Se presenta como ideal para gráficos educativos y flujos de trabajo con varios pasos que requieren contexto.
Buscar en la web
Para salvar la distancia entre el cutoff y la información reciente, Images 2.0 puede buscar en la web para encontrar datos relevantes. No está del todo claro por las notas de OpenAI cómo funciona exactamente, pero entendemos que la búsqueda en la web actúa como una herramienta invocada por el agente pensante mencionado arriba.
Crea varias imágenes con un mismo prompt
El nuevo modelo también admite de forma nativa generar varias imágenes a partir del mismo prompt. Antes se podía con un apaño en la API (pidiendo una “composición”), pero ahora también se puede hacer desde la interfaz, hasta diez imágenes. OpenAI promete continuidad de personajes y objetos en todas esas salidas.
Probando ChatGPT Images 2.0
Hora de ver de qué es capaz el nuevo modelo. Probamos las siguientes funciones y capacidades de Images 2.0:
- Flujo de trabajo de edición
- Modo de pensamiento y búsqueda web
- Rango estilístico
- Pulido de bocetos toscos
- Flexibilidad de relación de aspecto
- Creatividad
Prueba del flujo de edición
La propuesta de OpenAI para 2.0 se apoya en la iteración: entrada tosca, recurso pulido, con mejoras en seguimiento de instrucciones y renderizado de texto denso. Lo probamos con un sello estadounidense famoso de 1898 llamado Western Cattle in Storm.
Aquí tienes una foto de uno de los sellos en condición Fine.

Para centrarnos en el flujo de edición, usamos el siguiente prompt sin modo de pensamiento. Esto también implica que el modelo no tiene acceso a búsquedas web, que probamos por separado.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
Y aquí está el resultado:

El prompt solo con texto no funcionó. La descripción detallada del sello y su estado devolvió resultados incorrectos en casi todo lo importante: color incorrecto, disposición de la denominación equivocada, descentramiento caricaturesco. Reproducir un objeto histórico concreto solo a partir de texto es pedir mucho.
Donde 2.0 se ganó el puesto fue dándole la imagen de referencia y pidiendo ediciones concretas: irregularidades en las perforaciones, resto de bisagra, pliegue diagonal de goma, ligero amarilleo y matasellos parcial.
Las ediciones cayeron aproximadamente donde pedimos. El modelo introdujo un fallo en la relación de aspecto, pero lo arreglamos con un simple seguimiento en lenguaje natural. El resultado final no es de nivel forense —el "$1" parece algo estirado, el maíz es distinto—, pero el bucle funcionó: inicio flojo, corrección de rumbo y un resultado útil en tres turnos.

Prueba del modo de pensamiento y la búsqueda web
Tuvimos que ser cuidadosos al probar las capacidades de búsqueda web, porque si le dices al modelo lo que quieres en el prompt, no estás probando la búsqueda, estás probando el seguimiento de instrucciones. La prueba más limpia es pedir algo muy reciente y específico, darle casi ninguna información y ver si completa los huecos correctamente.
Elegimos el maratón de Boston de ayer. La carrera terminó el lunes 20 de abril —el día antes del anuncio de ChatGPT Images 2.0— y se batió el récord del recorrido masculino por primera vez desde 2011. Eso nos da un conjunto concreto de hechos (ganador, país, tiempo, margen, contexto) que el modelo no puede tener por entrenamiento, pero que se verifican fácil con una búsqueda rápida.
Aquí va el prompt, a propósito sin detalles. Y en el resultado se ve que el modelo sí busca en la web.
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

El resultado es muy atractivo visualmente y mantiene la paleta de colores del maratón de Boston, un buen detalle. Todos los datos mencionados son correctos; los comprobamos y verificamos.
Aún impresiona más si lo comparamos con la salida del modelo anterior (Images 1.5) o del nuevo sin modo de pensamiento, con el mismo prompt:

En estilo, compite, pero aquí hay varios problemas con los números.
- Esta edición fue la número 130 del maratón de Boston, así que debería decir “129 años de tradición”, no 127.
- La afirmación de que es el “3.º corredor de la historia en bajar de 2:04 en maratón” también es falsa. Lo han hecho unas 20 personas.
- Según la web de la Boston Athletic Association, su segunda media maratón fue 1:00:02, no 1:01:05 (que quizá seguiría siendo la segunda mitad más rápida de la historia).
- Lo más importante: ChatGPT Images confundió el tiempo del nuevo y el viejo récord. El récord anterior fue 2:03:02; el nuevo es 2:01:52. La diferencia es de 1:10 minutos.
- Dado que John Korir también ganó el maratón de Boston del año pasado, parece razonable pensar que no habría acertado el nombre si hubiese habido otro ganador.
La capacidad de búsqueda marca la diferencia a la hora de presentar información actual de forma visual. Para usarla, el modo de pensamiento debe estar activado.
Prueba del rango estilístico
OpenAI promete mejoras reales en sofisticación estilística —en fotografía, ilustración, manga, pixel art y otros estilos. La prueba honesta no es si una imagen aislada se ve bien, sino si el mismo sujeto en tres estilos distintos resulta auténtico para cada género, o si todo vuelve con el mismo barniz “de IA” por debajo.
Para probarlo, pedimos tres versiones distintas de una cafetera espresso sobre un banco de trabajo de madera (fotografía, manga, pixel art). Estos son los prompts y los resultados:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Un resultado interesante, y bastante irónico si pensamos que Image 1 se hizo famoso por los montajes al estilo Studio Ghibli que todo el mundo hacía hace un año (nosotros incluidos). Parece que OpenAI se ha vuelto más cauta con el copyright y la propiedad intelectual desde entonces.
Describiendo el estilo de Katsuhiro Otomo sin mencionarlo, funcionó. Un detalle: tuvimos que abrir un chat nuevo para que saliera. En el mismo chat del prompt original, el modelo parecía darse cuenta de que intentábamos sortear el bloqueo.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

En nuestra opinión, las tres imágenes se ven geniales y capturan fielmente los estilos pedidos. La fotografía parece muy natural y las otras dos podrían salir directamente de un manga o de un videojuego de SNES, respectivamente.
Otra cosa que salta a la vista arriba es cómo el modelo usó su flexibilidad de relación de aspecto para adaptar cada imagen: un 16:9 apaisado para la foto, un formato vertical para la versión manga y un cuadrado para el pixel art.
Prueba de relaciones de aspecto flexibles
El lanzamiento admite relaciones de aspecto de 3:1 a 1:3 y resoluciones de hasta 2K. La cuestión interesante no es si puede producir una imagen alta o ancha, sino si el modelo recompone con inteligencia entre formatos o simplemente recorta.
Para exponer la lógica espacial subyacente, necesitamos una escena con elementos distintos e innegociables en varios ejes (algo alto, algo ancho y un sujeto central).
Como prueba, generamos nuestro sujeto (un astronauta en un entorno concreto) a partir de un prompt base y luego pedimos al modelo recrearlo como fondo de móvil, banner y cuadrado para ver cómo se adapta la composición.
Prompt base:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Veamos cómo cambia:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Cada versión eligió una relación de aspecto adecuada para la petición, incluye todos los elementos importantes (astronauta, rover, planeta), los dispone como pedimos en el prompt original y los centra. Prueba superada.
De boceto tosco a resultado pulido
El enfoque de “compañero de pensamiento” se basa en que el modelo acepte entradas vagas o desordenadas —un boceto, unas viñetas, unas referencias— y las convierta en un recurso final. Este es el bucle sobre el que realmente se construye el lanzamiento y el que más merece probarse de forma directa.
Para probarlo, subimos este boceto a lápiz muy primario de una cabaña junto al lago:

Para complicarlo, contiene bastantes detalles, usa la palabra finlandesa para muelle, “laituri”, y da pie a confusión al contener dos tipos de edificios (casa y cabaña) y dos superficies de agua (lago y estanque).
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

El resultado sin modo de pensamiento se ve decente, pero no muy fotorrealista. Aun así, la iluminación encaja bien y la imagen captura muy bien el tono del prompt. Vemos casi todos los elementos del boceto. Algunos detalles fallan:
- Falta el barco
- El muelle está en el estanque, no en el lago
- El sol no está en la esquina superior derecha.
Cuando probamos el mismo prompt con el mismo boceto en modo de pensamiento, la salida era mucho más realista y corregía todas las pequeñas imprecisiones:

La imagen incluye cada elemento del boceto en su posición y se ve muy lograda. La conclusión aquí es que uses el modo de pensamiento para obtener los mejores resultados al convertir bocetos en imágenes fotorrealistas.
Prueba de creatividad
Para la siguiente prueba queríamos ver si podía recrear la poesía concreta de Niikuni Seiichi.
Este famoso poema muestra el kanji japonés de lluvia rodeado de lluvia; es como atrapar la lluvia en el lenguaje, así lo vemos.

Este fue nuestro prompt:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
Y aquí está la salida:

Esto nos parece interesante. No recreó la imagen exactamente, pero creó algo sugerente. En la nueva composición, el kanji de “lluvia” no está rodeado de lluvia, sino que cae como lluvia. La disposición de los símbolos parece muy aleatoria, como esperarías de las gotas, y contrasta bien con el orden del original.
¿Cómo puedo acceder a ChatGPT Images 2.0?
El acceso sigue el mismo patrón que la versión anterior. Se mantiene el espacio creativo dedicado introducido en diciembre —editor tipo lienzo, artefactos persistentes, preajustes de estilo— y se sustituye por debajo un modelo mucho más capaz.
- Web, app móvil y Codex: ChatGPT Images 2.0 está disponible en la pestaña Images para usuarios Free, Plus y Pro, con límites de uso según el plan. El acceso para Business y Enterprise suele llegar tras el despliegue inicial.
- API: Los desarrolladores pueden usar el nuevo modelo a través de la OpenAI API y Azure OpenAI Service, mediante los endpoints de generación y edición de imágenes. Como en 1.5, la salida se tarifica por tokens, y la regeneración parcial en ediciones mantiene los costes por debajo de rehacer una imagen completa cada vez.
ChatGPT Images 2.0 vs. Nano Banana 2
Quizá te preguntes cómo se compara ChatGPT Images 2.0 con Nano Banana 2. Ambos modelos son recientes, ambos son la experiencia por defecto en sus ecosistemas y ambos sepresentan en torno a velocidad, razonamiento e inteligencia del mundo real.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Arquitectura subyacente |
GPT-Image-2 (sucesor de GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Modelo de edición |
Precisión: selección de áreas y edición in situ |
Razonamiento: conversacional y enmascarado inteligente |
|
Flujo de trabajo |
Espacio creativo dedicado (pestaña Images) |
Integrado en el chat de Gemini |
|
Iteración |
Eficiente: regeneración parcial |
Rápida: 4–6 s a 1K, ajustable vía Thinking Mode |
|
Anclaje al mundo real |
Razonamiento integrado y conocimiento actualizado |
Image Search Grounding (toma referencias en vivo de Google Search) |
|
Consistencia multipanel |
Sólida en secuencias y hojas de personajes |
Sólida, con foco en consistencia del sujeto |
|
Texto multilingüe |
Gran mejora sobre 1.5; amplia compatibilidad de escrituras |
Fuerte, especialmente en chino y maquetaciones de Asia oriental |
|
Resolución por defecto |
Estándar + relaciones de aspecto flexibles |
2K por defecto en la app de Gemini |
|
Ecosistema |
OpenAI y Azure |
Stack de Google / Gemini, Search, Lens |
Cuándo usar ChatGPT Images 2.0 vs. Nano Banana 2
Usa ChatGPT Images 2.0 cuando…
- Necesitas un bucle de edición guiado por referencia. El modelo acepta una imagen de referencia y aplica cambios dirigidos (detalles de textura, correcciones de posición, arreglos de relación de aspecto) en varias iteraciones, y los seguimientos en lenguaje natural orientan el resultado sin empezar de cero, ahorrando además tokens
- Vas a convertir entradas toscas en recursos pulidos. El modo de pensamiento resuelve bocetos vagos e instrucciones espaciales en composiciones fotorrealistas y precisas, con los elementos exactamente donde los querías
- La precisión factual dentro de la imagen es crítica. La búsqueda web incorpora información en vivo y la representa correctamente dentro de la propia imagen, lo que la hace fiable para carteles de eventos, infografías de actualidad o cualquier visual donde números y nombres deban ser correctos. Recuerda activar el modo de pensamiento para habilitar la búsqueda web
Usa Nano Banana 2 cuando…
- Quieres situar sujetos o lugares reales concretos en una escena. Image Search Grounding trae referencias visuales en vivo desde Google, reconstruye con precisión sitios específicos (incluso por coordenadas GPS) y los combina con personajes consistentes en una sola generación
- Necesitas mantener la identidad a través de varios personajes y objetos en un mismo flujo. El modelo admite explícitamente hasta cinco personajes y catorce referencias en total (personajes + objetos) con estricta consistencia. Es una gran opción para storyboards, fotos de producto o narrativas con varios personajes
- Trabajas dentro del ecosistema de Google. Nano Banana está integrado de forma nativa en el chat de Gemini, Google Search, Google Ads, Firebase y Vertex AI
Ambos son buenas opciones para renderizar texto dentro de la imagen, variedad estilística y edición conversacional.
Conclusiones
La idea del “compañero visual de pensamiento” se sostiene, pero solo con el modo de pensamiento activado. Sin él, el modelo se atasca con la lógica espacial y el fotorrealismo; con él, convierte entradas ambiguas en resultados que se sienten colaborativos, no mecánicos. Dos áreas en las que el modelo destaca incluso sin modo de pensamiento son la autenticidad estilística y la flexibilidad de relación de aspecto.
La búsqueda web integrada se siente como la mayor mejora respecto a Images 1.5. En la prueba del maratón de Boston se ve claro: 2.0 acertó todos los datos, mientras que 1.5 no estaba actualizado. Es importante saber que la búsqueda web también solo funciona con el modo de pensamiento.
Otro hallazgo interesante es que las barreras de copyright son más estrictas, y se nota. Si quieres recrear un estilo por el que se reconoce a una empresa o persona, toca dar el paso extra de identificar la esencia de su estilo y describirla (lo cual, dicho sea de paso, hoy es bastante sencillo).
En conjunto, el modelo supone una mejora importante respecto a su predecesor y pone en cuestión el estatus de Nano Banana 2 como la herramienta líder en generación y edición de imágenes con IA.
Para aprovechar al máximo estas herramientas, saber crear buenos prompts es una habilidad esencial. Te recomendamos encarecidamente nuestros cursos Understanding Prompt Engineering y Prompt Engineering with the OpenAI API para una base teórica y práctica.


Editor de ciencia de datos en DataCamp | Me encanta hacer previsiones y crear con API.


