ChatGPT Images 2.0: guía del modelo de imagen de última generación de OpenAI

Descubre cómo ChatGPT Images 2.0 lleva la generación de imágenes a una nueva era con mejor razonamiento del mundo real, renderizado de texto multilingüe, realismo estilístico y un flujo de trabajo como compañero visual de pensamiento.

Actualizado 22 abr 2026 · 14 min leer

Hace casi exactamente un año del lanzamiento de la primera versión de ChatGPT Images con un modelo llamado GPT Image 1. OpenAI ha renovado de nuevo su modelo de imagen y ahora nos propone una nueva idea: el "generador de imágenes" se convierte en un "compañero visual de pensamiento".

En este artículo, veremos qué hay de nuevo, cómo se compara con su predecesor ChatGPT Images 1.5, cómo se mide frente a Nano Banana 2 de Google y en qué brilla el modelo (y en qué no).

¿Qué es ChatGPT Images 2.0?

ChatGPT Images 2.0 es el modelo de imagen de nueva generación de OpenAI. Se presenta como una herramienta capaz de razonar, investigar y luego renderizar.

¿Quieres iniciarte en la IA Generativa?

Aprende a trabajar con LLMs en Python directamente en tu navegador

Empieza ahora

¿Qué hay de nuevo en ChatGPT Images 2.0?

Una de las grandes conclusiones con el lanzamiento de ChatGPT Images 1.5 fue el gran salto en velocidad. En su momento se afirmó que era 4 veces más rápido. Intentamos verificarlo y vimos que aplicaba a las ediciones, no a generar imágenes nuevas.

Esta vez, la gran promesa es la inteligencia. ChatGPT Images 2.0 es un modelo de imagen "pensante": se supone que busca, razona sobre hechos y traduce entradas poco pulidas (notas, bocetos, referencias) en visuales terminados con mucha menos ingeniería de prompts.

Otros temas clave del anuncio son:

Más precisión y control sobre la propia generación
Mejor rendimiento en varios idiomas y escrituras
Mayor sofisticación estilística y realismo
Inteligencia del mundo real mejorada integrada en el modelo
Relaciones de aspecto flexibles para todo, desde móvil hasta formatos de banner

Un modelo que piensa

Una de las afirmaciones más fuertes del lanzamiento es que el nuevo modelo “piensa” y actúa como un “compañero visual de pensamiento”. La idea es que unos agentes trabajan entre bambalinas para entender a fondo la tarea y razonar sobre ella antes de ejecutar la generación.

Su conocimiento del mundo se ha actualizado hasta diciembre de 2025, de modo que los resultados son más precisos en contexto. Se presenta como ideal para gráficos educativos y flujos de trabajo con varios pasos que requieren contexto.

Buscar en la web

Para salvar la distancia entre el cutoff y la información reciente, Images 2.0 puede buscar en la web para encontrar datos relevantes. No está del todo claro por las notas de OpenAI cómo funciona exactamente, pero entendemos que la búsqueda en la web actúa como una herramienta invocada por el agente pensante mencionado arriba.

Crea varias imágenes con un mismo prompt

El nuevo modelo también admite de forma nativa generar varias imágenes a partir del mismo prompt. Antes se podía con un apaño en la API (pidiendo una “composición”), pero ahora también se puede hacer desde la interfaz, hasta diez imágenes. OpenAI promete continuidad de personajes y objetos en todas esas salidas.

Probando ChatGPT Images 2.0

Hora de ver de qué es capaz el nuevo modelo. Probamos las siguientes funciones y capacidades de Images 2.0:

Flujo de trabajo de edición
Modo de pensamiento y búsqueda web
Rango estilístico
Pulido de bocetos toscos
Flexibilidad de relación de aspecto
Creatividad

Prueba del flujo de edición

La propuesta de OpenAI para 2.0 se apoya en la iteración: entrada tosca, recurso pulido, con mejoras en seguimiento de instrucciones y renderizado de texto denso. Lo probamos con un sello estadounidense famoso de 1898 llamado Western Cattle in Storm.

Aquí tienes una foto de uno de los sellos en condición Fine.

Para centrarnos en el flujo de edición, usamos el siguiente prompt sin modo de pensamiento. Esto también implica que el modelo no tiene acceso a búsquedas web, que probamos por separado.

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

Y aquí está el resultado:

El prompt solo con texto no funcionó. La descripción detallada del sello y su estado devolvió resultados incorrectos en casi todo lo importante: color incorrecto, disposición de la denominación equivocada, descentramiento caricaturesco. Reproducir un objeto histórico concreto solo a partir de texto es pedir mucho.

Donde 2.0 se ganó el puesto fue dándole la imagen de referencia y pidiendo ediciones concretas: irregularidades en las perforaciones, resto de bisagra, pliegue diagonal de goma, ligero amarilleo y matasellos parcial.

Las ediciones cayeron aproximadamente donde pedimos. El modelo introdujo un fallo en la relación de aspecto, pero lo arreglamos con un simple seguimiento en lenguaje natural. El resultado final no es de nivel forense —el "$1" parece algo estirado, el maíz es distinto—, pero el bucle funcionó: inicio flojo, corrección de rumbo y un resultado útil en tres turnos.

Prueba del modo de pensamiento y la búsqueda web

Tuvimos que ser cuidadosos al probar las capacidades de búsqueda web, porque si le dices al modelo lo que quieres en el prompt, no estás probando la búsqueda, estás probando el seguimiento de instrucciones. La prueba más limpia es pedir algo muy reciente y específico, darle casi ninguna información y ver si completa los huecos correctamente.

Elegimos el maratón de Boston de ayer. La carrera terminó el lunes 20 de abril —el día antes del anuncio de ChatGPT Images 2.0— y se batió el récord del recorrido masculino por primera vez desde 2011. Eso nos da un conjunto concreto de hechos (ganador, país, tiempo, margen, contexto) que el modelo no puede tener por entrenamiento, pero que se verifican fácil con una búsqueda rápida.

Aquí va el prompt, a propósito sin detalles. Y en el resultado se ve que el modelo sí busca en la web.

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

El resultado es muy atractivo visualmente y mantiene la paleta de colores del maratón de Boston, un buen detalle. Todos los datos mencionados son correctos; los comprobamos y verificamos.

Aún impresiona más si lo comparamos con la salida del modelo anterior (Images 1.5) o del nuevo sin modo de pensamiento, con el mismo prompt:

En estilo, compite, pero aquí hay varios problemas con los números.

Esta edición fue la número 130 del maratón de Boston, así que debería decir “129 años de tradición”, no 127.
La afirmación de que es el “3.º corredor de la historia en bajar de 2:04 en maratón” también es falsa. Lo han hecho unas 20 personas.
Según la web de la Boston Athletic Association, su segunda media maratón fue 1:00:02, no 1:01:05 (que quizá seguiría siendo la segunda mitad más rápida de la historia).
Lo más importante: ChatGPT Images confundió el tiempo del nuevo y el viejo récord. El récord anterior fue 2:03:02; el nuevo es 2:01:52. La diferencia es de 1:10 minutos.
Dado que John Korir también ganó el maratón de Boston del año pasado, parece razonable pensar que no habría acertado el nombre si hubiese habido otro ganador.

La capacidad de búsqueda marca la diferencia a la hora de presentar información actual de forma visual. Para usarla, el modo de pensamiento debe estar activado.

Prueba del rango estilístico

OpenAI promete mejoras reales en sofisticación estilística —en fotografía, ilustración, manga, pixel art y otros estilos. La prueba honesta no es si una imagen aislada se ve bien, sino si el mismo sujeto en tres estilos distintos resulta auténtico para cada género, o si todo vuelve con el mismo barniz “de IA” por debajo.

Para probarlo, pedimos tres versiones distintas de una cafetera espresso sobre un banco de trabajo de madera (fotografía, manga, pixel art). Estos son los prompts y los resultados:

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Un resultado interesante, y bastante irónico si pensamos que Image 1 se hizo famoso por los montajes al estilo Studio Ghibli que todo el mundo hacía hace un año (nosotros incluidos). Parece que OpenAI se ha vuelto más cauta con el copyright y la propiedad intelectual desde entonces.

Describiendo el estilo de Katsuhiro Otomo sin mencionarlo, funcionó. Un detalle: tuvimos que abrir un chat nuevo para que saliera. En el mismo chat del prompt original, el modelo parecía darse cuenta de que intentábamos sortear el bloqueo.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

En nuestra opinión, las tres imágenes se ven geniales y capturan fielmente los estilos pedidos. La fotografía parece muy natural y las otras dos podrían salir directamente de un manga o de un videojuego de SNES, respectivamente.

Otra cosa que salta a la vista arriba es cómo el modelo usó su flexibilidad de relación de aspecto para adaptar cada imagen: un 16:9 apaisado para la foto, un formato vertical para la versión manga y un cuadrado para el pixel art.

Prueba de relaciones de aspecto flexibles

El lanzamiento admite relaciones de aspecto de 3:1 a 1:3 y resoluciones de hasta 2K. La cuestión interesante no es si puede producir una imagen alta o ancha, sino si el modelo recompone con inteligencia entre formatos o simplemente recorta.

Para exponer la lógica espacial subyacente, necesitamos una escena con elementos distintos e innegociables en varios ejes (algo alto, algo ancho y un sujeto central).

Como prueba, generamos nuestro sujeto (un astronauta en un entorno concreto) a partir de un prompt base y luego pedimos al modelo recrearlo como fondo de móvil, banner y cuadrado para ver cómo se adapta la composición.

Prompt base:

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Veamos cómo cambia:

Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Cada versión eligió una relación de aspecto adecuada para la petición, incluye todos los elementos importantes (astronauta, rover, planeta), los dispone como pedimos en el prompt original y los centra. Prueba superada.

De boceto tosco a resultado pulido

El enfoque de “compañero de pensamiento” se basa en que el modelo acepte entradas vagas o desordenadas —un boceto, unas viñetas, unas referencias— y las convierta en un recurso final. Este es el bucle sobre el que realmente se construye el lanzamiento y el que más merece probarse de forma directa.

Para probarlo, subimos este boceto a lápiz muy primario de una cabaña junto al lago:

Para complicarlo, contiene bastantes detalles, usa la palabra finlandesa para muelle, “laituri”, y da pie a confusión al contener dos tipos de edificios (casa y cabaña) y dos superficies de agua (lago y estanque).

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

El resultado sin modo de pensamiento se ve decente, pero no muy fotorrealista. Aun así, la iluminación encaja bien y la imagen captura muy bien el tono del prompt. Vemos casi todos los elementos del boceto. Algunos detalles fallan:

Falta el barco
El muelle está en el estanque, no en el lago
El sol no está en la esquina superior derecha.

Cuando probamos el mismo prompt con el mismo boceto en modo de pensamiento, la salida era mucho más realista y corregía todas las pequeñas imprecisiones:

La imagen incluye cada elemento del boceto en su posición y se ve muy lograda. La conclusión aquí es que uses el modo de pensamiento para obtener los mejores resultados al convertir bocetos en imágenes fotorrealistas.

Prueba de creatividad

Para la siguiente prueba queríamos ver si podía recrear la poesía concreta de Niikuni Seiichi.

Este famoso poema muestra el kanji japonés de lluvia rodeado de lluvia; es como atrapar la lluvia en el lenguaje, así lo vemos.

Este fue nuestro prompt:

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

Y aquí está la salida:

Esto nos parece interesante. No recreó la imagen exactamente, pero creó algo sugerente. En la nueva composición, el kanji de “lluvia” no está rodeado de lluvia, sino que cae como lluvia. La disposición de los símbolos parece muy aleatoria, como esperarías de las gotas, y contrasta bien con el orden del original.

¿Cómo puedo acceder a ChatGPT Images 2.0?

El acceso sigue el mismo patrón que la versión anterior. Se mantiene el espacio creativo dedicado introducido en diciembre —editor tipo lienzo, artefactos persistentes, preajustes de estilo— y se sustituye por debajo un modelo mucho más capaz.

Web, app móvil y Codex: ChatGPT Images 2.0 está disponible en la pestaña Images para usuarios Free, Plus y Pro, con límites de uso según el plan. El acceso para Business y Enterprise suele llegar tras el despliegue inicial.
API: Los desarrolladores pueden usar el nuevo modelo a través de la OpenAI API y Azure OpenAI Service, mediante los endpoints de generación y edición de imágenes. Como en 1.5, la salida se tarifica por tokens, y la regeneración parcial en ediciones mantiene los costes por debajo de rehacer una imagen completa cada vez.

ChatGPT Images 2.0 vs. Nano Banana 2

Quizá te preguntes cómo se compara ChatGPT Images 2.0 con Nano Banana 2. Ambos modelos son recientes, ambos son la experiencia por defecto en sus ecosistemas y ambos sepresentan en torno a velocidad, razonamiento e inteligencia del mundo real.

	ChatGPT Images 2.0	Nano Banana 2
Arquitectura subyacente	GPT-Image-2 (sucesor de GPT-Image-1.5)	Gemini 3.1 Flash
Modelo de edición	Precisión: selección de áreas y edición in situ	Razonamiento: conversacional y enmascarado inteligente
Flujo de trabajo	Espacio creativo dedicado (pestaña Images)	Integrado en el chat de Gemini
Iteración	Eficiente: regeneración parcial	Rápida: 4–6 s a 1K, ajustable vía Thinking Mode
Anclaje al mundo real	Razonamiento integrado y conocimiento actualizado	Image Search Grounding (toma referencias en vivo de Google Search)
Consistencia multipanel	Sólida en secuencias y hojas de personajes	Sólida, con foco en consistencia del sujeto
Texto multilingüe	Gran mejora sobre 1.5; amplia compatibilidad de escrituras	Fuerte, especialmente en chino y maquetaciones de Asia oriental
Resolución por defecto	Estándar + relaciones de aspecto flexibles	2K por defecto en la app de Gemini
Ecosistema	OpenAI y Azure	Stack de Google / Gemini, Search, Lens

Cuándo usar ChatGPT Images 2.0 vs. Nano Banana 2

Usa ChatGPT Images 2.0 cuando…

Necesitas un bucle de edición guiado por referencia. El modelo acepta una imagen de referencia y aplica cambios dirigidos (detalles de textura, correcciones de posición, arreglos de relación de aspecto) en varias iteraciones, y los seguimientos en lenguaje natural orientan el resultado sin empezar de cero, ahorrando además tokens
Vas a convertir entradas toscas en recursos pulidos. El modo de pensamiento resuelve bocetos vagos e instrucciones espaciales en composiciones fotorrealistas y precisas, con los elementos exactamente donde los querías
La precisión factual dentro de la imagen es crítica. La búsqueda web incorpora información en vivo y la representa correctamente dentro de la propia imagen, lo que la hace fiable para carteles de eventos, infografías de actualidad o cualquier visual donde números y nombres deban ser correctos. Recuerda activar el modo de pensamiento para habilitar la búsqueda web

Usa Nano Banana 2 cuando…

Quieres situar sujetos o lugares reales concretos en una escena. Image Search Grounding trae referencias visuales en vivo desde Google, reconstruye con precisión sitios específicos (incluso por coordenadas GPS) y los combina con personajes consistentes en una sola generación
Necesitas mantener la identidad a través de varios personajes y objetos en un mismo flujo. El modelo admite explícitamente hasta cinco personajes y catorce referencias en total (personajes + objetos) con estricta consistencia. Es una gran opción para storyboards, fotos de producto o narrativas con varios personajes
Trabajas dentro del ecosistema de Google. Nano Banana está integrado de forma nativa en el chat de Gemini, Google Search, Google Ads, Firebase y Vertex AI

Ambos son buenas opciones para renderizar texto dentro de la imagen, variedad estilística y edición conversacional.

Conclusiones

La idea del “compañero visual de pensamiento” se sostiene, pero solo con el modo de pensamiento activado. Sin él, el modelo se atasca con la lógica espacial y el fotorrealismo; con él, convierte entradas ambiguas en resultados que se sienten colaborativos, no mecánicos. Dos áreas en las que el modelo destaca incluso sin modo de pensamiento son la autenticidad estilística y la flexibilidad de relación de aspecto.

La búsqueda web integrada se siente como la mayor mejora respecto a Images 1.5. En la prueba del maratón de Boston se ve claro: 2.0 acertó todos los datos, mientras que 1.5 no estaba actualizado. Es importante saber que la búsqueda web también solo funciona con el modo de pensamiento.

Otro hallazgo interesante es que las barreras de copyright son más estrictas, y se nota. Si quieres recrear un estilo por el que se reconoce a una empresa o persona, toca dar el paso extra de identificar la esencia de su estilo y describirla (lo cual, dicho sea de paso, hoy es bastante sencillo).

En conjunto, el modelo supone una mejora importante respecto a su predecesor y pone en cuestión el estatus de Nano Banana 2 como la herramienta líder en generación y edición de imágenes con IA.

Para aprovechar al máximo estas herramientas, saber crear buenos prompts es una habilidad esencial. Te recomendamos encarecidamente nuestros cursos Understanding Prompt Engineering y Prompt Engineering with the OpenAI API para una base teórica y práctica.

Author

Josef Waples

Author

Tom Farnschläder

Temas

ChatGPT

Aprende con DataCamp

Curso

Comprender la ingeniería de prompts

1 h

181.5K

Aprende a escribir avisos eficaces con ChatGPT para aplicarlos en tu flujo de trabajo hoy mismo.

Ver detalles

Iniciar curso

Curso

ChatGPT intermedio

1 h

26.4K

Aprende la arquitectura que hay detrás de los modelos GPT y domina la creación avanzada de prompts para liberar todo el potencial de chatGPT.

Ver detalles

Iniciar curso

Curso

Limpieza de datos con Generative AI

1 h

11.2K

Usa la IA generativa para limpiar datos, corregir duplicados, valores nulos y formatos, y obtener conjuntos de datos coherentes y precisos.

Ver detalles

Iniciar curso

Relacionado

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

blog

10 de los mejores plugins de ChatGPT para sacar el máximo partido a la IA en 2023

Libera todo el potencial de ChatGPT con nuestra guía de expertos sobre los 10 mejores plugins para 2023. Mejora la productividad, agiliza los flujos de trabajo y descubre nueva funcionalidad para elevar tu experiencia ChatGPT.

Matt Crabtree

12 min

blog

10 maneras de utilizar ChatGPT para las finanzas

Descubre cómo los modelos lingüísticos de IA como ChatGPT pueden revolucionar tus operaciones financieras, desde la generación de informes hasta la traducción de jerga financiera.

Matt Crabtree

13 min

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.

Abid Ali Awan

10 min

Tutorial

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Echa un vistazo a estos cinco sencillos pasos para liberar todo el potencial de ChatGPT con tus propios GPT personalizados.

Moez Ali

Tutorial

Guía para principiantes sobre el uso de la API ChatGPT

Esta guía te acompanya a través de los fundamentos de la API ChatGPT, demostrando su potencial en el procesamiento del lenguaje natural y la comunicación impulsada por la IA.

Moez Ali

Ver más Ver más

¿Qué es ChatGPT Images 2.0?

¿Quieres iniciarte en la IA Generativa?

¿Qué hay de nuevo en ChatGPT Images 2.0?

Un modelo que piensa

Buscar en la web

Crea varias imágenes con un mismo prompt

Probando ChatGPT Images 2.0

Prueba del flujo de edición

Prueba del modo de pensamiento y la búsqueda web

Prueba del rango estilístico

Prueba de relaciones de aspecto flexibles

De boceto tosco a resultado pulido

Prueba de creatividad

¿Cómo puedo acceder a ChatGPT Images 2.0?

ChatGPT Images 2.0 vs. Nano Banana 2

Cuándo usar ChatGPT Images 2.0 vs. Nano Banana 2

Conclusiones

¿Qué es GPT-4 y por qué es importante?

10 de los mejores plugins de ChatGPT para sacar el máximo partido a la IA en 2023

10 maneras de utilizar ChatGPT para las finanzas

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Guía para principiantes sobre el uso de la API ChatGPT

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Comprender la ingeniería de prompts

ChatGPT intermedio

Limpieza de datos con Generative AI

¿Qué es GPT-4 y por qué es importante?

10 de los mejores plugins de ChatGPT para sacar el máximo partido a la IA en 2023

10 maneras de utilizar ChatGPT para las finanzas

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Guía para principiantes sobre el uso de la API ChatGPT

Comprender la ingeniería de prompts