Sí. GPT-Image-1.5 está disponible en la API de OpenAI e incluye las mismas mejoras que chatGPT Images. Las entradas y salidas de imágenes son aproximadamente un 20 % más baratas que GPT Image 1, lo que lo hace muy adecuado para aplicaciones como marketing, comercio electrónico y flujos de trabajo de diseño.
La carrera por las mejores herramientas de creación de imágenes ha entrado de nuevo en una nueva fase: Ni siquiera un mes después de que Google lanzara Nano Banana Pro, OpenAI lanzó su respuesta, chatGPT Images.
La versión combina un nuevo espacio de trabajo de imágenes en chatGPT con un modelo de nueva generación, GPT-Image-1.5. Esto indica que chatGPT ya no considera la generación de imágenes como un complemento, sino como una función básica totalmente integrada en la experiencia del usuario. Entre otras mejoras, el modelo promete una gran conservación de los detalles y una generación más rápida.
En este artículo, voy a repasar todas las características clave anunciadas por OpenAI, compararé chatGPT Images con sus competidores y proporcionaré ejemplos prácticos para mostrarte las capacidades del nuevo modelo.
¿Quieres iniciarte en la IA Generativa?
Aprende a trabajar con LLMs en Python directamente en tu navegador

¿Qué es chatGPT Images?
La nueva pestaña Imágenes de chatGPT sirve como centro creativo para todo lo visual dentro de la interfaz de usuario de chatGPT y sustituye a la biblioteca de imágenes personal. El cambio más notable es la integración de herramientas de edición directa que permiten seleccionar detalles específicos dentro de una imagen sin alterar el resto.
chatGPT Images funciona con GPT-Image-1.5, el modelo de IA de texto a imagen más reciente y avanzado de OpenAI. Se basa en el lanzamiento de modelo GPT-Image-1 en marzo de 2025, que fue un gran éxito con más de 700 millones de imágenes generadas en la primera semana.
Ofrece conservación de detalles y una mejor representación del texto, y se afirma que es «hasta cuatro veces» más rápido que su predecesor.
Las nuevas funciones se han implementado para todos los usuarios, tanto de los planes gratuitos como de pago, en la web, la interfaz de usuario móvil y la API. Solo las cuentas Business y Enterprise deben seguir esperando para obtener acceso.
Características principales de chatGPT Imágenes
Entonces, ¿qué ofrece chatGPT Images en comparación con su modelo anterior y con la competencia? OpenAI está promoviendo especialmente «ediciones precisas que conservan lo que importa». Echemos un vistazo a las nuevas funciones para ver qué significan.
Espacio de trabajo creativo dedicado
La pestaña Imágenes se introdujo como un centro de creación visual dentro de la interfaz de usuario de chatGPT. La idea es separar la creación y edición de imágenes de las interacciones normales del chat.
Aunque la función Biblioteca anterior también almacenaba todas las imágenes generadas, solo ofrecía la posibilidad de volver a la conversación en la que se habían creado. Utilizaba el contexto de todo el historial de conversaciones para generar una nueva imagen desde cero, lo que a menudo provocaba alucinaciones en los hilos más largos.
Sin embargo, el nuevo enfoque se centra más en la imagen: Cada edición toma una imagen como punto de partida y solo cambia aspectos seleccionados de ella, en lugar de crear una generación completamente nueva.
Las imágenes son artefactos persistentes, no quedan enterradas en el historial de conversaciones. Esto permite ciclos de retroalimentación más rápidos con nuevas variaciones y fomenta la experimentación, convirtiendo eficazmente la experiencia de un hilo de chat en la de un lienzo.
Para fomentar este flujo creativo, el espacio de trabajo introduce nuevas herramientas de exploración que acortan la distancia entre la idea y la ejecución. Los usuarios pueden aplicar ajustes preestablecidos de estilo incorporados (como «boceto» o «dramático») o explorar las tendencias estéticas para descubrir el próximo «Studio Ghibli». Para los creadores sin experiencia, la interfaz de usuario ofrece sugerencias creativas y asistencia proactiva para ayudar a perfeccionar los resultados.

Preservación de detalles y edición de precisión
Como novedad más importante, la actualización permite a los usuarios seleccionar partes específicas de una imagen y modificarlas directamente, sin alterar el resto de la composición. El modelo es sensible al contexto, lo que significa que entiende qué se debe editar manteniendo la coherencia de los elementos circundantes.
Este tipo de ediciones precisas son posibles gracias a las mejoras en la conservación de detalles del nuevo modelo.
Es capaz de mantener la coherencia de los objetos, la iluminación, la composición y la apariencia de las personas en todas las salidas y ediciones posteriores. Además, la mejora en el seguimiento de las instrucciones contribuye a aumentar la precisión, ya que ayuda a preservar mejor las relaciones entre los elementos.
La edición de precisión es perfecta para corregir pequeños problemas y experimentar con detalles específicos cuando no es necesario realizar una generación completa. También permite realizar transformaciones creativas, como trasladar un elemento de una imagen a la escena de otra.
Sin embargo, cabe mencionar que el modelo tiene dificultades para mantener la identidad exacta de cada persona cuando hay muchas personas en una sola imagen.
Mejora en la representación del texto y el realismo.
Una de las principales características del modelo anterior, GPT-Image-1, era su capacidad para manejar textos más largos y oraciones coherentes. La nueva versión se basa en esa base y ahora es capaz de manejar textos más densos y pequeños que antes.
Esto resulta especialmente útil para infografías, donde los primeros resultados son bastante impresionantes, y abre nuevas posibilidades como el marcado de texto en una imagen, por ejemplo, en un periódico. Más adelante haremos una prueba con infografías.
Sin embargo, según el comunicado de OpenAI, las limitaciones con respecto a algunos idiomas específicos, como el chino, el árabe y el hebreo, parecen persistir.
Aunque no era el objetivo principal de la actualización, el realismo de la salida ha mejorado significativamente en comparación con el modelo anterior. Dos casos en los que se aprecia claramente son los reflejos, por ejemplo, el brillo en una foto, y muchas caras pequeñas en grandes multitudes.
Como suele ocurrir, las actualizaciones importantes conllevan algunas desventajas en áreas específicas. En este caso, la capacidad para generar algunos estilos artísticos específicos ha retrocedido. OpenAI recomienda utilizar los filtros preestablecidos en la pestaña Imágenes o recurrir al modelo anterior , que sigue estando disponible como GPT personalizado.
Rendimiento acelerado
Las capacidades de edición específica son también las responsables del aumento de la velocidad de generación. Aunque la generación completa de imágenes es notablemente más rápida, no alcanza lo que se afirma en la nota de lanzamiento de OpenAI. GPT-Images-1.5 parece «hasta cuatro veces más rápido» principalmente porque solo regenera lo que cambia durante las ediciones.
Del mismo modo, la reducción de aproximadamente un 20 % en el coste de la API se debe principalmente a la regeneración parcial de imágenes durante las ediciones, con ganancias adicionales derivadas de una inferencia más eficiente, en lugar de generaciones completas más económicas.
En general, las nuevas funciones permiten un uso más eficiente y fiable, especialmente para los flujos de trabajo de API.
Ejemplos de imágenes de chatGPT
Las características anunciadas suenan realmente interesantes. Los puse a prueba utilizando unas sencillas indicaciones en combinación con la nueva herramienta de selección.
Comprobación de la precisión de la edición
El objetivo de mi primera prueba era evaluar la capacidad del modelo para gestionar cambios iterativos sin degradar la calidad. Primero, te pedí que crearas una imagen de un oso pardo que camina por un bosque finlandés durante el sol de medianoche.

Indicación: «Un oso pardo caminando por un denso bosque finlandés bajo el sol de medianoche».
En mi opinión, la calidad del primer resultado es muy alta. El oso parece natural, los tipos de árboles y arbustos representan muy bien los bosques finlandeses (¡yo lo sé bien!), y la posición baja del sol coincide con lo que se puede esperar en el norte de Finlandia durante el sol de medianoche.
Además, la iluminación y las sombras sobre el pelaje del oso, así como en el fondo, parecen bastante realistas. De alguna manera, aún se nota que es IA, aunque los detalles son bonitos.
Intentemos cambiar el oso por un oso polar y veamos qué pasa. No hay osos polares en Finlandia, pero si todo funciona como debería, el fondo debería permanecer igual.

Indicación: Cambia el oso por un oso polar.
Como podemos ver, el fondo se mantuvo completamente intacto, tal y como se pretendía.
Para mi siguiente edición, seleccioné la cabeza y los ojos del oso polar y le puse unas gafas de sol vintage.

Indicación: «Ponle unas gafas de sol vintage al oso». (cabeza seleccionada)
Parece que hemos descubierto lo que ocurre cuando seleccionas un área demasiado grande. Aunque el fondo de la imagen y el cuerpo del oso se mantienen iguales, su cabeza se ha convertido en unas grandes gafas de sol. Intentémoslo de nuevo, seleccionando solo sus ojos.

Indicación: Ponle unas gafas de sol vintage al oso. (ojos seleccionados)
¡Muy guay, y sin duda mucho mejor! En esta primera prueba, pudimos comprobar lo potente que es realmente la función de conservación de detalles: Solo tuvimos que indicar los detalles importantes del escenario una vez y pudimos repetir nuestro personaje principal sin tener que preocuparnos por el fondo. Otra conclusión importante de la prueba es que el tamaño de la ventana de selección es importante.
Comprobación de la coherencia de la transformación
A continuación, probé la permanencia de los objetos en diferentes escenarios y las limitaciones del modelo en cuanto a grandes multitudes. Con este propósito, dejé que nuestro oso polar viajara un poco e intenté trasladarlo a una concurrida estación de metro de Tokio.

Indicación: Coloca a este oso en una escena muy concurrida del metro de Tokio.
En primer lugar, la coherencia del personaje es impresionante: el modelo conservó a la perfección la postura y la identidad exactas del oso, y eliminó el reflejo del sol en su pelaje.
Sin embargo, esta rigurosa conservación provocó una desconexión visual conocida como «efecto pegatina». Como el modelo no actualizó el contexto de iluminación (manteniendo la sombra direccional y los reflejos del bosque en las gafas de sol), el oso parece un recorte en 2D pegado a la escena en lugar de un objeto en 3D que habita en ella.
La perspectiva rompe aún más la ilusión: el oso flota delante de un espectador que está físicamente más cerca de la cámara.
Intentar solucionar este último problema fue bastante frustrante. Seleccioné el área del espectador y su intersección con el oso, y le pedí a chatGPT que corrigiera la perspectiva. Para cada variación, el modelo insertó una nueva persona cerca de la cámara, tal y como se muestra a continuación:

Indicación: Corrige la perspectiva: La espalda del transeúnte seleccionado está en primer plano y debería ocultar parcialmente al oso. El oso está detrás de ti.
Parece que el modelo no pudo identificar a la persona, incluso cuando fue seleccionada, y por lo tanto requirió que el nuevo personaje siguiera la orden del mensaje.
La corrección de las sombras y los reflejos de las gafas de sol fue más satisfactoria. Utilicé las siguientes iteraciones:
- Sombra: Selecciona el suelo alrededor de las patas del oso y escribe: «En lugar de la sombra actual, proyecta una sombra suave y difusa sobre el suelo de baldosas del metro, en consonancia con la iluminación fluorescente del techo».
- Gafas de sol: Selecciona las gafas de sol y solicita «Actualizar los reflejos de las gafas de sol para que coincidan con el entorno del metro».

Nuestro oso polar en el metro de Tokio tras corregir las sombras y los reflejos de las gafas de sol.
Ya está mucho mejor, aunque no perfecto.
En general, la segunda prueba no tuvo tanto éxito como la primera. Aunque la coherencia de los elementos entre las diferentes imágenes parece funcionar bien, el reconocimiento de caracteres parece alcanzar sus límites en entornos concurridos.
Prueba de representación de texto
Por último, quería probar las nuevas capacidades de representación de texto, especialmente en lo que respecta al texto denso y las ediciones. Las mejoras en la representación del texto serían bienvenidas porque, históricamente, los modelos de visión han sido mejores con los objetos, las texturas y las escenas, pero no con los símbolos.
Le pedí a chatGPT un diseño complejo para una infografía sobre el ciclo de vida de una estrella:

Indicación: Infografía horizontal que explica el «ciclo de vida de una estrella». Tres secciones: Nebulosa, secuencia principal, agujero negro. Utiliza un estilo vectorial plano.
La salida sigue las instrucciones a la perfección y reproduce el texto sin errores. El estilo es preciso y coherente en toda la infografía.
La multimodalidad de los resultados de chatGPT nos obliga a ser precisos a la hora de insertar texto. Cuando se te pidió que añadieras una viñeta «aquí» (en un área seleccionada de la imagen), simplemente apareció la viñeta como texto. Añadir la aclaración «a la imagen» fue la solución:

Indicación: Añade una viñeta a la imagen aquí que diga: «Dura miles de millones de años».
Tras la aclaración, el punto se insertó en la posición correcta. La fuente, el tamaño y el color coinciden con el estilo del gráfico.
¿Cómo puedo acceder a las imágenes de chatGPT?
chatGPT Images ya está disponible para casi todos los usuarios en múltiples plataformas. Solo falta el soporte para los usuarios de los niveles Business y Enterprise, que se incorporará más adelante.
En la interfaz de usuario, puedes acceder a las funciones inmediatamente en la interfaz de usuario web o en la aplicación móvil de chatGPT a través de la pestaña Imágenes. Aunque no se conocen las cifras exactas, se aplican límites diarios estrictos a las cuentas gratuitas y asignaciones progresivamente más altas y estables en los planes Plus y Pro.
Para los programadores, el nuevo modelo GPT-Image-1.5 se puede utilizar tanto a través de la API de OpenAI como del servicio Azure OpenAI, donde está disponible para la generación y edición de imágenes. Aunque esperamos que el modelo se integre pronto en las principales suites creativas de terceros, los programadores ya pueden crear flujos de trabajo de edición directamente en sus propias aplicaciones utilizando los puntos finales v1/images/generations y v1/images/edits.
A diferencia de su predecesor, GPT-Image-1.5 expone la salida de imágenes como tokens con precios independientes, utilizando puntos finales API específicos para imágenes en lugar del unificado /v1/responses. Solo pagas por los tokens necesarios para generar los cambios, en lugar de por una imagen completamente nueva cada vez.
Por eso se afirma que el nuevo modelo es aproximadamente un 20 % más barato que su predecesor, aunque los precios por token no han cambiado en comparación con GPT-Image-1.
¿Qué tan buenas son las imágenes de chatGPT?
GPT-Image-1.5 subió inmediatamente a lo más alto de la LMArena y ArtificialAnalysis, relegando a Nano Banana Pro al segundo puesto. Dado que actualmente no hay datos de referencia disponibles, tenemos que basarnos en estas clasificaciones basadas en votaciones para obtener una clasificación objetiva.

Parafraseando a un famoso astronauta: GPT-Image-1.5 es un pequeño paso para la industria, pero un gran salto para OpenAI.
Aunque la edición de precisión no es algo completamente nuevo, incorporarla de forma nativa a chatGPT supone el mayor cambio en esta versión. Sin embargo, la precisión es fundamental: recuerda seleccionar solo las áreas necesarias para evitar fallos como el del «oso polar sin cabeza» que se encontró durante las pruebas.
Según mi experiencia, la actualización supone un importante salto cualitativo, lo que también se refleja en las clasificaciones de la tabla de líderes. Las imágenes estándar parecen más vivas y las infografías se ven mucho menos simplificadas que antes.
Ahora los usuarios tienen mucho más control sobre cada resultado, sustituyendo el antiguo flujo de trabajo que consistía en crear complejas indicaciones de seguimiento y cruzar los dedos. Esto se debe en gran medida a que la conservación de los detalles funciona muy bien. En todas nuestras pruebas, mantuvo los elementos completamente intactos.
La coherencia de los personajes es sólida, aunque los usuarios deben tener cuidado con el «efecto pegatina» y los problemas de perspectiva lógica. Aunque las ediciones específicas facilitan su corrección, siguen existiendo limitaciones en escenas concurridas con mucha gente.
Imágenes de chatGPT frente a Nano Banana Pro
El líder actual al que chatGPT Images tiene que superar es, sin duda, Nano Banana Pro de Google. La siguiente tabla compara ambos modelos:
|
Imágenes de chatGPT |
Nano Banana Pro |
|
|
Modelo de edición |
Precisión: Selección de área y edición in situ |
Razonamiento: Enmascaramiento conversacional e inteligente |
|
Flujo de trabajo |
Espacio de trabajo creativo dedicado |
Función de chat integrada |
|
Iteración |
Eficiente: Regeneración parcial |
Exploratorio: Remixing |
|
Coherencia |
Alta resolución y retención de detalles |
Alta resolución y retención de detalles |
|
Ecosistema |
OpenAI y Azure |
Google / Gemini Stack |
Aunque tanto GPT-Image-1.5 como Nano Banana Pro ofrecen excelentes resultados, ambos modelos difieren en vuestras filosofías de edición, flujos de trabajo y enfoque hacia el cliente.
chatGPT Images se centra en el aislamiento pixel a pixel, cuya ventaja reside en el control manual: Puedes seleccionar un área exacta y tratar la selección como un lienzo para pintar, mientras que el resto de la imagen permanece bloqueado. Nano Banana Pro, por otro lado, intenta comprender lo que estás tratando de hacer para realizar los cambios adecuados.
En cuanto al flujo de trabajo, ambas empresas también eligieron caminos diferentes: La pestaña Imágenes de chatGPT parece un estudio creativo, separado de las conversaciones, mientras que Nano Banana Pro está totalmente integrado en el flujo del chat.
Cuándo usar chatGPT Imágenes frente a Nano Banana Pro
Te sugiero que utilices chatGPT Images si necesitas corregir diseños, editar texto o realizar cambios precisos en una imagen existente sin alterar el estilo. Elige Nano Banana Pro si necesitas generar imágenes con gran cantidad de datos, mezclar varias fotografías o prefieres que un asistente inteligente adivine tus intenciones en lugar de controlarlo manualmente.
Utilizando las mismas indicaciones que antes, volví a crear las imágenes de prueba. Personalmente, me gustaron más las infografías de Nano Banana Pro, mientras que las imágenes de osos me parecieron iguales.

Indicación: Infografía horizontal que explica el «ciclo de vida de una estrella». Tres secciones: Nebulosa, secuencia principal, agujero negro. Utiliza un estilo vectorial plano. (Nano Banana Pro)
Casos de uso de imágenes de chatGPT
Según nuestras pruebas prácticas y las fortalezas específicas de GPT-Image-1.5, el modelo destaca en lo que respecta a procesos iterativos y edición de texto. A continuación, se muestran algunos de los principales casos de uso:
- Flujo de trabajo de marketing: Creación de anuncios para redes sociales o fotografías de productos en los que algunos detalles específicos están sujetos a cambios (por ejemplo, «Cambiar el jersey de rojo a azul»).
- Infografías educativas: Creación de diagramas para libros de texto, presentaciones o blogs, como nuestro ejemplo del «ciclo de vida de una estrella».
- Guion gráfico: Visualizar un guion o un cómic en el que el mismo personaje debe aparecer en diferentes lugares.
- Moda: Uso de la creación de contenido híbrido para explorar visualmente combinaciones de conjuntos, como en este tutorial del visualizador de vestuario FLUX.2.
- Diseño de interiores: Combinar un boceto o una foto con indicaciones para redecorar habitaciones con un estilo determinado.
- Maquetas UI/UX: Visualizar rápidamente cómo podría ser la página de inicio de un sitio web o el embalaje de un nuevo producto.
Reflexiones finales
Desde el lanzamiento de Nano Banana Pro, OpenAI ha estado sometido a una gran presión para mantener el ritmo. Con esta prometedora actualización, vuelven a entrar en la carrera por el modelo de IA de texto a imagen más capaz. No es perfecto, pero si te centras en aspectos esenciales como una tipografía nítida y una edición precisa, puedes obtener buenos resultados. Para empezar, prueba la función en tu interfaz de usuario de chatGPT o en OpenAI Playground. Para inspirarte, puedes echar un vistazo a la galería y la guía rápida.
Si deseas empezar a crear herramientas utilizando modelos GPT, nuestro OpenAI Fundamentals es ideal para ti.
Preguntas frecuentes
¿Qué tipo de ediciones de imágenes puede realizar chatGPT Images?
chatGPT Images admite ediciones precisas, como añadir, eliminar, combinar, mezclar y transformar elementos. Está diseñado para cambiar solo lo que tú pidas, conservando detalles clave como la iluminación, la composición, el parecido facial y la coherencia general de la escena.
¿En qué aspectos GPT-Image-1.5 es mejor que el modelo de imagen anterior?
En comparación con GPT Image 1.0, GPT-Image-1.5 sigue las instrucciones de forma más fiable, conserva detalles visuales importantes a lo largo de múltiples ediciones, reproduce textos densos y pequeños con mayor precisión y produce imágenes de aspecto más natural. También es más rápido y rentable en la API.
¿chatGPT Images está disponible para todo el mundo?
El nuevo modelo chatGPT Images se está implementando a nivel mundial para todos los usuarios de chatGPT y los usuarios de API. El nuevo espacio de creación de imágenes en chatGPT ya está disponible para la mayoría de los usuarios, y más adelante se añadirá el acceso para las versiones Business y Enterprise.
¿Podéis utilizar el nuevo modelo de imagen a través de la API, programadores?

Científico de datos y escritor con experiencia en derecho tributario, contabilidad y ciencias sociales. Me gusta escribir tutoriales de programación y combinar mis intereses personales con la IA, ya sea para predecir resultados de partidos de fútbol o desarrollar herramientas de planificación de viajes basadas en IA. Siempre soy curioso y estoy abierto a nuevas ideas, especialmente cuando se trata de resolver problemas con la ayuda de la ciencia de datos, aunque hay que reconocer que la mayoría de los retos diarios aún están a salvo del machine learning.


