Saltar al contenido principal

GPT-4o Generación de imágenes: Una guía con 8 ejemplos prácticos

Aprende qué es la generación de imágenes GPT-4o, cómo utilizarla y descubre 8 ejemplos prácticos para comprender sus capacidades.
Actualizado 27 mar 2025  · 8 min de lectura

Como fotógrafo y persona interesada en el arte en general, siempre me intriga cuando sale un nuevo modelo de generación de imágenes. La generación de imágenes GPT-4o de OpenAI me dejó realmente alucinado.

Tengo ideas en la cabeza que me gustaría expresar visualmente, pero a veces me cuesta darles vida. Sigo esperando que aparezca un modelo que pueda salvar la distancia entre la realidad y mi visión. El nuevo modelo podría ser ese puente.

En este artículo, mostraré las capacidades del nuevo modelo de generación de imágenes de OpenAI a través de 8 ejemplos prácticos.

¿Qué es la generación de imágenes GPT-4o?

La generación de imágenes GPT-4o es una nueva función del modelo GPT-4o que permite a los usuarios crear imágenes directamente dentro de ChatGPT. Esta función lleva la generación nativa de imágenes a la plataforma, haciéndola accesible para diversos fines como la creatividad, la educación, etc.

El lanzamiento representa un gran salto adelante respecto a las tecnologías anteriores de generación de imágenes, ya que pretende que la creación de imágenes sea más precisa, fácil de usar y útil en muchas situaciones. Por ejemplo, ahora los usuarios pueden generar imágenes proporcionando indicaciones específicas, mezclando imágenes con texto, o incluso editando imágenes mediante sencillas instrucciones.

En general, la generación de imágenes GPT-4o se puede utilizar para diversas tareas creativas, como hacer cómics, diseñar cromos, elaborar memes o incluso crear materiales educativos que expliquen temas complejos. Por ejemplo, pedí a ChatGPT que resumiera el contenido de esta sección mediante una infografía:

generación de imágenes gpt-4o

Ejemplo de infografía utilizando la generación de imágenes GPT-4o

¿Cómo acceder a la generación de imágenes GPT-4o?

La función de generación de imágenes GPT-4o está disponible como generador de imágenes por defecto en ChatGPT. Según OpenAI, está disponible para usuarios Plus, Pro, Team y Free. Sin embargo, en mi experiencia, no pude conseguir que funcionara en mi plan Gratuito, y más tarde OpenAI confirmó que el acceso aún no está disponible en el plan Gratuito debido a la gran demanda.

Los desarrolladores tendrán la oportunidad de generar imágenes con GPT-4o a través de la API en las próximas semanas.

Puedes crear imágenes con GPT-4o seleccionando el modelo GPT-4o y proporcionando un texto que describa lo que quieres que genere.

Generar una imagen con la generación de imágenes GPT-4o

También podemos seguir chateando para solicitar cambios:

Editar una imagen con GPT-4o

Ejemplos de generación de imágenes GPT-4o

Ahora que ya hemos explicado cómo utilizar el modelo, vamos a demostrar lo que puede hacer mediante ocho ejemplos prácticos.

OpenAI afirma que este nuevo modelo no sólo genera imágenes bonitas. Es capaz de generar imágenes realmente útiles en el mundo real. En mi opinión, para que un modelo de generación de imágenes sea realmente útil, debe poder modificar las imágenes existentes o aplicar los estilos existentes de forma coherente.

En situaciones de la vida real, normalmente no queremos una imagen desde cero. Más bien, tenemos un estilo y queremos generar una imagen con ese estilo, o tenemos una foto y necesitamos modificarla de algún modo. He aquí algunos ejemplos:

  • El propietario de una cafetería que quiera publicar una foto de marketing no quiere una imagen de una cafetería cualquiera: quiere una foto de su cafetería.
  • Si utilizo la IA para crear una historia visual, necesito poder mantener un carácter coherente a lo largo de la historia. No sirve de nada si las imágenes no son coherentes.
  • Como fotógrafo, no tengo ningún interés en generar de la nada una imagen que no existe en la vida real. Más bien, quiero poder editar una fotografía existente.

1. Texto

Ya vimos en el ejemplo del logotipo que GPT-4o puede generar texto en imágenes. Generar texto independiente es probablemente el ejemplo más fácil.

Para probarlo más a fondo, he probado a generar texto en un objeto:

Ejemplo de cómo GPT-4o trata el texto de un objeto

Este ejemplo muestra dos características importantes:

  1. El modelo es capaz de generar texto sobre un objeto de forma coherente con la forma del objeto.
  2. El modelo puede entender los colores y seguir un esquema cromático.

Para llevar el modelo más lejos, le pedí que generara un texto más largo y lo mostrara en la imagen de forma legible. He aquí el resultado:

Ejemplo de texto más complejo

Esto me impresionó. Otros modelos que he probado en el pasado no han realizado tan bien esta tarea.

2. Transparencia

GPT-4o es capaz de generar imágenes con zonas transparentes. Esto es especialmente útil para imágenes destinadas a ser superpuestas sobre otros contenidos, como pegatinas de personajes de un juego.

Me hice una foto y le pedí a GPT-4o que creara un personaje de pixel art basado en ella. He aquí el resultado:

Generar caracteres y manejar la transparencia

Ten en cuenta que no generaba un fondo transparente por defecto, pero pedirlo funcionaba bien y no alteraba el resultado original.

3. Coherencia de caracteres

Basándome en la conversación anterior, intenté generar una escena utilizando el personaje de pixel art que había generado. Este fue el resultado:

Coherencia de caracteres con la generación de imágenes GPT-4o

El personaje de esta imagen tiene una resolución diferente a la original. Tiene más detalles, por lo que parece que GPT-4o genera uno nuevo basándose en la foto en lugar de utilizar el personaje que creó antes.

Sigue siendo un buen resultado, pero no es utilizable tal cual en un juego porque necesitamos que los dos personajes sean más coherentes. A estas alturas, es mejor como inspiración para un artista del píxel que como resultado final en sí mismo.

4. Crear una historia detallada

A continuación, quise crear un cómic para contar la historia de cómo hice una foto del paisaje urbano de Taipei hace unos meses. Lo utilicé para probar cómo GPT-4o gestiona la generación de una imagen a partir de instrucciones detalladas.

Empecé pidiendo a la modelo que generara un personaje de cómic basado en mí. A continuación, proporcioné los detalles de cada fotograma del cómic. 

Generar imágenes con instrucciones complejas

El primer resultado se acercaba a lo que quería, pero no era del todo exacto. Además, volví a sentir que el modelo generaba un nuevo personaje en lugar de utilizar el primero que generaba.

Sin embargo, quedé muy satisfecha con el resultado tras solicitar mis cambios. Fue una sensación interesante ver cómo aquella noche cobraba vida en forma de cómic.

Ajustar partes de una imagen

Me encantó especialmente que fuera capaz de imitar la foto del último fotograma. Creo que elevó el resultado.

5. Edición de fotos

A continuación, probé la edición de fotos. Hace unos meses, viajaba de vuelta a Europa, y me hice una foto antes de subir al avión. Por desgracia, había un molesto reflejo en la ventana porque hice la foto desde dentro. Intenté eliminarlo con Photoshop, pero no lo conseguí.

Lo intenté de nuevo utilizando GPT-4o, y funcionó muy bien.

edición de fotos con generación de imágenes GPT-4o

Aquí tienes otros ejemplos de edición de una foto con GPT-4o:

Más ejemplos de edición de fotos con GPT-4o

De nuevo, no es perfecto, pero sigue siendo bastante bueno. En el primer ejemplo, se eliminaron las personas pero se modificó el edificio del fondo. Las fotos nocturnas son bonitas pero un poco demasiado oscuras.

Otro detalle interesante es que, debido al aspecto conversacional de GPT-4o, tiende a aplicar los nuevos cambios a la última imagen. En este caso, cuando solicité la lluvia, esperaba que modificara la imagen original, no la imagen nocturna. 

Podemos evitarlo especificando la imagen en la consulta o iniciando una nueva conversación.

6. Etalonaje

La mayor parte de mi edición fotográfica consiste en ajustar los colores, no en modificar el contenido de la foto.

Tenía curiosidad por ver lo bueno que era el GPT-4o en la gradación del color, así que experimenté con la gradación del color en una de mis fotos. Una de mis películas favoritas es Blade Runner 2049, y me gusta la estética general de la película, así que quería ver si GPT-4o podía colorear una de mis fotos urbanas con ese estilo. He aquí el resultado:

Etalonaje con generación de imágenes gpt-4o

Me encantó el resultado. Me ahorró mucho tiempo en comparación con editarlo yo misma. También me gusta mucho que haya conservado (en su mayor parte) la integridad de la imagen.

En este ejemplo, describimos textualmente el resultado deseado. También intenté darle una imagen de muestra con una paleta de colores para ver si podía colorear mi foto con ese estilo. En mi opinión, lo hizo muy bien.

Graduación del color con estilo de imagen

7. Infografías y diagramas

Una infografía es una representación visual de información o datos diseñada para facilitar la comprensión rápida de ideas complejas. Hasta ahora, no he visto ningún modelo que pueda producir infografías útiles.

Pongamos a prueba a GPT-4o pidiéndole que genere una infografía que explique por qué hay tantos terremotos en Taiwán.

Infografía sobre la generación de imágenes GPT-4o

El primer resultado era bastante inexacto, ya que tanto la ubicación como la ortografía de Taiwán son incorrectas. Le pedí que lo arreglara y obtuve un resultado mejor. Sin embargo, el nuevo resultado sigue sin ser perfecto porque se corta el final de la explicación.

Esto demuestra que el modelo aún no es perfecto. Sin embargo, he visto muchos ejemplos en Internet en los que lo hacía bastante bien en esta tarea.

Como educador en línea, a menudo necesito crear diagramas para mis contenidos. Intenté pedirle a GPT-4o que me generara diagramas, pero no conseguí un buen resultado. Esto es lo que obtuve cuando pedí un diagrama que ilustrara la Ordenación por Fusión. El diagrama capta la idea correcta, pero todos los detalles son incorrectos.

Diagrama sobre la generación de imágenes GPT-4o - resultado erróneo 

En general, creo que éste es un aspecto en el que estos modelos todavía necesitan mejorar mucho.

8. Añadir elementos a una imagen existente

Por último, probé a modificar una foto existente añadiéndole elementos. En este ejemplo, tengo una foto del interior de una tetería, y le he pedido que dibuje una taza de té sobre la mesa:

Añadir objetos a una imagen con GPT-4o

Ya había intentado antes generar esta imagen desde cero con DALL-E, pero cada vez, el aspecto general de la imagen no era muy realista. Al poder añadir elementos a una fotografía real, es mucho más fácil obtener el resultado que buscaba.

Conclusión

En este artículo, hemos explorado las apasionantes novedades de la generación de imágenes GPT-4o y sus notables capacidades. A través de ocho ejemplos prácticos, descubrimos cómo este modelo puede crear texto dentro de imágenes, manejar la transparencia y mantener la coherencia de los caracteres. Cada capacidad ilustraba lo versátil y eficaz que es el GPT-4o para dar vida a visiones creativas.

Creo que todavía tiene mucho que mejorar en lo que se refiere a infografías y diagramas. Las imágenes que genera en estos casos son coherentes con las indicaciones, pero carecen de precisión y coherencia factual.

Hacía tiempo que no estaba tan emocionado por un lanzamiento de IA. En mi opinión, GPT-4o es un auténtico cambio de juego en el campo de la generación de imágenes. Estoy encantada de seguir experimentando con ella y ya tengo numerosas ideas que estoy deseando explorar y hacer realidad.

Temas

Aprende IA con estos cursos

Programa

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

¿Qué es GPT-4 y por qué es importante?

OpenAI ha anunciado el lanzamiento de su último gran modelo lingüístico, GPT-4. Este modelo es un gran modelo multimodal que puede aceptar tanto entradas de imagen como de texto y generar salidas de texto.

Abid Ali Awan

9 min

An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

An avian AI exits its cage

blog

12 alternativas de código abierto a GPT-4

Alternativas de código abierto a GPT-4 que pueden ofrecer un rendimiento similar y requieren menos recursos informáticos para funcionar. Estos proyectos vienen con instrucciones, fuentes de código, pesos del modelo, conjuntos de datos e IU de chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

blog

Todo lo que sabemos sobre GPT-5

Descubre cómo GPT-5 evolucionará hasta convertirse en un sistema unificado con funciones avanzadas, cuyo lanzamiento está previsto para el verano de 2025, basándose en la última hoja de ruta de OpenAI y en la historia de GPT.
Josep Ferrer's photo

Josep Ferrer

8 min

Tutorial

Visión GPT-4: Guía completa para principiantes

Este tutorial le presentará todo lo que necesita saber sobre GPT-4 Vision, desde cómo acceder a él hasta ejemplos prácticos del mundo real y sus limitaciones.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

Tutorial

Cómo hacer modelos de ChatGPT personalizados: 5 sencillos pasos para conseguir GPT personalizados

Echa un vistazo a estos cinco sencillos pasos para liberar todo el potencial de ChatGPT con tus propios GPT personalizados.
Moez Ali's photo

Moez Ali

9 min

Ver másVer más