Programa
Como fotógrafo y persona interesada en el arte en general, siempre me intriga cuando sale un nuevo modelo de generación de imágenes. La generación de imágenes GPT-4o de OpenAI me dejó realmente alucinado.
Tengo ideas en la cabeza que me gustaría expresar visualmente, pero a veces me cuesta darles vida. Sigo esperando que aparezca un modelo que pueda salvar la distancia entre la realidad y mi visión. El nuevo modelo podría ser ese puente.
En este artículo, mostraré las capacidades del nuevo modelo de generación de imágenes de OpenAI a través de 8 ejemplos prácticos.
¿Qué es la generación de imágenes GPT-4o?
La generación de imágenes GPT-4o es una nueva función del modelo GPT-4o que permite a los usuarios crear imágenes directamente dentro de ChatGPT. Esta función lleva la generación nativa de imágenes a la plataforma, haciéndola accesible para diversos fines como la creatividad, la educación, etc.
El lanzamiento representa un gran salto adelante respecto a las tecnologías anteriores de generación de imágenes, ya que pretende que la creación de imágenes sea más precisa, fácil de usar y útil en muchas situaciones. Por ejemplo, ahora los usuarios pueden generar imágenes proporcionando indicaciones específicas, mezclando imágenes con texto, o incluso editando imágenes mediante sencillas instrucciones.
En general, la generación de imágenes GPT-4o se puede utilizar para diversas tareas creativas, como hacer cómics, diseñar cromos, elaborar memes o incluso crear materiales educativos que expliquen temas complejos. Por ejemplo, pedí a ChatGPT que resumiera el contenido de esta sección mediante una infografía:

Ejemplo de infografía utilizando la generación de imágenes GPT-4o
¿Cómo acceder a la generación de imágenes GPT-4o?
La función de generación de imágenes GPT-4o está disponible como generador de imágenes por defecto en ChatGPT. Según OpenAI, está disponible para usuarios Plus, Pro, Team y Free. Sin embargo, en mi experiencia, no pude conseguir que funcionara en mi plan Gratuito, y más tarde OpenAI confirmó que el acceso aún no está disponible en el plan Gratuito debido a la gran demanda.
Los desarrolladores tendrán la oportunidad de generar imágenes con GPT-4o a través de la API en las próximas semanas.
Puedes crear imágenes con GPT-4o seleccionando el modelo GPT-4o y proporcionando un texto que describa lo que quieres que genere.

También podemos seguir chateando para solicitar cambios:

Ejemplos de generación de imágenes GPT-4o
Ahora que ya hemos explicado cómo utilizar el modelo, vamos a demostrar lo que puede hacer mediante ocho ejemplos prácticos.
OpenAI afirma que este nuevo modelo no sólo genera imágenes bonitas. Es capaz de generar imágenes realmente útiles en el mundo real. En mi opinión, para que un modelo de generación de imágenes sea realmente útil, debe poder modificar las imágenes existentes o aplicar los estilos existentes de forma coherente.
En situaciones de la vida real, normalmente no queremos una imagen desde cero. Más bien, tenemos un estilo y queremos generar una imagen con ese estilo, o tenemos una foto y necesitamos modificarla de algún modo. He aquí algunos ejemplos:
- El propietario de una cafetería que quiera publicar una foto de marketing no quiere una imagen de una cafetería cualquiera: quiere una foto de su cafetería.
- Si utilizo la IA para crear una historia visual, necesito poder mantener un carácter coherente a lo largo de la historia. No sirve de nada si las imágenes no son coherentes.
- Como fotógrafo, no tengo ningún interés en generar de la nada una imagen que no existe en la vida real. Más bien, quiero poder editar una fotografía existente.
1. Texto
Ya vimos en el ejemplo del logotipo que GPT-4o puede generar texto en imágenes. Generar texto independiente es probablemente el ejemplo más fácil.
Para probarlo más a fondo, he probado a generar texto en un objeto:

Este ejemplo muestra dos características importantes:
- El modelo es capaz de generar texto sobre un objeto de forma coherente con la forma del objeto.
- El modelo puede entender los colores y seguir un esquema cromático.
Para llevar el modelo más lejos, le pedí que generara un texto más largo y lo mostrara en la imagen de forma legible. He aquí el resultado:

Esto me impresionó. Otros modelos que he probado en el pasado no han realizado tan bien esta tarea.
2. Transparencia
GPT-4o es capaz de generar imágenes con zonas transparentes. Esto es especialmente útil para imágenes destinadas a ser superpuestas sobre otros contenidos, como pegatinas de personajes de un juego.
Me hice una foto y le pedí a GPT-4o que creara un personaje de pixel art basado en ella. He aquí el resultado:

Ten en cuenta que no generaba un fondo transparente por defecto, pero pedirlo funcionaba bien y no alteraba el resultado original.
3. Coherencia de caracteres
Basándome en la conversación anterior, intenté generar una escena utilizando el personaje de pixel art que había generado. Este fue el resultado:

El personaje de esta imagen tiene una resolución diferente a la original. Tiene más detalles, por lo que parece que GPT-4o genera uno nuevo basándose en la foto en lugar de utilizar el personaje que creó antes.
Sigue siendo un buen resultado, pero no es utilizable tal cual en un juego porque necesitamos que los dos personajes sean más coherentes. A estas alturas, es mejor como inspiración para un artista del píxel que como resultado final en sí mismo.
4. Crear una historia detallada
A continuación, quise crear un cómic para contar la historia de cómo hice una foto del paisaje urbano de Taipei hace unos meses. Lo utilicé para probar cómo GPT-4o gestiona la generación de una imagen a partir de instrucciones detalladas.
Empecé pidiendo a la modelo que generara un personaje de cómic basado en mí. A continuación, proporcioné los detalles de cada fotograma del cómic.

El primer resultado se acercaba a lo que quería, pero no era del todo exacto. Además, volví a sentir que el modelo generaba un nuevo personaje en lugar de utilizar el primero que generaba.
Sin embargo, quedé muy satisfecha con el resultado tras solicitar mis cambios. Fue una sensación interesante ver cómo aquella noche cobraba vida en forma de cómic.

Me encantó especialmente que fuera capaz de imitar la foto del último fotograma. Creo que elevó el resultado.
5. Edición de fotos
A continuación, probé la edición de fotos. Hace unos meses, viajaba de vuelta a Europa, y me hice una foto antes de subir al avión. Por desgracia, había un molesto reflejo en la ventana porque hice la foto desde dentro. Intenté eliminarlo con Photoshop, pero no lo conseguí.
Lo intenté de nuevo utilizando GPT-4o, y funcionó muy bien.

Aquí tienes otros ejemplos de edición de una foto con GPT-4o:

De nuevo, no es perfecto, pero sigue siendo bastante bueno. En el primer ejemplo, se eliminaron las personas pero se modificó el edificio del fondo. Las fotos nocturnas son bonitas pero un poco demasiado oscuras.
Otro detalle interesante es que, debido al aspecto conversacional de GPT-4o, tiende a aplicar los nuevos cambios a la última imagen. En este caso, cuando solicité la lluvia, esperaba que modificara la imagen original, no la imagen nocturna.
Podemos evitarlo especificando la imagen en la consulta o iniciando una nueva conversación.
6. Etalonaje
La mayor parte de mi edición fotográfica consiste en ajustar los colores, no en modificar el contenido de la foto.
Tenía curiosidad por ver lo bueno que era el GPT-4o en la gradación del color, así que experimenté con la gradación del color en una de mis fotos. Una de mis películas favoritas es Blade Runner 2049, y me gusta la estética general de la película, así que quería ver si GPT-4o podía colorear una de mis fotos urbanas con ese estilo. He aquí el resultado:

Me encantó el resultado. Me ahorró mucho tiempo en comparación con editarlo yo misma. También me gusta mucho que haya conservado (en su mayor parte) la integridad de la imagen.
En este ejemplo, describimos textualmente el resultado deseado. También intenté darle una imagen de muestra con una paleta de colores para ver si podía colorear mi foto con ese estilo. En mi opinión, lo hizo muy bien.

7. Infografías y diagramas
Una infografía es una representación visual de información o datos diseñada para facilitar la comprensión rápida de ideas complejas. Hasta ahora, no he visto ningún modelo que pueda producir infografías útiles.
Pongamos a prueba a GPT-4o pidiéndole que genere una infografía que explique por qué hay tantos terremotos en Taiwán.

El primer resultado era bastante inexacto, ya que tanto la ubicación como la ortografía de Taiwán son incorrectas. Le pedí que lo arreglara y obtuve un resultado mejor. Sin embargo, el nuevo resultado sigue sin ser perfecto porque se corta el final de la explicación.
Esto demuestra que el modelo aún no es perfecto. Sin embargo, he visto muchos ejemplos en Internet en los que lo hacía bastante bien en esta tarea.
Como educador en línea, a menudo necesito crear diagramas para mis contenidos. Intenté pedirle a GPT-4o que me generara diagramas, pero no conseguí un buen resultado. Esto es lo que obtuve cuando pedí un diagrama que ilustrara la Ordenación por Fusión. El diagrama capta la idea correcta, pero todos los detalles son incorrectos.
En general, creo que éste es un aspecto en el que estos modelos todavía necesitan mejorar mucho.
8. Añadir elementos a una imagen existente
Por último, probé a modificar una foto existente añadiéndole elementos. En este ejemplo, tengo una foto del interior de una tetería, y le he pedido que dibuje una taza de té sobre la mesa:

Ya había intentado antes generar esta imagen desde cero con DALL-E, pero cada vez, el aspecto general de la imagen no era muy realista. Al poder añadir elementos a una fotografía real, es mucho más fácil obtener el resultado que buscaba.
Conclusión
En este artículo, hemos explorado las apasionantes novedades de la generación de imágenes GPT-4o y sus notables capacidades. A través de ocho ejemplos prácticos, descubrimos cómo este modelo puede crear texto dentro de imágenes, manejar la transparencia y mantener la coherencia de los caracteres. Cada capacidad ilustraba lo versátil y eficaz que es el GPT-4o para dar vida a visiones creativas.
Creo que todavía tiene mucho que mejorar en lo que se refiere a infografías y diagramas. Las imágenes que genera en estos casos son coherentes con las indicaciones, pero carecen de precisión y coherencia factual.
Hacía tiempo que no estaba tan emocionado por un lanzamiento de IA. En mi opinión, GPT-4o es un auténtico cambio de juego en el campo de la generación de imágenes. Estoy encantada de seguir experimentando con ella y ya tengo numerosas ideas que estoy deseando explorar y hacer realidad.



