Cursus
En tant que photographe et personne intéressée par l'art en général, je suis toujours intrigué par la sortie d'un nouveau modèle de génération d'images. La génération d'images GPT-4o d'OpenAI m'a vraiment époustouflé.
J'ai des idées en tête que j'aimerais exprimer visuellement, mais j'ai parfois du mal à leur donner vie. J'espère toujours qu'un modèle viendra combler le fossé entre la réalité et ma vision. Le nouveau modèle pourrait bien être cette passerelle.
Dans cet article, je vais présenter les capacités du nouveau modèle de génération d'images d'OpenAI à travers 8 exemples pratiques.
Qu'est-ce que la génération d'images GPT-4o ?
La génération d'images GPT-4o est une nouvelle fonctionnalité du modèle GPT-4o qui permet aux utilisateurs de créer des images directement dans le ChatGPT. Cette fonctionnalité permet à la plateforme de générer des images en mode natif, ce qui la rend accessible à des fins diverses telles que la créativité, l'éducation, etc.
Ce lancement représente un grand pas en avant par rapport aux technologies antérieures de génération d'images, car il vise à rendre la création d'images plus précise, plus conviviale et plus utile dans de nombreuses situations. Par exemple, les utilisateurs peuvent désormais générer des images en fournissant des instructions spécifiques, en mélangeant des images avec du texte ou même en modifiant des images à l'aide d'instructions simples.
Dans l'ensemble, la génération d'images GPT-4o peut être utilisée pour diverses tâches créatives, telles que la réalisation de bandes dessinées, la conception de cartes à collectionner, l'élaboration de mèmes ou même la création de matériel pédagogique expliquant des sujets complexes. Par exemple, j'ai demandé à ChatGPT de résumer le contenu de cette section au moyen d'une infographie :
Exemple d'infographie utilisant la génération d'images GPT-4o
Comment accéder à la génération d'images GPT-4o ?
La fonction de génération d'images GPT-4o est disponible comme générateur d'images par défaut dans ChatGPT. Selon OpenAI, il est disponible pour les utilisateurs Plus, Pro, Team et Free. Cependant, d'après mon expérience, je n'ai pas réussi à le faire fonctionner sur mon plan gratuit et, plus tard, l OpenAI a confirmé que l'accès n'est pas encore disponible sur le plan gratuit en raison de la forte demande.
Les développeurs auront la possibilité de générer des images avec GPT-4o via l'API dans les semaines à venir.
Vous pouvez créer des images avec GPT-4o en sélectionnant le modèle GPT-4o et en fournissant un texte décrivant ce que vous voulez qu'il génère.
Nous pouvons également continuer à discuter pour demander des modifications :
Exemples de génération d'images GPT-4o
Maintenant que nous avons vu comment utiliser le modèle, démontrons ce qu'il peut faire à travers huit exemples pratiques.
OpenAI affirme que ce nouveau modèle ne se contente pas de générer de belles images. Il est capable de générer des images qui sont réellement utiles dans le monde réel. À mon avis, pour qu'un modèle de génération d'images soit vraiment utile, il doit être capable de modifier des images existantes ou d'appliquer des styles existants de manière cohérente.
Dans des situations réelles, nous ne souhaitons généralement pas créer une image à partir de zéro. Nous avons plutôt un style et nous voulons générer une image dans ce style, ou nous avons une photo et nous devons la modifier d'une manière ou d'une autre. Voici quelques exemples :
- Le propriétaire d'un café qui souhaite publier une photo de marketing ne veut pas d'une image d'un café quelconque - il veut une photo de son café.
- Si j'utilise l'IA pour créer une histoire visuelle, je dois pouvoir conserver un personnage cohérent tout au long de l'histoire. Cela ne sert à rien si les images ne sont pas cohérentes.
- En tant que photographe, je n'ai aucun intérêt à créer de toutes pièces une image qui n'existe pas dans la vie réelle. Je souhaite plutôt pouvoir modifier une photographie existante.
1. Texte
Nous avons déjà vu dans l'exemple du logo que GPT-4o peut générer du texte dans des images. La génération d'un texte autonome est probablement l'exemple le plus simple.
Pour tester cela plus avant, j'ai essayé de générer du texte sur un objet :
Cet exemple met en évidence deux caractéristiques importantes :
- Le modèle est capable de générer du texte sur un objet d'une manière qui soit cohérente avec la forme de l'objet.
- Le modèle peut comprendre les couleurs et suivre un schéma de couleurs.
Pour pousser le modèle plus loin, je lui ai demandé de générer un texte plus long et de l'afficher dans l'image de manière lisible. Voici le résultat :
Cela m'a impressionné. D'autres modèles que j'ai essayés par le passé n'ont pas rempli cette tâche aussi bien.
2. Transparence
GPT-4o est capable de générer des images avec des zones transparentes. Cette fonction est particulièrement utile pour les images destinées à être superposées à d'autres contenus, comme les autocollants des personnages d'un jeu.
J'ai pris une photo de moi et j'ai demandé à GPT-4o de créer un personnage en pixel art à partir de cette photo. Voici le résultat :
Notez qu'il ne génère pas d'arrière-plan transparent par défaut, mais le fait de le demander a bien fonctionné et n'a pas altéré le résultat original.
3. Cohérence des caractères
Sur la base de la conversation précédente, j'ai essayé de générer une scène en utilisant le personnage en pixel art que j'avais créé. Voici le résultat :
Le personnage de cette image a une résolution différente de celle de l'image originale. Il y a plus de détails, il semble donc que GPT-4o génère un nouveau personnage basé sur la photo plutôt que d'utiliser le personnage qu'il a créé auparavant.
C'est toujours un beau résultat, mais il n'est pas utilisable tel quel dans un jeu car nous avons besoin que les deux personnages soient plus cohérents. À ce stade, il est préférable qu'il soit une source d'inspiration pour un artiste du pixel plutôt qu'un résultat final en soi.
4. Créer une histoire détaillée
Ensuite, j'ai voulu créer une bande dessinée pour raconter comment j'ai pris une photo du paysage urbain de Taipei il y a quelques mois. Je l'ai utilisé pour tester la façon dont GPT-4o gère la génération d'une image à partir d'instructions détaillées.
J'ai commencé par demander au modèle de générer un personnage de bande dessinée basé sur moi. Ensuite, j'ai fourni les détails de chaque image de la bande dessinée.
Le premier résultat était proche de ce que je voulais, mais pas tout à fait exact. Par ailleurs, j'ai eu à nouveau l'impression que le modèle générait un nouveau personnage au lieu d'utiliser le premier qu'il avait généré.
Cependant, j'ai été très satisfaite du résultat après que mes modifications ont été demandées. C'était un sentiment intéressant de voir cette nuit prendre vie sous la forme d'une bande dessinée.
J'ai particulièrement apprécié le fait qu'il soit capable d'imiter la photo de la dernière image. Je pense que cela a amélioré le résultat.
5. Retouche photo
Ensuite, j'ai essayé la retouche photo. Il y a quelques mois, lors d'un voyage de retour en Europe, j'ai pris une photo avant de monter dans l'avion. Malheureusement, il y avait un reflet gênant sur la fenêtre parce que j'ai pris la photo de l'intérieur. J'ai essayé d'utiliser Photoshop pour l'enlever, mais je n'ai pas réussi.
J'ai réessayé en utilisant le GPT-4o, et cela a très bien fonctionné.
Voici quelques autres exemples d'édition d'une photo à l'aide de GPT-4o :
Encore une fois, ce n'est pas parfait, mais c'est déjà pas mal. Dans le premier exemple, les personnes ont été supprimées, mais le bâtiment situé à l'arrière a été modifié. Les photos de nuit sont belles mais un peu trop sombres.
Un autre détail intéressant est qu'en raison de l'aspect conversationnel de GPT-4o, il a tendance à appliquer les nouvelles modifications à la dernière image. Dans ce cas, lorsque j'ai demandé la pluie, je m'attendais à ce qu'elle modifie l'image originale, et non l'image nocturne.
Nous pouvons contourner ce problème en spécifiant l'image dans l'invite ou en entamant une nouvelle conversation.
6. L'étalonnage des couleurs
La plupart de mes retouches photo consistent à ajuster les couleurs, et non à modifier le contenu de la photo.
J'étais curieux de voir à quel point GPT-4o était performant en matière d'étalonnage des couleurs, et j'ai donc expérimenté l'étalonnage des couleurs sur l'une de mes photos. L'un de mes films préférés est Blade Runner 2049, et j'aime l'esthétique générale du film, alors j'ai voulu voir si GPT-4o pouvait coloriser une de mes photos urbaines dans ce style. Voici le résultat :
J'ai adoré le résultat. Cela m'a permis de gagner beaucoup de temps par rapport au fait de l'éditer moi-même. J'apprécie également beaucoup le fait que l'intégrité de l'image ait été (en grande partie) préservée.
Dans cet exemple, nous décrivons le résultat souhaité sous forme de texte. J'ai également essayé de lui donner un exemple d'image avec une palette de couleurs pour voir s'il pouvait classer les couleurs de ma photo dans ce style. À mon avis, il a fait du très bon travail.
7. Infographies et diagrammes
Une infographie est une représentation visuelle d'informations ou de données destinée à faciliter la compréhension rapide d'idées complexes. Jusqu'à présent, je n'ai pas vu de modèle capable de produire des infographies utiles.
Mettons GPT-4o à l'épreuve en lui demandant de générer une infographie expliquant pourquoi il y a tant de tremblements de terre à Taïwan.
Le premier résultat était assez inexact, car la localisation et l'orthographe de Taïwan sont incorrectes. Je lui ai demandé de le réparer et j'ai obtenu un meilleur résultat. Cependant, le nouveau résultat n'est pas encore parfait car la fin de l'explication est coupée.
Cela montre que le modèle n'est pas encore parfait. Cependant, j'ai vu beaucoup d'exemples en ligne où il s'est très bien acquitté de cette tâche.
En tant qu'éducateur en ligne, j'ai souvent besoin de créer des diagrammes pour mon contenu. J'ai essayé de demander à GPT-4o de générer des diagrammes pour moi, mais je n'ai pas trouvé de bon résultat. Voici ce que j'ai obtenu lorsque j'ai demandé un diagramme illustrant le tri par fusion. Le diagramme présente la bonne idée, mais tous les détails sont incorrects.
Dans l'ensemble, je pense qu'il s'agit d'un domaine dans lequel ces modèles doivent encore être améliorés.
8. Ajouter des éléments à une image existante
Enfin, j'ai essayé de modifier une photo existante en y ajoutant des éléments. Dans cet exemple, j'ai une photo prise à l'intérieur d'un salon de thé, et je lui ai demandé de dessiner une tasse à thé sur le tableau :
J'avais déjà essayé de générer cette image à partir de zéro en utilisant DALL-E, mais à chaque fois, l'aspect général et la sensation de l'image n'étaient pas très réalistes. Le fait de pouvoir ajouter des éléments à une photographie réelle facilite grandement l'obtention du résultat que je recherchais.
Conclusion
Dans cet article, nous avons exploré les nouvelles fonctionnalités de la génération d'images GPT-4o et ses capacités remarquables. À travers huit exemples pratiques, nous avons découvert comment ce modèle permet de créer du texte dans des images, de gérer la transparence et de maintenir la cohérence des caractères. Chaque capacité illustre la polyvalence et l'efficacité du GPT-4o pour donner vie à des visions créatives.
Je pense qu'il a encore une grande marge de progression en ce qui concerne les infographies et les diagrammes. Les images qu'il génère dans ces cas sont cohérentes avec les messages, mais manquent de précision et de cohérence factuelle.
Il y a longtemps que je n'ai pas été aussi enthousiaste à l'idée d'une nouvelle version de l'IA. À mon avis, GPT-4o est un véritable changeur de jeu dans le domaine de la génération d'images. Je suis ravie de pouvoir l'expérimenter davantage et j'ai déjà de nombreuses idées que j'ai hâte d'explorer et de concrétiser.