Cours
Cela fait pratiquement jour pour jour un an que la première version de ChatGPT Images a été lancée avec un modèle appelé GPT Image 1. OpenAI a de nouveau refondu son modèle d’images, et présente désormais l’idée que le "générateur d’images" devient un "partenaire de pensée visuel".
Dans cet article, nous passons en revue les nouveautés, la comparaison avec son prédécesseur ChatGPT Images 1.5, la comparaison avec Nano Banana 2 de Google, ainsi que les points forts du modèle (et ses limites).
Qu’est-ce que ChatGPT Images 2.0 ?
ChatGPT Images 2.0 est le modèle d’images nouvelle génération d’OpenAI. Il est présenté comme capable de raisonner, rechercher, puis générer.
Vous souhaitez vous lancer dans l'IA générative ?
Apprenez à travailler avec des LLM en Python directement dans votre navigateur

Quoi de neuf avec ChatGPT Images 2.0 ?
L’un des principaux enseignements de la sortie de ChatGPT Images 1.5 était une forte hausse de la vitesse. L’annonce parlait d’un facteur « 4 x ». Nous avons tenté de vérifier cette affirmation, mais elle semblait surtout concerner les retouches, pas la génération d’images nouvelles.
Cette fois, la grande promesse, c’est l’intelligence. ChatGPT Images 2.0 est un modèle d’images « pensant » : il est censé rechercher, raisonner sur des faits et traduire des entrées imparfaites (notes, croquis, références) en visuels aboutis avec beaucoup moins d’ingénierie de prompt manuelle.
Autres points-clés de l’annonce :
- Plus de précision et de contrôle sur la génération elle-même
- Meilleures performances sur les langues et écritures
- Davantage de sophistication stylistique et de réalisme
- Intelligence du monde réel renforcée intégrée au modèle
- Rapports d’aspect flexibles pour tous les formats, du mobile aux bannières
Un modèle qui réfléchit
L’affirmation majeure de cette version est que le nouveau modèle « pense » et agit comme un « partenaire de pensée visuel ». L’idée est que des agents travaillent en coulisses pour bien comprendre la tâche et raisonner avant d’exécuter la demande de génération.
Sa connaissance du monde est mise à jour jusqu’à décembre 2025, ce qui améliore la justesse contextuelle des sorties. Cela rend le nouveau modèle idéal pour des visuels pédagogiques et des workflows en plusieurs étapes qui exigent du contexte.
Rechercher sur le web
Pour combler l’écart entre la date de coupe et l’actualité la plus récente, Images 2.0 peut rechercher sur le web des informations pertinentes. Ce n’est pas très clair dans les notes d’OpenAI, mais à notre compréhension, la recherche web est un outil appelé par l’agent pensant mentionné ci-dessus.
Créer plusieurs images à partir d’un même prompt
Le nouveau modèle gère nativement la génération de plusieurs images à partir du même prompt. C’était possible via un contournement dans l’API (en demandant une « composition »), mais c’est désormais faisable aussi dans l’interface, jusqu’à dix images. OpenAI promet une continuité des personnages et des objets sur l’ensemble des sorties.
Tester ChatGPT Images 2.0
Passons à la pratique ! Nous avons testé les capacités et fonctionnalités suivantes d’Images 2.0 :
- Flux de travail d’édition
- Mode pensant et recherche web
- Amplitude stylistique
- Finition à partir de croquis bruts
- Flexibilité des rapports d’aspect
- Créativité
Test du flux d’édition
Le positionnement de la 2.0 met l’accent sur l’itération : entrées brutes, livrable peaufiné, avec des progrès en suivi d’instructions et rendu de texte dense. Nous avons testé cette boucle avec un célèbre timbre américain de 1898 appelé Western Cattle in Storm.
Voici une photo d’un des timbres en état « Fine ».

Pour évaluer spécifiquement l’édition, nous avons utilisé le prompt suivant sans mode pensant. Cela signifie également pas d’accès à la recherche web, testée séparément.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
Et voici le résultat :

Le prompt textuel seul n’a pas suffi. La description détaillée du timbre et de son état revient erronée sur la plupart des points cruciaux : mauvaise couleur, mauvaise présentation de la valeur faciale, décentrage caricatural. Reproduire un artefact historique précis à partir de texte uniquement reste très difficile.
Là où la 2.0 prend tout son sens, c’est en fournissant l’image de référence et en demandant des retouches ciblées : irrégularités de perforation, reste de charnière, pli de gomme en diagonale, légère oxydation, et oblitération partielle.
Les retouches tombent globalement au bon endroit. Le modèle a introduit une régression de ratio d’image, corrigée par un simple suivi en langage naturel. Le résultat final n’est pas digne d’une expertise scientifique — le « $1 » semble un peu étiré, le maïs diffère — mais la boucle fonctionne : départ brouillon, ajustements, rendu exploitable en trois échanges.

Test du mode pensant et de la recherche web
Nous avons dû être prudents dans l’évaluation de la recherche web : si vous indiquez ce que vous voulez dans le prompt, vous testez le suivi d’instructions, pas la recherche. Le test le plus propre consiste à demander quelque chose de très récent et très précis, à donner très peu d’infos, et à vérifier si le modèle comble correctement les blancs.
Nous avons choisi le marathon de Boston d’hier. La course s’est terminée lundi 20 avril — la veille de l’annonce de ChatGPT Images 2.0 — et le record du parcours masculin a été battu pour la première fois depuis 2011. Cela nous donne un ensemble de faits concrets (vainqueur, pays, temps, écart, contexte) que le modèle ne peut pas avoir en entraînement, mais faciles à vérifier par une recherche rapide.
Voici le prompt, volontairement dépourvu de détails. Et comme on le voit dans le résultat, le modèle effectue bien une recherche web !
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Le rendu est très soigné visuellement et reprend le code couleur du marathon de Boston, ce qui est appréciable. Tous les faits cités sont exacts, vérifiés par nos soins.
La comparaison avec l’ancien modèle (Images 1.5) ou la nouvelle version sans mode pensant, avec le même prompt, est encore plus parlante :

Côté style, ça se défend, mais plusieurs problèmes concernent les chiffres.
- Il s’agissait de la 130e édition du marathon de Boston : il faudrait indiquer « 129 ans de tradition », pas 127.
- L’affirmation « 3e coureur de l’histoire sous 2 h 04 » est fausse. Environ 20 coureurs l’ont déjà fait.
- Selon le site de la Boston Athletic Association, son temps sur la seconde moitié est 1 h 00 min 02 s, pas 1 h 01 min 05 s (qui resterait peut-être le split le plus rapide).
- Plus important, ChatGPT Images a confondu les anciens et nouveaux records. L’ancien record était 2 h 03 min 02 s ; le nouveau est 2 h 01 min 52 s. L’écart est de 1 min 10 s.
- Comme John Korir a également gagné le marathon de Boston l’année précédente, on peut supposer qu’en cas de vainqueur différent, le modèle aurait pu se tromper de nom.
La recherche fait la différence pour présenter visuellement des informations à jour. Pour en bénéficier, il faut activer le mode pensant.
Test de l’amplitude stylistique
OpenAI promet des progrès réels en sophistication stylistique — photo, illustration, manga, pixel art et autres styles visuels. Le vrai test n’est pas qu’une image isolée soit réussie, mais que le même sujet, décliné en trois styles différents, paraisse authentique dans chaque genre, sans ce vernis « IA » uniforme.
Nous avons donc demandé trois versions d’une machine à expresso sur un établi en bois (photo, manga, pixel art). Voici les prompts et résultats :
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Résultat intéressant, et assez ironique quand on se souvient que Image 1 s’est fait connaître avec des montages façon Studio Ghibli que tout le monde réalisait il y a un an (nous compris). OpenAI semble aujourd’hui plus vigilant sur le droit d’auteur et la PI.
En décrivant le style de Katsuhiro Otomo sans le nommer, cela a fonctionné. À noter : nous avons dû ouvrir une nouvelle discussion pour que ça marche. Dans la même conversation, le modèle semblait comprendre que nous cherchions à contourner le blocage.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Selon nous, les trois images sont réussies et reprennent fidèlement les styles demandés. La photo paraît très naturelle, et les deux autres pourraient tout droit sortir d’un manga ou d’un jeu SNES.
Autre point marquant : le modèle exploite bien la flexibilité des rapports d’aspect en l’adaptant à chaque image : 16:9 horizontal pour la photo, format portrait pour la version manga, et carré pour le pixel art.
Test des rapports d’aspect flexibles
La version prend en charge des ratios de 3:1 à 1:3 et des résolutions jusqu’à 2K. La vraie question n’est pas de savoir si elle peut produire une image haute ou large — mais si le modèle recompose intelligemment selon les formats ou se contente de recadrer.
Pour révéler sa logique spatiale, il nous faut une scène avec des éléments distincts et incontournables sur plusieurs axes (un élément haut, un élément large, et un sujet central).
En test, nous avons généré un sujet (un astronaute dans un décor spécifique) à partir d’un prompt de base, puis demandé au modèle de le recréer en fond d’écran mobile, en bannière et en carré pour voir comment la composition s’adapte.
Le prompt de base :
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Voyons les variations :
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Chaque version choisit un ratio adéquat, intègre tous les éléments importants (astronaute, rover, planète), les dispose comme demandé dans le prompt initial et veille à un centrage correct. Test validé.
Test : d’un croquis brut à un visuel abouti
Le concept de partenaire de pensée suppose que le modèle accepte des entrées vagues ou désordonnées — croquis, notes à puces, quelques références — et les transforme en livrable final. C’est la boucle clé de cette version, et celle qu’il fallait tester de la façon la plus directe.
Pour cela, nous avons téléversé le croquis au crayon très sommaire suivant d’une cabane au bord d’un lac :

Pour corser, il contient de nombreux détails, utilise le mot finnois pour ponton, « laituri », et prête à confusion : deux types de bâtiments (maison et cabane) et deux plans d’eau (lac et étang).
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Le résultat sans mode pensant est correct, mais peu photoréaliste. La lumière est cohérente et l’image saisit bien l’ambiance du prompt, avec presque tous les éléments du croquis. Quelques erreurs demeurent :
- Le bateau manque
- Le ponton est sur l’étang, pas sur le lac
- La position du soleil n’est pas en haut à droite.
Avec le même prompt et le même croquis en mode pensant, la sortie paraît bien plus réaliste et corrige ces imprécisions :

L’image reprend chaque élément du croquis, à la bonne place, et le rendu est très propre. L’enseignement principal : pour transformer des croquis en images photoréalistes, utilisez le mode pensant.
Test de créativité
Pour le test suivant, nous avons cherché à recréer la poésie concrète de Niikuni Seiichi.
Ce poème célèbre montre le kanji japonais de la pluie, entouré de pluie : comme si la langue captait la pluie, en quelque sorte.

Voici notre prompt :
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
Et voici la sortie :

Ce cas est intéressant. Le modèle n’a pas reproduit à l’identique l’image, mais a proposé autre chose, intriguant. Dans la nouvelle composition, le kanji de « pluie » n’est pas entouré de pluie, mais il tombe en pluie. La dispersion des symboles paraît aléatoire, comme des gouttes, ce qui contraste joliment avec l’original très ordonné.
Comment accéder à ChatGPT Images 2.0 ?
L’accès suit le même schéma que la version précédente. On retrouve l’espace de création dédié introduit en décembre — éditeur type canevas, artefacts persistants, préréglages de style — avec, sous le capot, un modèle nettement plus performant.
- Web, appli mobile et Codex : ChatGPT Images 2.0 est disponible dans l’onglet Images pour les utilisateurs Free, Plus et Pro, avec des limites d’usage variables selon l’offre. L’accès Business et Enterprise suit généralement le déploiement initial.
- API : Les développeurs peuvent utiliser le nouveau modèle via l’API OpenAI et Azure OpenAI Service, aux endpoints de génération et d’édition d’images. Comme en 1.5, la sortie image est facturée en tokens, et la régénération partielle lors des retouches limite les coûts par rapport à une régénération totale à chaque fois.
ChatGPT Images 2.0 vs Nano Banana 2
Vous vous demandez peut-être comment ChatGPT Images 2.0 se situe par rapport à Nano Banana 2. Les deux modèles sont récents, par défaut dans leurs écosystèmes, et mis en avant pour leur vitesse, leur raisonnement et leur ancrage réel.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Architecture sous-jacente |
GPT-Image-2 (successeur de GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Modèle d’édition |
Précision : sélection de zone et édition in situ |
Raisonnement : conversationnel et masquage intelligent |
|
Flux de travail |
Espace de création dédié (onglet Images) |
Intégré au chat Gemini |
|
Itération |
Efficiente : régénération partielle |
Rapide : 4–6 s en 1K, ajustable via le mode pensant |
|
Ancrage réel |
Raisonnement intégré et connaissances à jour |
Image Search Grounding (références en direct depuis Google Search) |
|
Cohérence multi-vignettes |
Solide sur les séquences et fiches personnages |
Solide, avec accent sur la cohérence du sujet |
|
Texte multilingue |
Grosse avancée vs 1.5 ; large prise en charge des écritures |
Très bon, notamment pour le chinois et les mises en page est-asiatiques |
|
Résolution par défaut |
Standard + rapports d’aspect flexibles |
2K par défaut dans l’appli Gemini |
|
Écosystème |
OpenAI & Azure |
Pile Google / Gemini, Search, Lens |
Quand utiliser ChatGPT Images 2.0 vs Nano Banana 2
Privilégiez ChatGPT Images 2.0 lorsque …
- Vous avez besoin d’une boucle d’édition guidée par référence. Le modèle accepte une image de référence et applique des modifications ciblées (textures, corrections de position, ajustements de ratio) au fil des échanges. De simples relances en langage naturel orientent fiablement la sortie sans repartir de zéro, ce qui économise aussi des tokens
- Vous transformez des entrées brutes en livrables aboutis. Le mode pensant convertit des croquis vagues et des consignes spatiales en compositions précises et photoréalistes, avec des éléments exactement à la place voulue
- L’exactitude factuelle dans l’image est critique. L’ancrage via recherche web récupère des informations en direct et les rend correctement dans l’image, idéal pour affiches d’événements, infographies d’actualité, ou visuels où chiffres et noms doivent être impeccables. Pensez à activer le mode pensant pour la recherche web
Privilégiez Nano Banana 2 lorsque …
- Vous intégrez des sujets ou lieux réels très spécifiques dans une scène. Image Search Grounding récupère des références visuelles en direct depuis Google, reconstruit fidèlement des lieux (même par coordonnées GPS) et les combine avec des personnages cohérents en une seule génération
- Vous devez préserver l’identité de plusieurs personnages et objets dans un même flux. Le modèle gère explicitement jusqu’à cinq personnages et quatorze références au total (personnages + objets) avec une forte cohérence. Un excellent choix pour des storyboards, photos produits ou récits à plusieurs personnages
- Vous construisez dans l’écosystème Google. Nano Banana est nativement intégré à Gemini chat, Google Search, Google Ads, Firebase et Vertex AI
Les deux s’en sortent bien pour le rendu de texte dans l’image, l’éventail stylistique et l’édition conversationnelle.
Conclusion
Le positionnement en « partenaire de pensée visuel » tient la route — mais seulement avec le mode pensant activé. Sans lui, le modèle peine sur la logique spatiale et le photoréalisme ; avec, il transforme des entrées ambiguës en sorties qui donnent une impression de collaboration plutôt que de mécanique. Deux domaines où le modèle brille même sans mode pensant : l’authenticité stylistique et la flexibilité des ratios.
L’ancrage via recherche web semble l’amélioration majeure par rapport à Images 1.5. Sur le test du marathon de Boston, l’écart est clair : la 2.0 donne les bons faits, là où la 1.5 n’était pas à jour. Il est important de rappeler que la recherche web ne fonctionne qu’en mode pensant.
Autre constat : les garde-fous liés au droit d’auteur sont plus stricts, et cela se voit. Si vous souhaitez recréer un style associé à une entreprise ou à une personne, il faut faire l’effort d’en décrire l’essence plutôt que de la nommer (ce qui, objectivement, est simple aujourd’hui).
Globalement, le modèle constitue une avancée significative par rapport à son prédécesseur et vient contester la position de référence de Nano Banana 2 en génération et édition d’images par IA.
Pour tirer le meilleur parti de ces outils, savoir créer des prompts est une compétence essentielle. Nous vous recommandons vivement de suivre nos cours Understanding Prompt Engineering et Prompt Engineering with the OpenAI API pour allier théorie et pratique.

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs !

Rédacteur en chef Data Science chez DataCamp | Je suis passionné par la prévision et le développement à l'aide d'API.
