ChatGPT Images 2.0 : guide du modèle d’images nouvelle génération d’OpenAI

Découvrez comment ChatGPT Images 2.0 propulse la génération d’images dans une nouvelle ère grâce à un meilleur raisonnement sur le monde réel, un rendu multilingue du texte, un réalisme stylistique accru et un flux de travail en partenaire de pensée visuel.

Actualisé 22 avr. 2026 · 14 min lire

Cela fait pratiquement jour pour jour un an que la première version de ChatGPT Images a été lancée avec un modèle appelé GPT Image 1. OpenAI a de nouveau refondu son modèle d’images, et présente désormais l’idée que le "générateur d’images" devient un "partenaire de pensée visuel".

Dans cet article, nous passons en revue les nouveautés, la comparaison avec son prédécesseur ChatGPT Images 1.5, la comparaison avec Nano Banana 2 de Google, ainsi que les points forts du modèle (et ses limites).

Qu’est-ce que ChatGPT Images 2.0 ?

ChatGPT Images 2.0 est le modèle d’images nouvelle génération d’OpenAI. Il est présenté comme capable de raisonner, rechercher, puis générer.

Vous souhaitez vous lancer dans l'IA générative ?

Apprenez à travailler avec des LLM en Python directement dans votre navigateur

Commencez maintenant

Quoi de neuf avec ChatGPT Images 2.0 ?

L’un des principaux enseignements de la sortie de ChatGPT Images 1.5 était une forte hausse de la vitesse. L’annonce parlait d’un facteur « 4 x ». Nous avons tenté de vérifier cette affirmation, mais elle semblait surtout concerner les retouches, pas la génération d’images nouvelles.

Cette fois, la grande promesse, c’est l’intelligence. ChatGPT Images 2.0 est un modèle d’images « pensant » : il est censé rechercher, raisonner sur des faits et traduire des entrées imparfaites (notes, croquis, références) en visuels aboutis avec beaucoup moins d’ingénierie de prompt manuelle.

Autres points-clés de l’annonce :

Plus de précision et de contrôle sur la génération elle-même
Meilleures performances sur les langues et écritures
Davantage de sophistication stylistique et de réalisme
Intelligence du monde réel renforcée intégrée au modèle
Rapports d’aspect flexibles pour tous les formats, du mobile aux bannières

Un modèle qui réfléchit

L’affirmation majeure de cette version est que le nouveau modèle « pense » et agit comme un « partenaire de pensée visuel ». L’idée est que des agents travaillent en coulisses pour bien comprendre la tâche et raisonner avant d’exécuter la demande de génération.

Sa connaissance du monde est mise à jour jusqu’à décembre 2025, ce qui améliore la justesse contextuelle des sorties. Cela rend le nouveau modèle idéal pour des visuels pédagogiques et des workflows en plusieurs étapes qui exigent du contexte.

Rechercher sur le web

Pour combler l’écart entre la date de coupe et l’actualité la plus récente, Images 2.0 peut rechercher sur le web des informations pertinentes. Ce n’est pas très clair dans les notes d’OpenAI, mais à notre compréhension, la recherche web est un outil appelé par l’agent pensant mentionné ci-dessus.

Créer plusieurs images à partir d’un même prompt

Le nouveau modèle gère nativement la génération de plusieurs images à partir du même prompt. C’était possible via un contournement dans l’API (en demandant une « composition »), mais c’est désormais faisable aussi dans l’interface, jusqu’à dix images. OpenAI promet une continuité des personnages et des objets sur l’ensemble des sorties.

Tester ChatGPT Images 2.0

Passons à la pratique ! Nous avons testé les capacités et fonctionnalités suivantes d’Images 2.0 :

Flux de travail d’édition
Mode pensant et recherche web
Amplitude stylistique
Finition à partir de croquis bruts
Flexibilité des rapports d’aspect
Créativité

Test du flux d’édition

Le positionnement de la 2.0 met l’accent sur l’itération : entrées brutes, livrable peaufiné, avec des progrès en suivi d’instructions et rendu de texte dense. Nous avons testé cette boucle avec un célèbre timbre américain de 1898 appelé Western Cattle in Storm.

Voici une photo d’un des timbres en état « Fine ».

Pour évaluer spécifiquement l’édition, nous avons utilisé le prompt suivant sans mode pensant. Cela signifie également pas d’accès à la recherche web, testée séparément.

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

Et voici le résultat :

Le prompt textuel seul n’a pas suffi. La description détaillée du timbre et de son état revient erronée sur la plupart des points cruciaux : mauvaise couleur, mauvaise présentation de la valeur faciale, décentrage caricatural. Reproduire un artefact historique précis à partir de texte uniquement reste très difficile.

Là où la 2.0 prend tout son sens, c’est en fournissant l’image de référence et en demandant des retouches ciblées : irrégularités de perforation, reste de charnière, pli de gomme en diagonale, légère oxydation, et oblitération partielle.

Les retouches tombent globalement au bon endroit. Le modèle a introduit une régression de ratio d’image, corrigée par un simple suivi en langage naturel. Le résultat final n’est pas digne d’une expertise scientifique — le « $1 » semble un peu étiré, le maïs diffère — mais la boucle fonctionne : départ brouillon, ajustements, rendu exploitable en trois échanges.

Test du mode pensant et de la recherche web

Nous avons dû être prudents dans l’évaluation de la recherche web : si vous indiquez ce que vous voulez dans le prompt, vous testez le suivi d’instructions, pas la recherche. Le test le plus propre consiste à demander quelque chose de très récent et très précis, à donner très peu d’infos, et à vérifier si le modèle comble correctement les blancs.

Nous avons choisi le marathon de Boston d’hier. La course s’est terminée lundi 20 avril — la veille de l’annonce de ChatGPT Images 2.0 — et le record du parcours masculin a été battu pour la première fois depuis 2011. Cela nous donne un ensemble de faits concrets (vainqueur, pays, temps, écart, contexte) que le modèle ne peut pas avoir en entraînement, mais faciles à vérifier par une recherche rapide.

Voici le prompt, volontairement dépourvu de détails. Et comme on le voit dans le résultat, le modèle effectue bien une recherche web !

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Le rendu est très soigné visuellement et reprend le code couleur du marathon de Boston, ce qui est appréciable. Tous les faits cités sont exacts, vérifiés par nos soins.

La comparaison avec l’ancien modèle (Images 1.5) ou la nouvelle version sans mode pensant, avec le même prompt, est encore plus parlante :

Côté style, ça se défend, mais plusieurs problèmes concernent les chiffres.

Il s’agissait de la 130e édition du marathon de Boston : il faudrait indiquer « 129 ans de tradition », pas 127.
L’affirmation « 3e coureur de l’histoire sous 2 h 04 » est fausse. Environ 20 coureurs l’ont déjà fait.
Selon le site de la Boston Athletic Association, son temps sur la seconde moitié est 1 h 00 min 02 s, pas 1 h 01 min 05 s (qui resterait peut-être le split le plus rapide).
Plus important, ChatGPT Images a confondu les anciens et nouveaux records. L’ancien record était 2 h 03 min 02 s ; le nouveau est 2 h 01 min 52 s. L’écart est de 1 min 10 s.
Comme John Korir a également gagné le marathon de Boston l’année précédente, on peut supposer qu’en cas de vainqueur différent, le modèle aurait pu se tromper de nom.

La recherche fait la différence pour présenter visuellement des informations à jour. Pour en bénéficier, il faut activer le mode pensant.

Test de l’amplitude stylistique

OpenAI promet des progrès réels en sophistication stylistique — photo, illustration, manga, pixel art et autres styles visuels. Le vrai test n’est pas qu’une image isolée soit réussie, mais que le même sujet, décliné en trois styles différents, paraisse authentique dans chaque genre, sans ce vernis « IA » uniforme.

Nous avons donc demandé trois versions d’une machine à expresso sur un établi en bois (photo, manga, pixel art). Voici les prompts et résultats :

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Résultat intéressant, et assez ironique quand on se souvient que Image 1 s’est fait connaître avec des montages façon Studio Ghibli que tout le monde réalisait il y a un an (nous compris). OpenAI semble aujourd’hui plus vigilant sur le droit d’auteur et la PI.

En décrivant le style de Katsuhiro Otomo sans le nommer, cela a fonctionné. À noter : nous avons dû ouvrir une nouvelle discussion pour que ça marche. Dans la même conversation, le modèle semblait comprendre que nous cherchions à contourner le blocage.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Selon nous, les trois images sont réussies et reprennent fidèlement les styles demandés. La photo paraît très naturelle, et les deux autres pourraient tout droit sortir d’un manga ou d’un jeu SNES.

Autre point marquant : le modèle exploite bien la flexibilité des rapports d’aspect en l’adaptant à chaque image : 16:9 horizontal pour la photo, format portrait pour la version manga, et carré pour le pixel art.

Test des rapports d’aspect flexibles

La version prend en charge des ratios de 3:1 à 1:3 et des résolutions jusqu’à 2K. La vraie question n’est pas de savoir si elle peut produire une image haute ou large — mais si le modèle recompose intelligemment selon les formats ou se contente de recadrer.

Pour révéler sa logique spatiale, il nous faut une scène avec des éléments distincts et incontournables sur plusieurs axes (un élément haut, un élément large, et un sujet central).

En test, nous avons généré un sujet (un astronaute dans un décor spécifique) à partir d’un prompt de base, puis demandé au modèle de le recréer en fond d’écran mobile, en bannière et en carré pour voir comment la composition s’adapte.

Le prompt de base :

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Voyons les variations :

Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Chaque version choisit un ratio adéquat, intègre tous les éléments importants (astronaute, rover, planète), les dispose comme demandé dans le prompt initial et veille à un centrage correct. Test validé.

Test : d’un croquis brut à un visuel abouti

Le concept de partenaire de pensée suppose que le modèle accepte des entrées vagues ou désordonnées — croquis, notes à puces, quelques références — et les transforme en livrable final. C’est la boucle clé de cette version, et celle qu’il fallait tester de la façon la plus directe.

Pour cela, nous avons téléversé le croquis au crayon très sommaire suivant d’une cabane au bord d’un lac :

Pour corser, il contient de nombreux détails, utilise le mot finnois pour ponton, « laituri », et prête à confusion : deux types de bâtiments (maison et cabane) et deux plans d’eau (lac et étang).

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Le résultat sans mode pensant est correct, mais peu photoréaliste. La lumière est cohérente et l’image saisit bien l’ambiance du prompt, avec presque tous les éléments du croquis. Quelques erreurs demeurent :

Le bateau manque
Le ponton est sur l’étang, pas sur le lac
La position du soleil n’est pas en haut à droite.

Avec le même prompt et le même croquis en mode pensant, la sortie paraît bien plus réaliste et corrige ces imprécisions :

L’image reprend chaque élément du croquis, à la bonne place, et le rendu est très propre. L’enseignement principal : pour transformer des croquis en images photoréalistes, utilisez le mode pensant.

Test de créativité

Pour le test suivant, nous avons cherché à recréer la poésie concrète de Niikuni Seiichi.

Ce poème célèbre montre le kanji japonais de la pluie, entouré de pluie : comme si la langue captait la pluie, en quelque sorte.

Voici notre prompt :

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

Et voici la sortie :

Ce cas est intéressant. Le modèle n’a pas reproduit à l’identique l’image, mais a proposé autre chose, intriguant. Dans la nouvelle composition, le kanji de « pluie » n’est pas entouré de pluie, mais il tombe en pluie. La dispersion des symboles paraît aléatoire, comme des gouttes, ce qui contraste joliment avec l’original très ordonné.

Comment accéder à ChatGPT Images 2.0 ?

L’accès suit le même schéma que la version précédente. On retrouve l’espace de création dédié introduit en décembre — éditeur type canevas, artefacts persistants, préréglages de style — avec, sous le capot, un modèle nettement plus performant.

Web, appli mobile et Codex : ChatGPT Images 2.0 est disponible dans l’onglet Images pour les utilisateurs Free, Plus et Pro, avec des limites d’usage variables selon l’offre. L’accès Business et Enterprise suit généralement le déploiement initial.
API : Les développeurs peuvent utiliser le nouveau modèle via l’API OpenAI et Azure OpenAI Service, aux endpoints de génération et d’édition d’images. Comme en 1.5, la sortie image est facturée en tokens, et la régénération partielle lors des retouches limite les coûts par rapport à une régénération totale à chaque fois.

ChatGPT Images 2.0 vs Nano Banana 2

Vous vous demandez peut-être comment ChatGPT Images 2.0 se situe par rapport à Nano Banana 2. Les deux modèles sont récents, par défaut dans leurs écosystèmes, et mis en avant pour leur vitesse, leur raisonnement et leur ancrage réel.

	ChatGPT Images 2.0	Nano Banana 2
Architecture sous-jacente	GPT-Image-2 (successeur de GPT-Image-1.5)	Gemini 3.1 Flash
Modèle d’édition	Précision : sélection de zone et édition in situ	Raisonnement : conversationnel et masquage intelligent
Flux de travail	Espace de création dédié (onglet Images)	Intégré au chat Gemini
Itération	Efficiente : régénération partielle	Rapide : 4–6 s en 1K, ajustable via le mode pensant
Ancrage réel	Raisonnement intégré et connaissances à jour	Image Search Grounding (références en direct depuis Google Search)
Cohérence multi-vignettes	Solide sur les séquences et fiches personnages	Solide, avec accent sur la cohérence du sujet
Texte multilingue	Grosse avancée vs 1.5 ; large prise en charge des écritures	Très bon, notamment pour le chinois et les mises en page est-asiatiques
Résolution par défaut	Standard + rapports d’aspect flexibles	2K par défaut dans l’appli Gemini
Écosystème	OpenAI & Azure	Pile Google / Gemini, Search, Lens

Quand utiliser ChatGPT Images 2.0 vs Nano Banana 2

Privilégiez ChatGPT Images 2.0 lorsque …

Vous avez besoin d’une boucle d’édition guidée par référence. Le modèle accepte une image de référence et applique des modifications ciblées (textures, corrections de position, ajustements de ratio) au fil des échanges. De simples relances en langage naturel orientent fiablement la sortie sans repartir de zéro, ce qui économise aussi des tokens
Vous transformez des entrées brutes en livrables aboutis. Le mode pensant convertit des croquis vagues et des consignes spatiales en compositions précises et photoréalistes, avec des éléments exactement à la place voulue
L’exactitude factuelle dans l’image est critique. L’ancrage via recherche web récupère des informations en direct et les rend correctement dans l’image, idéal pour affiches d’événements, infographies d’actualité, ou visuels où chiffres et noms doivent être impeccables. Pensez à activer le mode pensant pour la recherche web

Privilégiez Nano Banana 2 lorsque …

Vous intégrez des sujets ou lieux réels très spécifiques dans une scène. Image Search Grounding récupère des références visuelles en direct depuis Google, reconstruit fidèlement des lieux (même par coordonnées GPS) et les combine avec des personnages cohérents en une seule génération
Vous devez préserver l’identité de plusieurs personnages et objets dans un même flux. Le modèle gère explicitement jusqu’à cinq personnages et quatorze références au total (personnages + objets) avec une forte cohérence. Un excellent choix pour des storyboards, photos produits ou récits à plusieurs personnages
Vous construisez dans l’écosystème Google. Nano Banana est nativement intégré à Gemini chat, Google Search, Google Ads, Firebase et Vertex AI

Les deux s’en sortent bien pour le rendu de texte dans l’image, l’éventail stylistique et l’édition conversationnelle.

Conclusion

Le positionnement en « partenaire de pensée visuel » tient la route — mais seulement avec le mode pensant activé. Sans lui, le modèle peine sur la logique spatiale et le photoréalisme ; avec, il transforme des entrées ambiguës en sorties qui donnent une impression de collaboration plutôt que de mécanique. Deux domaines où le modèle brille même sans mode pensant : l’authenticité stylistique et la flexibilité des ratios.

L’ancrage via recherche web semble l’amélioration majeure par rapport à Images 1.5. Sur le test du marathon de Boston, l’écart est clair : la 2.0 donne les bons faits, là où la 1.5 n’était pas à jour. Il est important de rappeler que la recherche web ne fonctionne qu’en mode pensant.

Autre constat : les garde-fous liés au droit d’auteur sont plus stricts, et cela se voit. Si vous souhaitez recréer un style associé à une entreprise ou à une personne, il faut faire l’effort d’en décrire l’essence plutôt que de la nommer (ce qui, objectivement, est simple aujourd’hui).

Globalement, le modèle constitue une avancée significative par rapport à son prédécesseur et vient contester la position de référence de Nano Banana 2 en génération et édition d’images par IA.

Pour tirer le meilleur parti de ces outils, savoir créer des prompts est une compétence essentielle. Nous vous recommandons vivement de suivre nos cours Understanding Prompt Engineering et Prompt Engineering with the OpenAI API pour allier théorie et pratique.

Author

Josef Waples

Author

Tom Farnschläder

Sujets

ChatGPT

Apprenez avec DataCamp

Cours

Comprendre l'ingénierie des prompts

1 h

181.5K

Rédigez des invites efficaces pour ChatGPT, à intégrer dès aujourd’hui à vos processus.

Afficher les détails

Commencer le cours

Cours

ChatGPT niveau intermédiaire

1 h

26.4K

Découvrez l'architecture des modèles GPT et maîtrisez la création avancée de prompts afin de libérer tout le potentiel de chatGPT.

Afficher les détails

Commencer le cours

Cours

Nettoyer des données avec l’IA générative

1 h

11.2K

L'IA générative pour nettoyer les data, corriger les doublons, valeurs nulles et le formatage pour obtenir des datasets cohérents et précis.

Afficher les détails

Commencer le cours

Contenus associés

blog

Comprendre les TPU et les GPU dans l'IA : Un guide complet

L'essor du développement de l'intelligence artificielle (IA) a entraîné une augmentation notable de la demande en matière de calcul, d'où la nécessité de disposer de solutions matérielles robustes. Les unités de traitement graphique (GPU) et les unités de traitement tensoriel (TPU) sont devenues des technologies essentielles pour répondre à ces demandes.

Kurtis Pykes

9 min

blog

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Découvrez les principaux types d'agents d'intelligence artificielle, comment ils interagissent avec les environnements et comment ils sont utilisés dans les différents secteurs d'activité. Comprendre les agents réflexes simples, les agents basés sur un modèle, les agents basés sur un but, les agents basés sur l'utilité, les agents d'apprentissage, etc.

Vinod Chugani

14 min

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.

Nathaniel Taylor-Leach

8 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.

Nathaniel Taylor-Leach

Tutoriel

Cursor AI : Un guide avec 10 exemples pratiques

Apprenez à installer Cursor AI sur Windows, macOS et Linux, et découvrez comment l'utiliser à travers 10 cas d'utilisation différents.

Tutoriel

Tableaux Python

Tableaux Python avec exemples de code. Découvrez comment créer et imprimer des tableaux à l'aide de Python NumPy dès aujourd'hui.

DataCamp Team

Voir plus Voir plus

Qu’est-ce que ChatGPT Images 2.0 ?

Vous souhaitez vous lancer dans l'IA générative ?

Quoi de neuf avec ChatGPT Images 2.0 ?

Un modèle qui réfléchit

Rechercher sur le web

Créer plusieurs images à partir d’un même prompt

Tester ChatGPT Images 2.0

Test du flux d’édition

Test du mode pensant et de la recherche web

Test de l’amplitude stylistique

Test des rapports d’aspect flexibles

Test : d’un croquis brut à un visuel abouti

Test de créativité

Comment accéder à ChatGPT Images 2.0 ?

ChatGPT Images 2.0 vs Nano Banana 2

Quand utiliser ChatGPT Images 2.0 vs Nano Banana 2

Conclusion

Comprendre les TPU et les GPU dans l'IA : Un guide complet

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

2022-2023 Rapport annuel DataCamp Classrooms

Q2 2023 DataCamp Donates Digest

Cursor AI : Un guide avec 10 exemples pratiques

Tableaux Python

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Comprendre l'ingénierie des prompts

ChatGPT niveau intermédiaire

Nettoyer des données avec l’IA générative

Comprendre les TPU et les GPU dans l'IA : Un guide complet

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

2022-2023 Rapport annuel DataCamp Classrooms

Q2 2023 DataCamp Donates Digest

Cursor AI : Un guide avec 10 exemples pratiques

Tableaux Python

Comprendre l'ingénierie des prompts