Cursus
Het is bijna precies een jaar geleden dat de eerste ChatGPT Images werd uitgebracht met een model genaamd GPT Image 1. OpenAI heeft zijn beeldmodel nu opnieuw grondig vernieuwd, en het bedrijf presenteert ons het nieuwe idee dat de "beeldgenerator" nu een "visuele denkpartner" is.
In dit artikel lopen we door wat er nieuw is, hoe het zich verhoudt tot zijn voorganger ChatGPT Images 1.5, hoe het zich verhoudt tot Google's Nano Banana 2, en waar het model uitblinkt (en waar niet).
Wat is ChatGPT Images 2.0?
ChatGPT Images 2.0 is OpenAI's beeldmodel van de volgende generatie. Het wordt gepresenteerd als iets dat kan redeneren, onderzoeken en vervolgens renderen.
Wat is er nieuw in ChatGPT Images 2.0?
Een van de grootste conclusies van de release van ChatGPT Images 1.5 was een grote toename in snelheid. In de aankondiging stond destijds dat het 4x sneller was. We probeerden die claim te verifiëren, maar zagen dat die gold voor bewerkingen, niet voor het genereren van nieuwe beelden.
Deze keer is de grote claim intelligentie. ChatGPT Images 2.0 is een "denkend" beeldmodel: het zou moeten zoeken, over feiten redeneren en ruwe input (notities, schetsen, referenties) vertalen naar verzorgde visuals met veel minder handmatig prompten.
Andere hoofdthema's uit de aankondiging zijn:
- Meer precisie en controle over de generatie zelf
- Betere prestaties in verschillende talen en schriftsystemen
- Meer stilistische verfijning en realisme
- Verbeterde intelligentie voor de echte wereld ingebakken in het model
- Flexibele beeldverhoudingen voor alles van mobiel tot bannerformaten
Een model dat nadenkt
Een van de grootste claims is dat het nieuwe model “denkt” en optreedt als een “visuele denkpartner”. Het idee is dat agenten achter de schermen werk doen om de taak grondig te begrijpen en erover te redeneren voordat ze de generatie-opdracht uitvoeren.
Zijn begrip van de wereld is bijgewerkt tot een cutoff van december 2025, waardoor outputs contextueel accurater zijn. Dit zou het nieuwe model geschikt maken voor educatieve graphics en meerstapsworkflows die context vereisen.
Zoek op het web
Om de kloof te overbruggen tussen de cutoff en actuele informatie, kan Images 2.0 het web doorzoeken om relevante informatie te vinden. Het is niet duidelijk uit OpenAI's releasenotes hoe dit precies werkt, maar voor zover wij begrijpen, dient de webzoekfunctie als een tool die wordt aangeroepen door de hierboven genoemde denkagent.
Maak meerdere afbeeldingen met één prompt
Het nieuwe model ondersteunt ook native het genereren van meerdere afbeeldingen uit dezelfde prompts. Dit was mogelijk met een workaround in de API (prompten voor een “compositie”), maar kan nu ook in de UI, tot tien afbeeldingen. OpenAI belooft continuïteit van personages en objecten in al die outputs.
ChatGPT Images 2.0 testen
Tijd om te zien wat het nieuwe model echt kan! We testten de volgende mogelijkheden en functies van Images 2.0:
- Bewerkingsworkflow
- Denkmodus en webzoekfunctie
- Stilistische bandbreedte
- Polijsten van ruwe schetsen
- Flexibiliteit in beeldverhouding
- Creativiteit
De bewerkingsworkflow testen
OpenAI's pitch voor 2.0 leunt op iteratie: ruwe input erin, gepolijst resultaat eruit, met verbeteringen in het volgen van instructies en dichte tekstrendering. We testten die lus met een beroemde Amerikaanse postzegel uit 1898 genaamd Western Cattle in Storm.
Hier is een foto van een van de zegels in de staat Fine.

Om specifiek de bewerkingsworkflow te testen, gebruikten we de volgende prompt zonder denkmodus. Dit betekent ook dat het model geen toegang heeft tot webzoekopdrachten, wat we apart testten.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
En hier is het resultaat:

Alleen tekstprompten werkte niet. Een gedetailleerde beschrijving van de zegel en de conditie leverde een resultaat op dat op de meeste belangrijke punten verkeerd was — verkeerde kleur, verkeerde opmaak van de denominatie, karikaturaal scheef gecentreerd. Het reproduceren van een specifiek historisch artefact op basis van alleen tekst is een lastige opgave.
Het model de referentieafbeelding geven en om gerichte bewerkingen vragen is waar 2.0 zijn waarde bewees: perforatie-onregelmatigheden, een hinge-restant, een diagonale gumvouw, lichte verkleuring en een gedeeltelijke afstempeling.
De bewerkingen kwamen grofweg terecht waar we vroegen. Het model introduceerde een regressie in de beeldverhouding, maar een vervolg in gewone taal loste het op. Het eindresultaat is niet forensisch perfect — de "$1" oogt iets uitgerekt, de mais is anders — maar de lus werkte: ruwe start, bijgestuurd, bruikbaar resultaat in drie rondes.

Meertalige tekstrendering testen
Tekstrendering in niet-Latijnse schriftsystemen is een hardnekkige zwakke plek geweest in beeldmodellen, en OpenAI noemt dit expliciet als een hoofdoplossing. De release specificeert hoogwaardige tekstgeneratie in Japans, Koreaans, Chinees, Hindi en Bengaals — niet alleen vertaald, maar ook gerenderd met een samenhangende lay-out en typografie die native aanvoelt.
Een eerlijke test is hier om te vragen om een poster of infographic met een blok tekst in een van deze schriftsystemen en de output te laten checken door een native lezer. We vroegen het model om een moderne Japanse lifestyleposter te maken die een fictief lokaal koffiebarretje en hun seizoensgebonden kersenbloesemlatte adverteert.
「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。
テキスト内容:
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』
テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」
Zo ziet de output eruit:

Volgens onze collega die Japans spreekt (shout-out naar Sven!) ziet dit er veel beter uit dan in eerdere modellen, waar veel tekens wartaal waren. Deze voelt natuurlijker en is makkelijk leesbaar voor native speakers.
In de denkmodus voegde het zelfs zinnen toe buiten de promptinstructies, op het kleine krijtbordje linksonder. Ze passen goed in de context zonder zich te herhalen, en vertalen naar iets als “Seizoensgebonden, zachte smaak. Neem een ontspannende pauze — geniet van een kopje dat de lente brengt.”
De denkmodus en webzoekfunctie testen
We moesten een beetje oppassen met hoe we de webzoekmogelijkheden testten, want als je het model in de prompt vertelt wat je wilt, test je niet de zoekfunctie maar het volgen van instructies. De schoonste test is om om iets heel recents en heel specifieks te vragen, het model bijna geen informatie te geven en te kijken of het de gaten correct kan invullen.
We kozen de Boston Marathon van gisteren. De race eindigde op maandag 20 april — de dag vóór de aankondiging van ChatGPT Images 2.0 — en het parcoursrecord bij de mannen werd voor het eerst sinds 2011 gebroken. Dat geeft me een concreet feitenpakket (winnaar, land, tijd, marge, context) dat het model onmogelijk uit training kan hebben, maar dat makkelijk te verifiëren is met een snelle zoekopdracht.
Hier is de prompt, bewust ontdaan van details. En je ziet in het resultaat dat het model het web doorzoekt!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Het resultaat ziet er visueel erg aantrekkelijk uit en is in de kleurcode van de Boston Marathon gehouden, wat een leuke extra is. Alle genoemde feiten kloppen, wat we dubbel gecheckt en bevestigd hebben.
Het is nog indrukwekkender als je het vergelijkt met de output van het oude model (Images 1.5) of het nieuwe model zonder denkmodus, met dezelfde prompt:

Stilistisch kan het meekomen, maar er zijn hier best wat problemen rond getallen.
- De editie was de 130e Boston Marathon, dus er zou “129 jaar traditie” moeten staan, niet 127.
- De bewering dat hij de “3e loper in de geschiedenis is die onder 2:04 op een marathon liep” is ook onwaar. Ongeveer 20 lopers hebben dat gedaan.
- Volgens de website van de Boston Athletic Association was zijn tweede helft 1:00:02, niet 1:01:05 (wat nog steeds de snelste tweede helft ooit kan zijn geweest)
- Het belangrijkste: ChatGPT Images verwarde de nieuwe en oude recordtijden. Het oude record was 2:03:02; het nieuwe record is 2:01:52. Het verschil is 1:10 minuut.
- Aangezien John Korir ook de Boston Marathon van vorig jaar won, lijkt het aannemelijk dat het de naam niet goed had als er een andere winnaar was geweest
De zoekmogelijkheden maken verschil bij het visueel presenteren van actuele informatie. Om ze te gebruiken, moet de denkmodus aan staan.
Stilistische bandbreedte testen
OpenAI claimt echte winst in stilistische verfijning — over fotografie, illustratie, manga, pixelart en andere visuele stijlen. De eerlijke test is niet of één enkele afbeelding er goed uitziet, maar of hetzelfde onderwerp in drie verschillende stijlen authentiek aanvoelt binnen elk genre, of dat alles terugkomt met dezelfde AI-achtige glans eronder.
Om dit te testen vroegen we om drie verschillende versies van een espressomachine op een houten werkbank (fotografie, manga, pixelart). Hier zijn de prompts en resultaten:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Dit was een interessant resultaat, en best ironisch als je bedenkt dat Image 1 bekend werd door Studio Ghibli-montages die iedereen een jaar geleden maakte (wij ook). Het lijkt erop dat OpenAI sindsdien wat voorzichtiger is geworden met auteursrechten en IP.
Door de stijl van Katsuhiro Otomo te beschrijven zonder hem specifiek te noemen, werkte het. Let wel: we moesten een nieuwe chat openen om het te laten werken. In dezelfde chat als de oorspronkelijke prompt leek het model te beseffen dat we de blokkade probeerden te omzeilen.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Wat ons betreft zien alle drie de afbeeldingen er geweldig uit en belichamen ze de heel specifieke stijlen waar we om vroegen op een authentieke manier. De foto oogt heel natuurlijk en de andere twee versies zouden zo uit een mangaboek of SNES-videogame kunnen komen.
Wat verder opvalt in de test hierboven is hoe het model zijn flexibele beeldverhoudingen gebruikte en aanpaste aan elke afbeelding: een 16:9-landschap voor de foto, een portretverhouding voor de mangaversie en een vierkante pixelart-afbeelding.
Flexibele beeldverhoudingen testen
De release ondersteunt beeldverhoudingen van 3:1 tot 1:3 en resoluties tot 2K. De interessante vraag is niet of het een hoge of een brede afbeelding kan produceren — maar of het model intelligent hercomponeert over formaten heen of gewoon bijsnijdt.
Om de onderliggende ruimtelijke logica van het model bloot te leggen, hebben we een scène nodig met duidelijke, niet-onderhandelbare elementen op meerdere assen (iets hoogs, iets breeds en een centraal onderwerp).
Als test genereerden we ons onderwerp (een astronaut in een specifieke setting) vanuit een basisprompt, en vroegen het model het opnieuw te creëren als mobiele wallpaper, als banner en als vierkant om te zien hoe de compositie zich aanpast.
De basisprompt:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Laten we zien hoe het verandert:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Elke versie koos een passende beeldverhouding voor de vraag, bevat alle belangrijke elementen (astronaut, rover, planeet), heeft ze gerangschikt zoals we vroegen in de oorspronkelijke prompt, en zorgde dat ze gecentreerd zijn. Test geslaagd.
Van ruwe input naar gepolijste output testen
Het denkpartner-frame berust op het model dat vage of rommelige input accepteert — een ruwe schets, een puntsgewijze notitie, een paar referenties — en die omzet in een afgewerkt resultaat. Dit is de lus waar de release echt om draait, en die we het meest direct wilden testen.
Om dit te testen, uploaden we de volgende zeer ruwe potloodschets van een hut bij het meer:

Om het lastig te maken bevat hij best veel details, gebruikt hij het Finse woord voor steiger, “laituri”, en biedt hij ruimte voor verwarring omdat ertwee soorten gebouwen (huis en hut) en twee soorten wateroppervlakken (meer en vijver) in staan
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Het resultaat zonder denkmodus ziet er netjes uit, maar niet erg fotorealistisch. Toch klopt de belichting goed en vangt de afbeelding de sfeer van de prompt perfect. We zien bijna alle elementen uit de schets terug. Een paar details kloppen niet:
- De boot ontbreekt
- De steiger ligt aan de vijver, niet aan het meer
- De positie van de zon staat niet in de rechterbovenhoek.
Toen we dezelfde prompt met dezelfde schetsafbeelding in de denkmodus probeerden, zag de output er veel realistischer uit en waren alle kleine onnauwkeurigheden verholpen:

De afbeelding bevat elk element uit de schets op de aangewezen plek, en ziet er heel verzorgd uit. De belangrijkste les hier is om de denkmodus te gebruiken voor de beste resultaten bij het omzetten van ruwe schetsen in fotorealistische beelden.
Creativiteit testen
Voor onze volgende test wilden we zien of het de concrete poëzie van Niikuni Seiichi kon recreëren.
Dit beroemde gedicht toont het Japanse kanji voor regen, omringd door regen, dus het is alsof je regen in taal vangt, zo zien wij het.

Hier is onze prompt:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
En hier is de output:

Dit vinden we interessant. Het heeft de afbeelding niet exact gerecreëerd, maar wel iets anders gemaakt dat intrigerend was. In de nieuwe compositie wordt het kanji voor “regen” niet omringd door regen, maar komt het naar beneden als regen. De compositie van de symbolen lijkt heel willekeurig, zoals je zou verwachten bij regendruppels, maar het vormt een mooi contrast met het zeer ordelijke origineel.
Hoe krijg ik toegang tot ChatGPT Images 2.0?
Toegang volgt hetzelfde patroon als de vorige release. Het behoudt de speciale creatieve werkruimte die in december werd geïntroduceerd — de canvasachtige editor, persistente artefacten, stijlpresets — en vervangt het onderliggende model door een aanzienlijk capabeler exemplaar.
- Web, mobiele app en Codex: ChatGPT Images 2.0 is beschikbaar op het tabblad Afbeeldingen voor Free-, Plus- en Pro-gebruikers, met gebruikslimieten die per niveau opschalen. Toegang voor Business en Enterprise volgt doorgaans na de eerste uitrol.
- API: Ontwikkelaars kunnen het nieuwe model gebruiken via de OpenAI API en Azure OpenAI Service, via de eindpunten voor beeldgeneratie en -bewerking. Net als bij 1.5 wordt de beeldoutput geprijsd in tokens, en gedeeltelijke regeneratie tijdens bewerkingen houdt de kosten lager dan telkens een volledige afbeelding opnieuw genereren.
ChatGPT Images 2.0 vs. Nano Banana 2
Je vraagt je misschien af hoe ChatGPT Images 2.0 zich verhoudt tot Nano Banana 2. Beide modellen zijn recent, beide zijn de standaardervaring in hun respectieve ecosystemen, en beide worden aangeprezen rond snelheid, redeneren en intelligentie voor de echte wereld.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Onderliggende architectuur |
GPT-Image-2 (opvolger van GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Bewerkingsmodel |
Precisie: gebiedsselectie & bewerken op locatie |
Redeneren: conversationeel & slimme masking |
|
Workflow |
Speciale creatieve werkruimte (tabblad Afbeeldingen) |
Geïntegreerd in Gemini-chat |
|
Iteratie |
Efficiënt: gedeeltelijke regeneratie |
Snel: 4–6s bij 1K, afstembaar via Denkmodus |
|
Verankering in de echte wereld |
Ingebouwd redeneren en actuele kennis |
Image Search Grounding (haalt live referenties uit Google Zoeken) |
|
Consistentie over meerdere panelen |
Sterk in reeksen en karakterbladen |
Sterk, met focus op onderwerpconsistentie |
|
Meertalige tekst |
Grote upgrade ten opzichte van 1.5; brede scriptondersteuning |
Sterk, vooral in Chinees en Oost-Aziatische lay-outs |
|
Standaardresolutie |
Standaard + flexibele beeldverhoudingen |
2K-standaard in de Gemini-app |
|
Ecosysteem |
OpenAI & Azure |
Google / Gemini-stack, Zoeken, Lens |
Wanneer ChatGPT Images 2.0 vs. Nano Banana 2 gebruiken
Gebruik ChatGPT Images 2.0 wanneer…
- Je een referentiegestuurde bewerkingslus nodig hebt. Het model accepteert een referentieafbeelding en past gerichte wijzigingen toe (textuurdetails, positionele correcties, fixes voor beeldverhouding) over meerdere rondes, waarbij vervolgen in gewone taal de output betrouwbaar bijsturen zonder opnieuw te beginnen, wat je ook tokens bespaart
- Je ruwe input omzet in gepolijste assets. De denkmodus vertaalt vage schetsen en ruimtelijke instructies naar nauwkeurige, fotorealistische composities met elementen precies geplaatst zoals bedoeld
- Feitelijke nauwkeurigheid ín de afbeelding cruciaal is. Webzoekverankering haalt live informatie op en rendert die correct in de afbeelding zelf, waardoor het betrouwbaar is voor evenementposters, nieuwsinfographics of elke visual waar getallen en namen moeten kloppen. Denk eraan de denkmodus te gebruiken om webzoek te activeren
Gebruik Nano Banana 2 wanneer…
- Je specifieke onderwerpen of locaties uit de echte wereld in een scène plaatst. Image Search Grounding haalt live visuele referenties uit Google en reconstrueert nauwkeurig specifieke plaatsen (zelfs via GPS-coördinaten) en combineert ze met onderwerp-consistente personages in één generatie
- Je identiteit over meerdere personages en objecten in één workflow moet behouden. Het model ondersteunt expliciet tot vijf personages en veertien totale referenties (personages + objecten) met strikte consistentie. Dit maakt het een sterke keuze voor storyboards, productfoto's of verhalen met meerdere personages
- Je binnen het Google-ecosysteem bouwt. Nano Banana is native geïntegreerd in Gemini-chat, Google Zoeken, Google Ads, Firebase en Vertex AI
Beide zijn prima keuzes als het gaat om tekstrendering in afbeeldingen, stilistische bandbreedte en conversationeel bewerken.
Slotgedachten
Het frame van de “visuele denkpartner” houdt stand – maar alleen met de denkmodus aan. Zonder die modus worstelt het model met ruimtelijke logica en fotorealisme; mét die modus verandert het dubbelzinnige input in outputs die collaboratief aanvoelen in plaats van mechanisch. Twee gebieden waarin het model ook zonder denkmodus uitblinkt zijn de stilistische authenticiteit en flexibiliteit in beeldverhoudingen.
Webzoekverankering voelt als de grootste upgrade ten opzichte van Images 1.5. In de Boston Marathon-test zagen we dat verschil duidelijk: 2.0 had alle feiten goed, terwijl 1.5 niet up-to-date was. Belangrijk om te weten is dat webzoek ook alleen in de denkmodus werkt.
Een interessante bevinding was dat de auteursrechtelijke vangrails strakker zijn, en dat is te merken. Als je een stijl wilt recreëren waarvoor een bepaald bedrijf of persoon bekendstaat, moet je de extra stap zetten om de essentie van hun stijl te identificeren en die te beschrijven (wat, eerlijk gezegd, tegenwoordig een makkelijke oplossing is).
Al met al is het model een significante upgrade ten opzichte van zijn voorganger en daagt het de status van Nano Banana 2 uit als het nummer-één-tool voor AI-beeldgeneratie en -bewerking.
Om het meeste uit zulke tools te halen, is weten hoe je moet prompten een essentiële vaardigheid. We raden sterk aan om onze cursussen Understanding Prompt Engineering en Prompt Engineering with the OpenAI API te volgen voor een theoretische en praktische basis.

Ik ben een schrijver en editor op het gebied van data science en heb bijgedragen aan onderzoeksartikelen in wetenschappelijke tijdschriften. Ik ben vooral geïnteresseerd in lineaire algebra, statistiek, R en dergelijke. Ik speel ook best wat schaak!

Tom is data scientist en technisch docent. Hij schrijft en beheert de data science-tutorials en blogposts van DataCamp. Eerder werkte Tom in data science bij Deutsche Telekom.
