course
A trecut aproape exact un an de când a fost lansată prima versiune a ChatGPT Images, cu un model numit GPT Image 1. OpenAI și-a refăcut din nou modelul de imagini, iar compania propune acum ideea că „generatorul de imagini” este de fapt un „partener vizual de gândire”.
În acest articol, vom parcurge noutățile, cum se compară cu predecesorul său ChatGPT Images 1.5, cum se compară cu Nano Banana 2 de la Google, precum și unde excelează modelul (și unde nu).
Ce este ChatGPT Images 2.0?
ChatGPT Images 2.0 este modelul de imagini de nouă generație al OpenAI. Este prezentat drept ceva care poate raționa, cerceta și apoi reda.
Ce e nou în ChatGPT Images 2.0?
Una dintre principalele concluzii ale lansării ChatGPT Images 1.5 a fost creșterea semnificativă a vitezei. La momentul respectiv, lansarea afirma că este de 4 ori mai rapid. Am încercat să verificăm afirmația, dar am observat că se aplica editărilor, nu generării de imagini noi.
De data aceasta, marea promisiune este inteligența. ChatGPT Images 2.0 este un model de imagini „care gândește”: se presupune că poate căuta informații, raționa asupra faptelor și traduce intrări brute (note, schițe, referințe) în imagini finisate, cu mult mai puține indicații manuale.
Alte teme principale din anunț sunt:
- Mai multă precizie și control asupra generării în sine
- Performanță mai bună în mai multe limbi și sisteme de scriere
- Mai mult rafinament stilistic și realism
- Inteligență practică îmbunătățită integrată în model
- Raporturi de aspect flexibile pentru orice, de la mobil la bannere
Un model care gândește
Una dintre cele mai mari afirmații ale lansării este că noul model „gândește” și acționează ca un „partener vizual de gândire”. Ideea este că agenții fac o parte din muncă în fundal pentru a înțelege temeinic sarcina și a raționa asupra ei înainte de a executa cererea de generare.
Cunoașterea sa despre lume a fost actualizată până în decembrie 2025, astfel încât rezultatele sunt mai exacte contextual. Se anunță că acest lucru face ca noul model să fie excelent pentru materiale educaționale și fluxuri de lucru în mai mulți pași care necesită context.
Căutare pe web
Pentru a acoperi golul dintre data-limită de antrenare și informațiile noi, la zi, Images 2.0 poate căuta pe web pentru a găsi informații relevante. Nu este clar din notele de lansare ale OpenAI cum funcționează exact, dar din ce înțelegem, căutarea web servește drept un instrument apelat de agentul gânditor menționat mai sus.
Creați mai multe imagini dintr-un singur prompt
Noul model acceptă nativ generarea de mai multe imagini din aceleași prompturi. Acest lucru era posibil printr-un artificiu în API (cerând o „compoziție”), dar acum se poate face și în interfața UI, pentru până la zece imagini. OpenAI promite continuitate a personajelor și obiectelor în toate aceste rezultate.
Testarea ChatGPT Images 2.0
Este momentul să vedem ce poate face efectiv noul model! Am testat următoarele capabilități și funcționalități ale Images 2.0:
- Fluxul de lucru pentru editare
- Modul de gândire și căutarea pe web
- Plaja stilistică
- Finisarea schițelor brute
- Flexibilitatea raportului de aspect
- Creativitatea
Testarea fluxului de lucru pentru editare
Propunerea OpenAI pentru versiunea 2.0 se bazează pe iterație: intrare brută, ieșire finisată, cu îmbunătățiri în urmarea instrucțiunilor și redarea textului dens. Am testat acest ciclu folosind un celebru timbru poștal american din 1898 numit Western Cattle in Storm.
Iată o imagine a unuia dintre timbre, în stare „Fine”.

Pentru a testa specific fluxul de editare, am folosit următorul prompt fără modul de gândire. Asta înseamnă, de asemenea, că modelul nu are acces la căutări web, pe care le-am testat separat.
Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle
Iar acesta este rezultatul:

Promptul doar cu text nu a funcționat. O descriere detaliată a timbrului și a gradului său de conservare a ieșit greșită în majoritatea aspectelor care contează — culoare greșită, denumire plasată greșit, decentrări caricaturale. Reproducerea unui artefact istoric specific doar din text este o sarcină dificilă.
Predarea imaginii de referință modelului și solicitarea unor editări țintite este locul în care 2.0 și-a meritat reputația: neregularități ale perforațiilor, urme de balama, o pliere diagonală a gumei, tentă ușoară și o obliterare parțială.
Editările au ajuns aproximativ unde am cerut. Modelul a introdus o regresie a raportului de aspect, dar o singură continuare în limbaj natural a rezolvat-o. Rezultatul final nu e de nivel criminalistic — „$1” pare ușor alungit, porumbul este diferit — dar bucla a funcționat: început stângaci, corecție de curs, rezultat utilizabil în trei runde.

Testarea modului de gândire și a căutării pe web
A trebuit să fim puțin atenți la modul în care am testat capabilitățile de căutare pe web, deoarece dacă îi spuneți modelului ce doriți în prompt, nu testați căutarea, ci urmarea instrucțiunilor. Testul cel mai curat este să cereți ceva foarte recent și foarte specific, să oferiți modelului aproape nicio informație și să vedeți dacă poate completa corect golurile.
Am ales Maratonul din Boston de ieri. Cursa s-a încheiat luni, 20 aprilie — cu o zi înainte de anunțul ChatGPT Images 2.0 —, iar recordul masculin al traseului a fost doborât pentru prima dată din 2011. Asta oferă un set concret de fapte (câștigător, țară, timp, diferență, context) pe care modelul nu le poate avea din antrenare, dar care pot fi verificate rapid cu o căutare.
Iată promptul, deliberat lipsit de detalii. Și se vede în rezultat că modelul caută pe web!
Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Rezultatul arată foarte atrăgător vizual și respectă codul de culori al Maratonului din Boston, ceea ce este un plus. Toate faptele menționate sunt corecte, lucru pe care l-am verificat.
Este și mai impresionant când îl comparați cu rezultatul vechiului model (Images 1.5) sau al noului model fără modul de gândire, cu același prompt:

Ca stil, poate concura, dar sunt destule probleme legate de cifre aici.
- Cursa a marcat a 130-a ediție a Maratonului din Boston, deci ar trebui să scrie „129 de ani de tradiție”, nu 127.
- Afirmația că este „al 3-lea alergător din istorie care a coborât sub 2:04 într-un maraton” este, de asemenea, falsă. Aproximativ 20 de alergători au reușit deja.
- Conform site-ului Boston Athletic Association, timpul său pe a doua jumătate a fost 1:00:02, nu 1:01:05 (care tot ar putea fi fost cel mai rapid negative split vreodată)
- Cel mai important, ChatGPT Images a confundat timpii noului și vechiului record. Vechiul record era 2:03:02; noul record este 2:01:52. Diferența este de 1:10 minute.
- Având în vedere că John Korir a câștigat și Maratonul din Boston de anul trecut, pare rezonabil să presupunem că nu ar fi nimerit numele dacă ar fi fost un alt câștigător
Capacitățile de căutare fac o diferență când vine vorba de prezentarea vizuală a informațiilor actuale. Pentru a le folosi, modul de gândire trebuie să fie activ.
Testarea plajei stilistice
OpenAI promite câștiguri reale în rafinamentul stilistic — în fotografie, ilustrație, manga, pixel art și alte stiluri vizuale. Testul onest nu este dacă o singură imagine arată bine, ci dacă același subiect redat în trei stiluri diferite pare autentic pentru fiecare gen sau dacă totul se întoarce cu același luciu „de AI” dedesubt.
Pentru a testa, am cerut trei versiuni diferite ale unei mașini de espresso pe un banc de lucru din lemn (fotografie, manga, pixel art). Iată prompturile și rezultatele:
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Acesta a fost un rezultat interesant și chiar ironic, dacă ne gândim că Image 1 a devenit faimos pentru montajele în stil Studio Ghibli pe care toți le făceau acum un an (inclusiv noi). Se pare că OpenAI a devenit ceva mai atent la drepturile de autor și proprietatea intelectuală de atunci.
Descriind stilul lui Katsuhiro Otomo fără a-l menționa explicit, a funcționat. De reținut că a trebuit să deschidem un nou chat pentru a merge. În același chat ca promptul inițial, modelul părea să își dea seama că încercăm să ocolim blocarea.
A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

În opinia noastră, toate cele trei imagini arată foarte bine și întruchipează autentic stilurile foarte specifice cerute. Fotografia arată foarte natural, iar celelalte două versiuni ar putea fi luate direct dintr-o carte manga sau dintr-un joc SNES, respectiv.
Un alt lucru care sare în ochi în testul de mai sus este modul în care modelul și-a folosit capabilitățile flexibile de raport de aspect pentru a le adapta fiecărei imagini: un peisaj 16:9 pentru fotografie, un raport portret pentru versiunea manga și o imagine pătrată pentru pixel art.
Testarea rapoartelor de aspect flexibile
Lansarea acceptă rapoarte de aspect de la 3:1 la 1:3 și rezoluții de până la 2K. Întrebarea interesantă nu este dacă poate produce o imagine înaltă sau lată — ci dacă modelul recompune inteligent în formate diferite sau doar decupează.
Pentru a expune logica spațială de bază a modelului, avem nevoie de o scenă cu elemente distincte și esențiale pe mai multe axe (ceva înalt, ceva lat și un subiect central).
Ca test, am generat subiectul nostru (un astronaut într-un decor specific) dintr-un prompt de bază, apoi am cerut modelului să îl recreeze ca fundal pentru mobil, ca banner și ca pătrat, pentru a vedea cum se adaptează compoziția.
Promptul de bază:
A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Să vedem cum se schimbă:
Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Fiecare versiune a ales un raport de aspect potrivit pentru cerere, include toate elementele importante (astronaut, rover, planetă), le are aranjate conform cerințelor din promptul inițial și se asigură că sunt centrate. Test trecut.
De la intrare brută la ieșire finisată
Încadrarea ca „partener de gândire” se bazează pe faptul că modelul acceptă intrări vagi sau dezordonate — o schiță brută, un set de puncte, câteva referințe — și le transformă într-un material finalizat. Acesta este ciclul pe care se bazează cu adevărat lansarea și este cel care merită testat cel mai direct.
Pentru a testa, am încărcat următoarea schiță foarte sumară, în creion, a unei cabane lângă lac:

Pentru a complica, conține destul de multe detalii, folosește cuvântul finlandez pentru dig, „laituri”, și oferă potențial de confuzie prin prezența a două tipuri de clădiri (casă și cabană) și două tipuri de suprafețe de apă (lac și iaz)
Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Rezultatul în modul fără gândire arată decent, dar nu foarte fotorealist. Totuși, iluminarea se potrivește bine, iar imaginea surprinde perfect atmosfera promptului. Vedem aproape toate elementele din schiță. Câteva detalii sunt greșite:
- Lipsea barca
- De baraj/dig a fost plasat pe iaz, nu pe lac
- Poziția soarelui nu este în colțul din dreapta sus.
Când am încercat același prompt cu aceeași imagine-schiță în modul de gândire, rezultatul a părut mult mai realist și a corectat toate micile inexactități:

Imaginea conține fiecare element din schiță în poziția indicată și arată foarte bine. Concluzia principală aici este să folosiți modul de gândire pentru cele mai bune rezultate atunci când transformați schițele brute în imagini fotorealiste.
Testarea creativității
Pentru următorul test, am vrut să vedem dacă poate recrea poezia concretă a lui Niikuni Seiichi.
Această poezie faimoasă prezintă kanji-ul japonez pentru ploaie, înconjurat de ploaie, așa că este ca și cum ai surprinde ploaia în limbaj, după cum o vedem noi.

Iată promptul nostru:
Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.
Și iată rezultatul:

Aceasta, credem noi, este interesantă. Nu a recreat exact imaginea, ci a creat altceva intrigant. În noua compoziție, kanji-ul pentru „ploaie” nu este înconjurat de ploaie, ci coboară ca ploaie. Compoziția simbolurilor pare foarte aleatoare, așa cum te-ai aștepta de la picăturile de ploaie, dar oferă un contrast plăcut față de originalul foarte ordonat.
Cum pot accesa ChatGPT Images 2.0?
Accesul urmează același tipar ca la lansarea anterioară. Păstrează spațiul de lucru creativ dedicat introdus în decembrie — editorul tip canvas, artefactele persistente, presetările de stil — și înlocuiește modelul de dedesubt cu unul semnificativ mai capabil.
- Web, aplicație mobilă și Codex: ChatGPT Images 2.0 este disponibil în fila Images pentru utilizatorii Free, Plus și Pro, cu limite de utilizare care cresc în funcție de nivel. Accesul pentru Business și Enterprise urmează, de obicei, după lansarea inițială.
- API: Dezvoltatorii pot folosi noul model prin OpenAI API și Azure OpenAI Service, prin endpoint-urile de generare și editare de imagini. Ca și la 1.5, ieșirea este tarifată în tokeni, iar regenerarea parțială în timpul editărilor menține costurile mai mici decât regenerarea completă a imaginii de fiecare dată.
ChatGPT Images 2.0 vs. Nano Banana 2
V-ați putea întreba cum se compară ChatGPT Images 2.0 cu Nano Banana 2 . Ambele modele sunt recente, ambele reprezintă experiența implicită în ecosistemele lor și ambele suntpromovate în jurul vitezei, raționamentului și inteligenței ancorate în realitate.
|
ChatGPT Images 2.0 |
Nano Banana 2 |
|
|
Arhitectură de bază |
GPT-Image-2 (succesorul GPT-Image-1.5) |
Gemini 3.1 Flash |
|
Model de editare |
Precizie: selecție pe zone și editare in-place |
Raționament: conversațional și cu mascări inteligente |
|
Flux de lucru |
Spațiu creativ dedicat (fila Images) |
Integrat în chatul Gemini |
|
Iterație |
Eficientă: regenerare parțială |
Rapidă: 4–6 s la 1K, reglabilă prin Thinking Mode |
|
Ancorare în realitate |
Raționament încorporat și cunoștințe la zi |
Image Search Grounding (preia referințe live din Google Search) |
|
Consistență multi-panou |
Puternică pe secvențe și fișe de personaje |
Puternică, cu accent pe consistența subiectului |
|
Text multilingv |
Upgrade major față de 1.5; suport larg pentru scrieri |
Puternic, mai ales în chineză și machete est-asiatice |
|
Rezoluție implicită |
Standard + rapoarte de aspect flexibile |
2K implicit în aplicația Gemini |
|
Ecosistem |
OpenAI & Azure |
Google / stack-ul Gemini, Search, Lens |
Când să folosiți ChatGPT Images 2.0 vs. Nano Banana 2
Folosiți ChatGPT Images 2.0 atunci când…
- Aveți nevoie de un ciclu de editare ghidat de o referință. Modelul acceptă o imagine de referință și aplică modificări țintite (detalii de textură, corecții poziționale, remedieri ale raportului de aspect) pe parcursul mai multor runde, iar continuările în limbaj simplu ghidează în mod fiabil rezultatul fără a o lua de la capăt, economisindu-vă și tokeni
- Transformați intrări brute în materiale finisate. Modul de gândire rezolvă schițele vagi și instrucțiunile spațiale în compoziții corecte, fotorealiste, cu elemente plasate exact așa cum ați intenționat
- Exactitatea factuală în imagine este critică. Ancorarea prin căutare web preia informații live și le redă corect chiar în imagine, ceea ce o face fiabilă pentru afișe de evenimente, infografice de actualitate sau orice vizual unde cifrele și numele trebuie să fie corecte. Nu uitați să folosiți modul de gândire pentru a activa căutarea pe web
Folosiți Nano Banana 2 atunci când…
- Plasați subiecți sau locații reale specifice într-o scenă. Image Search Grounding preia referințe vizuale live din Google, reconstruind cu acuratețe locuri specifice (chiar și după coordonate GPS) și combinându-le cu personaje consistente ca subiect într-o singură generare
- Trebuie să mențineți identitatea între mai multe personaje și obiecte într-un singur flux de lucru. Modelul acceptă explicit până la cinci personaje și paisprezece referințe totale (personaje + obiecte) cu consistență strictă. Acest lucru îl face o alegere solidă pentru storyboard-uri, fotografii de produs sau narațiuni cu mai multe personaje
- Construiți în ecosistemul Google. Nano Banana este integrat nativ în chatul Gemini, Google Search, Google Ads, Firebase și Vertex AI
Ambele sunt opțiuni decente când vine vorba de redarea textului în imagine, plaja stilistică și editarea conversațională.
Concluzii
Încadrarea drept „partener vizual de gândire” se confirmă — dar doar cu modul de gândire activ. Fără el, modelul are dificultăți cu logica spațială și fotorealismul; cu el, transformă intrări ambigue în rezultate care par colaborative, nu mecanice. Două zone în care modelul strălucește chiar și fără modul de gândire sunt autenticitatea stilistică și flexibilitatea raportului de aspect.
Ancorarea prin căutare web pare a fi cel mai mare upgrade față de Images 1.5. În testul cu Maratonul din Boston, am putut vedea clar diferența: 2.0 a nimerit toate faptele, în timp ce 1.5 nu era la zi. Este important de știut că și căutarea web funcționează doar în modul de gândire.
O constatare interesantă a fost că barierele privind drepturile de autor sunt mai stricte și se vede. Dacă doriți să recreați un stil pentru care este cunoscută o anumită companie sau persoană, trebuie să faceți pasul suplimentar de a identifica esența stilului lor și de a o descrie (ceea ce, probabil, este ușor de făcut în zilele noastre).
Per ansamblu, modelul reprezintă un upgrade semnificativ față de predecesorul său și pune sub semnul întrebării statutul Nano Banana 2 ca instrument numărul unu pentru generarea și editarea de imagini cu AI.
Pentru a profita la maximum de astfel de instrumente, abilitatea de a formula prompturi este esențială. Vă recomandăm cu căldură cursurile noastre Understanding Prompt Engineering și Prompt Engineering with the OpenAI API pentru o bază teoretică și practică.