ChatGPT Images 2.0: Un ghid pentru modelul de imagini de nouă generație al OpenAI

Descoperiți cum ChatGPT Images 2.0 duce generarea de imagini într-o nouă eră, cu raționament mai solid în contexte reale, redare multilingvă a textului, realism stilistic și un flux de lucru de tip partener vizual de gândire.

Actualizat 24 apr. 2026 · 14 min. citire

Explorează cu AI

Deschide în ChatGPT Deschide în Claude Deschide în Perplexity

A trecut aproape exact un an de când a fost lansată prima versiune a ChatGPT Images, cu un model numit GPT Image 1. OpenAI și-a reorganizat din nou modelul de imagini, iar compania ne propune acum ideea că „generatorul de imagini” este de fapt un „partener vizual de gândire”.

În acest articol, vom parcurge noutățile, cum se compară cu predecesorul său ChatGPT Images 1.5, cum se compară cu Nano Banana 2 de la Google și unde excelează modelul (și unde nu).

Vă recomandăm să consultați și ghidul nostru despre cel mai nou LLM al OpenAI, GPT-5.5.

Ce este ChatGPT Images 2.0?

ChatGPT Images 2.0 este modelul de imagini de nouă generație al OpenAI. Este prezentat ca ceva care poate raționa, cerceta și apoi reda.

Ce e nou în ChatGPT Images 2.0?

Unul dintre cele mai importante concluzii ale lansării ChatGPT Images 1.5 a fost creșterea majoră a vitezei de performanță. La momentul respectiv, s-a spus că este de 4 ori mai rapid. Am încercat să verificăm afirmația, dar am observat că se aplica editărilor, nu generării de imagini noi.

De data aceasta, marea promisiune este inteligența. ChatGPT Images 2.0 este un model de imagini „gânditor”: ar trebui să caute informații, să raționeze pe baza faptelor și să transforme intrări brute (notițe, schițe, referințe) în vizuale finisate, cu mult mai puține îndrumări manuale.

Alte teme principale din anunț sunt:

Mai multă precizie și control asupra procesului de generare
Performanță mai bună în mai multe limbi și sisteme de scriere
Mai mult rafinament stilistic și realism
Inteligență sporită în contexte reale încorporată în model
Raporturi de aspect flexibile pentru orice, de la mobil la formate de tip banner

Un model care gândește

Una dintre cele mai mari afirmații ale lansării este că noul model „gândește” și acționează ca un „partener vizual de gândire”. Ideea este că agenții fac o parte din muncă în fundal pentru a înțelege bine sarcina și a raționa asupra ei înainte de a executa cererea de generare.

Înțelegerea sa asupra lumii a fost actualizată până la limita din decembrie 2025, astfel încât rezultatele sunt mai precise contextual. Se promovează că acest lucru face ca noul model să fie excelent pentru grafice educaționale și fluxuri de lucru în mai mulți pași care necesită context.

Căutare pe web

Pentru a acoperi golul dintre limita de cunoștințe și informațiile proaspete, actualizate, Images 2.0 poate căuta pe web pentru a găsi informații relevante. Nu este clar din notele de lansare ale OpenAI cum funcționează exact, dar, din câte înțelegem, căutarea pe web servește drept un instrument apelat de agentul „gânditor” menționat mai sus.

Creați mai multe imagini dintr-un singur prompt

Noul model acceptă nativ generarea mai multor imagini din aceleași prompturi. Acest lucru era posibil printr-un ocol în API (solicitând o „compoziție”), dar acum se poate face și în interfața UI, pentru până la zece imagini. OpenAI promite continuitate a personajelor și obiectelor în toate aceste rezultate.

Testarea ChatGPT Images 2.0

Este momentul să vedem ce poate face de fapt noul model! Am testat următoarele capabilități și funcții ale Images 2.0:

Fluxul de lucru pentru editare
Modul de gândire și căutarea pe web
Plaja stilistică
Finisarea schițelor brute
Flexibilitatea raportului de aspect
Creativitatea

Testarea fluxului de lucru pentru editare

Propunerea OpenAI pentru 2.0 se bazează pe iterație: intrare brută, ieșire finisată, cu îmbunătățiri în urmarea instrucțiunilor și redarea textului dens. Am testat acest ciclu folosind o celebră marcă poștală din SUA din 1898 numită Western Cattle in Storm.

Iată o fotografie a uneia dintre mărci, în stare „Fine”.

Pentru a testa specific fluxul de editare, am folosit următorul prompt fără modul de gândire. Asta înseamnă și că modelul nu are acces la căutări pe web, pe care le-am testat separat.

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

Și iată rezultatul:

Promptul doar cu text nu a funcționat. O descriere detaliată a mărcii și a gradului ei de conservare a ieșit greșită în majoritatea aspectelor importante — culoare greșită, așezare greșită a denominației, centrare caricaturală. Reproducerea unui artefact istoric specific doar din text este o sarcină dificilă.

Furnizarea imaginii de referință modelului și solicitarea unor editări țintite este locul în care 2.0 și-a dovedit utilitatea: neregularități ale perforațiilor, o urmă de balama (hinge) pe gumă, o cută diagonală a gumei, ușoară îngălbenire și o obliterare parțială.

Editările au ajuns aproximativ acolo unde am cerut. Modelul a introdus o regresie a raportului de aspect, dar o singură revenire în limbaj natural a remediat-o. Rezultatul final nu este de nivel forensc — „$1” pare ușor alungit, porumbul e diferit — dar ciclul a funcționat: început greoi, corectare a direcției, rezultat utilizabil în trei pași.

Testarea redării textului multilingv

Redarea textului în scrieri non-latine a fost un punct slab persistent al modelelor de imagini, iar OpenAI menționează acest aspect ca o rezolvare majoră. Lansarea specifică generarea de text cu fidelitate ridicată în japoneză, coreeană, chineză, hindi și bengaleză — nu doar traduse, ci redate cu un aranjament coerent și o tipografie care se simte nativă.

Un test corect aici este să cereți un poster sau un infografic cu un bloc de text într-una dintre aceste scrieri și să verificați rezultatul cu un vorbitor nativ. Am cerut modelului să creeze un poster japonez modern de lifestyle care promovează o cafenea locală fictivă și latte-ul lor sezonier cu flori de cireș.

「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体（sans-serif）。

テキスト内容：
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』

テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」

Așa arată rezultatul:

Potrivit colegului nostru vorbitor de japoneză (mulțumiri lui Sven!), pare într-adevăr mult mai bun decât în modelele anterioare, când multe caractere erau distorsionate. Acesta se simte mai natural și poate fi citit cu ușurință de vorbitorii nativi.

În modul de gândire, a adăugat chiar și mai multe propoziții dincolo de instrucțiunile promptului pe mica tablă din colțul din stânga jos. Se potrivesc bine contextului, fără a fi repetitive, traducându-se aproximativ prin „Aromă sezonieră, delicată. Faceți o pauză relaxantă — bucurați-vă de o ceașcă ce aduce primăvara.”

Testarea modului de gândire și a căutării pe web

A trebuit să fim puțin atenți la modul în care am testat capabilitățile de căutare pe web, pentru că, dacă îi spuneți modelului ce doriți în prompt, nu testați căutarea, ci urmarea instrucțiunilor. Cel mai curat test este să cereți ceva foarte recent și foarte specific, să oferiți modelului aproape nicio informație și să vedeți dacă poate completa corect golurile.

Am ales Maratonul din Boston de ieri. Cursa s-a încheiat luni, 20 aprilie — cu o zi înainte de anunțul ChatGPT Images 2.0 — iar recordul masculin pe traseu a fost doborât pentru prima dată din 2011. Asta ne oferă un set concret de fapte (câștigător, țară, timp, marjă, context) pe care modelul nu le poate avea din antrenament, dar care sunt ușor de verificat printr-o căutare rapidă.

Iată promptul, deliberat lipsit de detalii. Și se vede în rezultat că modelul chiar caută pe web!

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Rezultatul arată foarte atrăgător vizual și păstrează paleta de culori a Maratonului din Boston, ceea ce este un bonus plăcut. Toate faptele menționate sunt corecte, lucru pe care l-am verificat în dublu exemplar.

Deoarece vechiul model (Images 1.5) nu putea căuta pe web, eram siguri că vechiul model va da un răspuns greșit. Totuși, l-am testat folosind același prompt, iar acesta este rezultatul:

Ca stil, poate concura, dar apar destul de multe probleme legate de cifre aici:

Cursa a marcat cea de-a 130-a ediție a Maratonului din Boston, deci ar trebui să scrie „129 de ani de tradiție”, nu 127.
Afirmația că este „al 3-lea alergător din istorie care coboară sub 2:04 într-un maraton” este de asemenea falsă. Aproximativ 20 de alergători au reușit acest lucru.
Conform site-ului Boston Athletic Association, timpul pe a doua jumătate a fost 1:00:02, nu 1:01:05 (care ar fi putut totuși să fie cel mai rapid negative split de a doua jumătate vreodată)
Cel mai important, ChatGPT Images a confundat timpii noului și vechiului record. Vechiul record a fost 2:03:02; noul record este 2:01:52. Diferența este de 1:10 minute. De asemenea, 2:03:02 nu era timpul corect.

Capabilitățile de căutare fac diferența atunci când vine vorba de prezentarea vizuală a informațiilor actuale. Pentru a le folosi, modul de gândire trebuie să fie activ.

Testarea plajei stilistice

OpenAI susține câștiguri reale în rafinamentul stilistic — în fotografie, ilustrație, manga, pixel art și alte stiluri vizuale. Testul onest nu este dacă o singură imagine arată bine, ci dacă același subiect redat în trei stiluri diferite se percepe ca autentic pentru fiecare gen sau dacă totul are același luciu „de AI” dedesubt.

Pentru a testa, am cerut trei versiuni diferite ale unei mașini de espresso pe un banc de lucru din lemn (fotografie, manga, pixel art). Iată prompturile și rezultatele:

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Acesta a fost un rezultat interesant și destul de ironic, dacă ne gândim că Image 1 a devenit faimos pentru montaje în stil Studio Ghibli pe care toată lumea le făcea acum un an (inclusiv noi). Se pare că OpenAI a devenit ceva mai precaut în privința drepturilor de autor și a proprietății intelectuale.

Descriind stilul lui Katsuhiro Otomo fără a-l menționa explicit, a funcționat. De remarcat că a trebuit să deschidem un chat nou pentru ca solicitarea să funcționeze. În același chat ca promptul inițial, se pare că modelul își dădea seama că încercăm să ocolim blocarea.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

În opinia noastră, toate cele trei imagini arată excelent și întruchipează autentic stilurile foarte specifice pe care le-am cerut. Fotografia arată foarte natural, iar celelalte două versiuni ar putea fi extrase direct dintr-o carte manga sau dintr-un joc SNES, respectiv.

Un alt lucru care sare în ochi în testul de mai sus este modul în care modelul și-a folosit capabilitățile flexibile de raport de aspect pentru a le potrivi fiecărei imagini: un format 16:9 landscape pentru fotografie, un raport portret pentru versiunea manga și o imagine pătrată pentru pixel art.

Testarea raporturilor de aspect flexibile

Lansarea acceptă rapoarte de aspect de la 3:1 la 1:3 și rezoluții de până la 2K. Întrebarea interesantă nu este dacă poate produce o imagine înaltă sau lată — ci dacă modelul recompune inteligent între formate sau doar decupează.

Pentru a expune logica spațială de bază a modelului, avem nevoie de o scenă cu elemente distincte, nenegociabile, pe mai multe axe (ceva înalt, ceva lat și un subiect central).

Ca test, am generat subiectul nostru (un astronaut într-un decor specific) plecând de la un prompt de bază, apoi am cerut modelului să-l recreeze ca fundal pentru mobil, ca banner și ca pătrat, pentru a vedea cum se adaptează compoziția.

Promptul de bază:

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Să vedem cum se schimbă:

Recreate the original image as a banner

Recreate the original image as a mobile wallpaper

Recreate the original image as a square

Fiecare versiune a ales un raport de aspect potrivit cererii, include toate elementele importante (astronaut, rover, planetă), le aranjează așa cum am cerut în promptul original și se asigură că sunt centrate. Test reușit.

Testarea conversiei de la intrări brute la rezultate finisate

Încadrarea ca „partener de gândire” se bazează pe faptul că modelul acceptă intrări vagi sau dezordonate — o schiță brută, un set de puncte, câteva referințe — și le transformă într-un material finalizat. Acesta este ciclul pe care se bazează cu adevărat lansarea și cel care merită testat cel mai direct.

Pentru a-l testa, am încărcat următoarea schiță foarte rudimentară în creion a unei cabane lângă lac:

Pentru a o face mai dificilă, conține destul de multe detalii, folosește cuvântul finlandez pentru ponton, „laituri”, și poate genera confuzie deoarece includedouă tipuri de clădiri (casă și cabană) și două tipuri de suprafețe de apă (lac și iaz)

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Rezultatul în modul fără gândire arată decent, dar nu foarte fotorealist. Totuși, iluminarea se potrivește bine, iar imaginea surprinde perfect vibrația promptului. Putem vedea aproape toate elementele din schiță. Câteva detalii sunt greșite:

Barca lipsește
Pontonul este pe iaz, nu pe lac
Poziția soarelui nu este în colțul din dreapta sus.

Când am încercat același prompt cu aceeași imagine a schiței în modul de gândire, rezultatul a părut mult mai realist și a corectat toate micile inexactități:

Imaginea conține fiecare element din schiță în poziția sa desemnată și arată foarte îngrijit. Principala concluzie aici este să folosiți modul de gândire pentru cele mai bune rezultate atunci când transformați schițe brute în imagini fotorealiste.

Testarea creativității

Pentru următorul test, am vrut să vedem dacă poate recrea poezia concretă a lui Niikuni Seiichi.

Această poezie celebră arată kanji-ul japonez pentru ploaie, înconjurat de ploaie, deci este ca și cum ai surprinde ploaia în limbaj, din punctul nostru de vedere.

Iată promptul nostru:

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

Și iată rezultatul:

Acesta, credem noi, este interesant. Nu areprodus imaginea exact, ci a creat altceva intrigant. În noua compoziție, kanji-ul pentru „ploaie” nu este înconjurat de ploaie, ci cade ca ploaie. Compoziția simbolurilor pare foarte aleatoare, așa cum te-ai aștepta de la picăturile de ploaie, dar creează un contrast plăcut cu originalul foarte ordonat.

Cum pot accesa ChatGPT Images 2.0?

Accesul urmează același tipar ca lansarea anterioară. Păstrează spațiul de lucru creativ dedicat introdus în decembrie — editorul tip canvas, artefactele persistente, presetările de stil — și înlocuiește dedesubt cu un model semnificativ mai capabil.

Web, aplicație mobilă și Codex: ChatGPT Images 2.0 este disponibil în fila Images pentru utilizatorii Free, Plus și Pro, cu limite de utilizare care cresc în funcție de nivel. Accesul pentru Business și Enterprise urmează de obicei după rularea inițială.
API: Dezvoltatorii pot folosi noul model prin OpenAI API și Azure OpenAI Service, prin endpoint-urile de generare și editare a imaginilor. Ca și la 1.5, ieșirea imaginii este tarifată în tokeni, iar regenerarea parțială în timpul editărilor menține costurile mai mici decât regenerarea completă de fiecare dată.

ChatGPT Images 2.0 vs. Nano Banana 2

V-ați putea întreba cum se compară ChatGPT Images 2.0 cu modelul Nano Banana 2. Ambele modele sunt recente, ambele reprezintă experiența implicită în ecosistemele lor și ambele sunt promovate în jurul vitezei, raționamentului și inteligenței în context real.

	ChatGPT Images 2.0	Nano Banana 2
Arhitectură de bază	GPT-Image-2 (succesorul lui GPT-Image-1.5)	Gemini 3.1 Flash
Model de editare	Precizie: selecție pe zonă și editare in-place	Raționament: conversațional și mascări inteligente
Flux de lucru	Spațiu de lucru creativ dedicat (fila Images)	Integrat în chatul Gemini
Iterație	Eficientă: regenerare parțială	Rapidă: 4–6 s la 1K, ajustabilă prin Thinking Mode
Ancorare în realitate	Raționament încorporat și cunoștințe actualizate	Image Search Grounding (preia referințe live din Google Search)
Consecvență pe mai multe panouri	Puternică pe secvențe și foi de personaje	Puternică, cu accent pe consistența subiectului
Text multilingv	Actualizare majoră față de 1.5; suport larg pentru sisteme de scriere	Puternic, mai ales în chineza și machetele est-asiatice
Rezoluție implicită	Standard + rapoarte de aspect flexibile	2K implicit în aplicația Gemini
Ecosistem	OpenAI & Azure	Stack Google / Gemini, Search, Lens

Când să folosiți ChatGPT Images 2.0 vs. Nano Banana 2

Folosiți ChatGPT Images 2.0 când…

Aveți nevoie de un ciclu de editare ghidat de o referință. Modelul acceptă o imagine de referință și aplică modificări țintite (detalii de textură, corecții de poziționare, remedieri ale raportului de aspect) pe parcursul mai multor pași, cu reveniri în limbaj natural care orientează fiabil ieșirea fără a o lua de la capăt, ceea ce vă economisește și tokeni
Transformați intrări brute în materiale finisate. Modul de gândire rezolvă schițe vagi și instrucțiuni spațiale în compoziții precise, fotorealiste, cu elemente plasate exact conform intenției
Acuratețea factuală în interiorul imaginii este critică. Ancorarea prin căutare web extrage informații live și le redă corect chiar în imagine, făcând-o fiabilă pentru postere de evenimente, infografice de actualitate sau orice vizual în care cifrele și numele trebuie să fie corecte. Nu uitați să folosiți modul de gândire pentru a activa căutarea web

Folosiți Nano Banana 2 când…

Plasați subiecți sau locații reale specifice într-o scenă. Image Search Grounding preia referințe vizuale live din Google, reconstruind cu acuratețe locuri specifice (chiar și după coordonate GPS) și combinându-le cu personaje consecvente într-o singură generare
Trebuie să mențineți identitatea pe mai multe personaje și obiecte într-un singur flux de lucru. Modelul acceptă explicit până la cinci personaje și paisprezece referințe totale (personaje + obiecte) cu consistență strictă. Acest lucru îl face o alegere puternică pentru storyboard-uri, fotografii de produs sau narațiuni cu mai multe personaje
Construiți în ecosistemul Google. Nano Banana este integrat nativ în chatul Gemini, Google Search, Google Ads, Firebase și Vertex AI

Ambele sunt alegeri decente când vine vorba de redarea textului în imagine, plaja stilistică și editarea conversațională.

Concluzii finale

Încadrarea ca „partener vizual de gândire” se susține — dar doar cu modul de gândire activat. Fără el, modelul se luptă cu logica spațială și fotorealismul; cu el, transformă intrări ambigue în rezultate care se simt colaborative, nu mecanice. Două zone în care modelul excelează chiar și fără modul de gândire sunt autenticitatea stilistică și flexibilitatea raportului de aspect.

Ancorarea prin căutare web pare a fi cel mai mare upgrade față de Images 1.5. În testul Maratonului din Boston, am putut vedea clar acest decalaj: 2.0 a avut toate faptele corecte, în timp ce 1.5 nu era la zi. Este important de știut că căutarea pe web funcționează doar și ea în modul de gândire.

O constatare interesantă a fost că parapeții de copyright sunt mai stricți și se vede. Dacă doriți să recreați un stil pentru care o anumită companie sau persoană este recunoscută, trebuie să faceți pasul suplimentar de a identifica esența stilului lor și de a o descrie (ceea ce, probabil, este ușor de făcut în prezent).

Per ansamblu, modelul reprezintă un upgrade semnificativ față de predecesorul său și contestă statutul lui Nano Banana 2 de instrument numărul unu în generarea și editarea de imagini cu AI.

Pentru a profita la maximum de astfel de instrumente, cunoașterea artei prompturilor este o abilitate esențială. Vă recomandăm cu tărie să parcurgeți cursurile noastre Understanding Prompt Engineering și Prompt Engineering with the OpenAI API pentru o fundamentare teoretică și practică.

Subiecte

ChatGPT

Învățați cu DataCamp

course

Înțelegerea Prompt Engineering

1 oră

211.5K

Învață să scrii prompturi eficiente cu ChatGPT, pentru a le aplica azi în fluxul tău de lucru.

Vezi detalii

Începeți Cursul

course

ChatGPT intermediar

1 oră

30.4K

Învață arhitectura din spatele modelelor GPT și stăpânește crearea avansată de prompturi pentru a debloca întregul potențial al ChatGPT.

Vezi detalii

Începeți Cursul

course

Curățarea datelor cu AI generativ

1 oră

13.7K

Folosește AI generativ pentru a aborda curățarea datelor, corectarea duplicatelor, valorilor null și formatării pentru seturi de date consecvente și precise.

Vezi detalii

Începeți Cursul

Vezi mai mult

Ce este ChatGPT Images 2.0?

Ce e nou în ChatGPT Images 2.0?

Un model care gândește

Căutare pe web

Creați mai multe imagini dintr-un singur prompt

Testarea ChatGPT Images 2.0

Testarea fluxului de lucru pentru editare

Testarea redării textului multilingv

Testarea modului de gândire și a căutării pe web

Testarea plajei stilistice

Testarea raporturilor de aspect flexibile

Testarea conversiei de la intrări brute la rezultate finisate

Testarea creativității

Cum pot accesa ChatGPT Images 2.0?

ChatGPT Images 2.0 vs. Nano Banana 2

Când să folosiți ChatGPT Images 2.0 vs. Nano Banana 2

Concluzii finale

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Înțelegerea Prompt Engineering

ChatGPT intermediar

Curățarea datelor cu AI generativ

Înțelegerea Prompt Engineering