Vai al contenuto principale

ChatGPT Images 2.0: Guida al modello di immagini di nuova generazione di OpenAI

Scopri come ChatGPT Images 2.0 porta la generazione di immagini in una nuova era con un ragionamento più aderente al mondo reale, rendering multilingue del testo, realismo stilistico e un flusso di lavoro da partner di pensiero visivo.
Aggiornato 22 apr 2026  · 14 min leggi

È passato quasi esattamente un anno dal giorno in cui è stato rilascialo il primo ChatGPT Images con un modello chiamato GPT Image 1. OpenAI ha rinnovato di nuovo il suo modello di immagini e ora propone la nuova idea che il "generatore di immagini" sia diventato un "partner di pensiero visivo".

In questo articolo vedremo cosa c'è di nuovo, come si confronta con il suo predecessore ChatGPT Images 1.5, come si confronta con Nano Banana 2 di Google e dove il modello eccelle (e dove no).

Che cos'è ChatGPT Images 2.0?

ChatGPT Images 2.0 è il modello di immagini di nuova generazione di OpenAI. Viene presentato come qualcosa che sa ragionare, fare ricerca e poi renderizzare.

Cosa c’è di nuovo in ChatGPT Images 2.0?

Uno dei principali spunti dall'uscita di ChatGPT Images 1.5 era un grande aumento della velocità di prestazioni. All'epoca si parlava di un 4x più veloce. Abbiamo provato a verificare l'affermazione ma abbiamo visto che si applicava alle modifiche, non alla generazione di nuove immagini. 

Questa volta, la grande promessa è l'intelligenza. ChatGPT Images 2.0 è un modello di immagini che "pensa": dovrebbe cercare, ragionare sui fatti e tradurre input grezzi (note, schizzi, riferimenti) in visual curati con molto meno prompting manuale.

Altri temi di rilievo dell'annuncio sono:

  • Maggiore precisione e controllo sulla generazione stessa
  • Prestazioni più robuste tra lingue e sistemi di scrittura
  • Maggiore raffinatezza stilistica e realismo
  • Intelligenza sul mondo reale potenziata integrata nel modello
  • Rapporti d'aspetto flessibili per tutto, dai formati mobile ai banner

Un modello che pensa

Una delle affermazioni più importanti è che il nuovo modello “pensa” e si comporta come un “partner di pensiero visivo”. L'idea è che agenti svolgano del lavoro dietro le quinte per comprendere a fondo il compito e ragionarci sopra prima di eseguire la richiesta di generazione.

La sua comprensione del mondo è stata aggiornata con cutoff a dicembre 2025, quindi gli output sono più accurati nel contesto. Questo dovrebbe rendere il nuovo modello ottimo per grafica educativa e flussi di lavoro multi-step che richiedono contesto.

Cerca sul web

Per colmare il divario tra il cutoff e le informazioni aggiornate, Images 2.0 può cercare sul web per trovare dati pertinenti. Non è chiaro dalle note di rilascio di OpenAI come funzioni esattamente, ma per come lo capiamo noi, la ricerca sul web è uno strumento richiamato dall'agente pensante menzionato sopra.

Crea più immagini da un solo prompt

Il nuovo modello supporta nativamente la generazione di più immagini dallo stesso prompt. Era possibile con un workaround nell'API (chiedendo una “composizione”), ma ora si può fare anche nell'interfaccia, fino a dieci immagini. OpenAI promette continuità di personaggi e oggetti in tutti questi output.

Testare ChatGPT Images 2.0

Vediamo cosa sa fare davvero il nuovo modello! Abbiamo testato le seguenti funzionalità e capacità di Images 2.0:

  • Flusso di lavoro di modifica
  • Modalità di pensiero e ricerca sul web
  • Gamma stilistica
  • Rifinitura di schizzi grezzi
  • Flessibilità del rapporto d'aspetto
  • Creatività

Test del flusso di lavoro di modifica

La proposta di OpenAI per la 2.0 punta sull'iterazione: input grezzo in entrata, asset rifinito in uscita, con miglioramenti nel seguire le istruzioni e nel rendering di testo denso. Abbiamo testato questo ciclo usando un famoso francobollo statunitense del 1898 chiamato Western Cattle in Storm.

Ecco una foto di uno dei francobolli in condizioni Fine. 

Francobollo del 1898 Western Cattle in Storm in condizioni fine

Per testare specificamente il flusso di lavoro di editing, abbiamo usato il seguente prompt senza modalità di pensiero. Questo significa anche che il modello non ha accesso alle ricerche web, che abbiamo testato a parte.

Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

Ed ecco il risultato: 

Prompt: Please create for me a picture of the famous 1898 Western Cattle in Storm stamp issued by the U.S. Post Office as part of the Trans-Mississippi Issue . The name of the stamp is "Western Cattle in Storm" Quality should be Fine to Very Fine -Centering: design shifted right, left margin twice as wide as right margin, perfs nearly touching design on the right side -Perforations: two short teeth on the top edge, slightly uneven spacing along the bottom -Gum: quarter-inch matte hinge remnant in upper-center of back, small paper fragment still -attached -Paper: diagonal gum bend across lower-left quadrant, light yellow toning along top edge -Cancellation: partial black circular datestamp in lower-right corner, moderate coverage over the cattle

Il prompting solo testuale non ha funzionato. Una descrizione dettagliata del francobollo e del suo grado di conservazione è risultata sbagliata nella maggior parte degli aspetti che contano — colore errato, disposizione della denominazione errata, centratura caricaturale. Riprodurre un manufatto storico specifico partendo solo dal testo è una richiesta ardua.

Fornire al modello l'immagine di riferimento e chiedere modifiche mirate è dove la 2.0 si è fatta valere: irregolarità nelle perforazioni, residuo di cerniera, piega diagonale della gomma, leggero ingiallimento e un annullo parziale. 

Le modifiche sono arrivate grosso modo dove richiesto. Il modello ha introdotto una regressione nel rapporto d'aspetto, ma un semplice follow-up in linguaggio naturale l'ha corretta. Il risultato finale non è da analisi forense — il "$1" sembra leggermente stirato, il mais è diverso — ma il ciclo ha funzionato: inizio incerto, correzione di rotta, risultato utilizzabile in tre turni.

Versione modificata del francobollo

Test del rendering di testo multilingue

Il rendering del testo in sistemi di scrittura non latini è stato a lungo un punto debole nei modelli di immagini, e OpenAI lo segnala come una correzione di rilievo. Il rilascio specifica una generazione di testo ad alta fedeltà in giapponese, coreano, cinese, hindi e bengalese — non solo tradotta, ma resa con layout coerente e tipografia dal feeling nativo. 

Un test equo qui è chiedere un poster o un'infografica con un blocco di testo in uno di questi sistemi e verificare l'output con un madrelingua. Abbiamo chiesto al modello di creare un poster lifestyle giapponese moderno che pubblicizza una fittizia caffetteria locale e il loro latte ai fiori di ciliegio stagionale.

「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。

テキスト内容:
『桜フェア開催中。
心休まる場所で、
春の訪れを。
さくらラテ 650円』

テキストの下には、小さな文字で『HAVE A GOOD DAY』という英語のサブタイトルがあり、一番下にはロゴマークと『CAFE YUTORI』というローマ字の店名がある。全体的に暖かく、洗練されたレイアウト。」

Questo è l'aspetto dell'output:

Prompt: 「居心地の良い日本のカフェの窓辺を描いた、モダンなグラフィックデザインスタイルのライフスタイルポスター。大きな窓から差し込む自然な光と、小さな観葉植物。ポスターの中央には、以下の日本語テキストが大きく、はっきりと読みやすく配置されている。フォントは現代的でクリーンなゴシック体(sans-serif)。  Testo: 『桜フェア開催中。 心休まる場所で、 春の訪れを。 さくらラテ 650円』  Sotto il testo, in caratteri piccoli, c’è il sottotitolo in inglese ‘HAVE A GOOD DAY’, e in basso il logo e il nome del locale in caratteri latini ‘CAFE YUTORI’. Impianto caldo ed elegante.

Secondo un nostro collega giapponofono (grazie Sven!), è molto meglio rispetto ai modelli precedenti, quando molti caratteri risultavano incomprensibili. Questo risulta più naturale e si legge facilmente per i madrelingua.

In modalità di pensiero, ha persino aggiunto altre frasi oltre alle istruzioni del prompt sul piccolo cartello lavagna in basso a sinistra. Si adattano bene al contesto senza essere ripetitive, traducendosi in qualcosa come “Sapore stagionale, delicato. Concediti una pausa rilassante: gusta una tazza che porta con sé la primavera.”

Test della modalità di pensiero e della ricerca sul web

Abbiamo dovuto fare un po' di attenzione su come testare le funzionalità di ricerca sul web, perché se dici al modello cosa vuoi nel prompt, non stai testando la ricerca ma la capacità di seguire le istruzioni. Il test più pulito è chiedere qualcosa di molto recente e molto specifico, dare al modello quasi nessuna informazione e vedere se riesce a colmare correttamente le lacune.

Abbiamo scelto la Boston Marathon di ieri. La gara si è conclusa lunedì 20 aprile — il giorno prima dell'annuncio di ChatGPT Images 2.0 — e il record del percorso maschile è stato battuto per la prima volta dal 2011. Questo ci fornisce un insieme concreto di fatti (vincitore, paese, tempo, margine, contesto) che il modello non può avere dall'addestramento, ma che sono facili da verificare con una rapida ricerca.

Ecco il prompt, volutamente privo di dettagli. E dal risultato si vede che il modello cerca sul web!

Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Prompt: Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful.

Il risultato è molto gradevole visivamente ed è nei colori del Boston Marathon, un tocco in più. Tutti i fatti menzionati sono corretti, come abbiamo verificato doppiamente.

È ancora più impressionante se lo confronti con l'output del vecchio modello (Images 1.5) o del nuovo senza modalità di pensiero, con lo stesso prompt:

Prompt: Create a celebratory poster-style infographic commemorating the course record set at yesterday's Boston Marathon. Include the winner's name, country, finish time, and the margin by which the previous record was broken. Include one or two additional stats or context details that make the achievement meaningful. (Risultato senza modalità di pensiero)

A livello di stile, regge il confronto, ma qui ci sono parecchi problemi legati ai numeri.

  • La corsa segnava la 130esima edizione della Boston Marathon, quindi dovrebbe dire “129 anni di tradizione”, non 127.
  • È falso anche che sia il “3º corridore nella storia a scendere sotto le 2:04 in maratona”. Circa 20 corridori lo hanno fatto.
  • Secondo il sito della Boston Athletic Association, il suo tempo nella seconda metà è stato 1:00:02, non 1:01:05 (che potrebbe comunque essere stato il parziale più veloce di sempre)
  • Soprattutto, ChatGPT Images ha confuso i tempi del nuovo e del vecchio record. Il vecchio record era 2:03:02; il nuovo è 2:01:52. La differenza è 1:10 minuti.
  • Dato che John Korir ha vinto anche la Boston Marathon dell'anno scorso, sembra ragionevole supporre che non avrebbe azzeccato il nome se ci fosse stato un vincitore diverso

Le capacità di ricerca fanno la differenza quando si tratta di presentare visivamente informazioni aggiornate. Per usarle, la modalità di pensiero deve essere attiva.

Test della gamma stilistica

OpenAI promette veri progressi nella raffinatezza stilistica — tra fotografia, illustrazione, manga, pixel art e altri stili visivi. Il test onesto non è se una singola immagine sembra bella, ma se lo stesso soggetto reso in tre stili diversi risulta autentico per ciascun genere, o se tutto torna con la stessa patina da IA sotto la superficie.

Per provarlo, abbiamo chiesto tre versioni diverse di una macchina per espresso su un banco di lavoro in legno (fotografia, manga, pixel art). Ecco i prompt e i risultati:

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 35mm street photography, gritty, natural window lighting, Kodak Portra 400, shallow depth of field.

Macchina per espresso vintage (fotografia)

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, Katsuhiro Otomo style.

Rifiuto per richiesta legata al copyright

Questo è stato un risultato interessante, e piuttosto ironico, se si considera che Image 1 è diventato famoso per i montaggi in stile Studio Ghibli che tutti facevano un anno fa (noi compresi). Sembra che da allora OpenAI sia diventata un po' più prudente su copyright e IP.

Descrivendo lo stile di Katsuhiro Otomo senza menzionarlo esplicitamente, ha funzionato. Da notare che abbiamo dovuto aprire una nuova chat perché funzionasse. Nella stessa chat del prompt originale, il modello sembrava rendersi conto che stavamo cercando di aggirare il blocco.

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 1990s Japanese manga, black and white ink drawing, screentone shading, bold linework, hyper-detailed mechanical illustration, dramatic high contrast, retro-cyberpunk aesthetic.

Macchina per espresso vintage (anime bianco e nero)

A battered, vintage espresso machine sitting on a wooden workbench next to a potted fern. Style: 16-bit pixel art, isometric perspective, crisp edges, limited SNES color palette.

Macchina per espresso vintage (pixel art)

A nostro avviso, tutte e tre le immagini sono ottime e incarnano in modo autentico gli stili molto specifici richiesti. La fotografia appare molto naturale e le altre due versioni potrebbero essere prese direttamente da un manga o da un videogioco SNES, rispettivamente.

Un altro aspetto evidente nel test sopra è come il modello abbia sfruttato le capacità di rapporto d'aspetto flessibile per adattarle a ciascuna immagine: un 16:9 orizzontale per la fotografia, un rapporto verticale per la versione manga e un'immagine quadrata per la pixel art.

Test dei rapporti d'aspetto flessibili

Il rilascio supporta rapporti d'aspetto da 3:1 a 1:3 e risoluzioni fino a 2K. La domanda interessante non è se può produrre un'immagine alta o larga — ma se il modello ricompone intelligentemente tra formati o si limita a ritagliare.

Per esporre la logica spaziale sottostante del modello, serve una scena con elementi distinti e imprescindibili su più assi (qualcosa di alto, qualcosa di largo e un soggetto centrale).

Come test, abbiamo generato il soggetto (un astronauta in un'ambientazione specifica) da un prompt base, poi abbiamo chiesto al modello di ricrearlo come sfondo per cellulare, come banner e come quadrato per vedere come si adatta la composizione.

Il prompt base:

A lone astronaut standing on a rocky, desolate hill. To the far left, a massive, blocky futuristic rover is parked. In the sky directly above the astronaut, a gigantic, luminous ringed planet dominates the starry backdrop.

Prompt: Un astronauta solitario in piedi su una collina rocciosa e desolata. All’estrema sinistra, è parcheggiato un rover futuristico massiccio e squadrato. Nel cielo direttamente sopra l’astronauta, un gigantesco pianeta luminoso con anelli domina lo sfondo stellato.

Vediamo come cambia:

Recreate the original image as a banner

Ricrea l'immagine originale come banner

Recreate the original image as a mobile wallpaper

Ricrea l'immagine originale come sfondo per cellulare

Recreate the original image as a square

Ricrea l'immagine originale in formato quadrato

Ciascuna versione ha scelto un rapporto d'aspetto adatto alla richiesta, include tutti gli elementi importanti (astronauta, rover, pianeta), li dispone come richiesto nel prompt originale e si assicura che siano centrati. Test superato.

Dallo schizzo grezzo al risultato rifinito

L'impostazione da partner di pensiero si basa sul fatto che il modello accetti input vaghi o disordinati — uno schizzo grezzo, un elenco puntato, pochi riferimenti — e li trasformi in un asset finito. È questo il ciclo su cui si basa davvero il rilascio, ed è quello che vale la pena testare più direttamente.

Per testarlo, abbiamo caricato il seguente schizzo a matita molto grezzo di una baita vicino al lago:

Schizzo a matita

Per renderlo più difficile, contiene diversi dettagli, usa la parola finlandese per molo, “laituri”, e offre potenziale di confusione perché contienedue tipi di edifici (casa e baita) e due superfici d'acqua (lago e stagno)

Turn this crude layout into a photorealistic, cinematic landscape of a modern cabin at sunset. Keep elements where I mapped them out. The cabin includes a sauna with smoke coming out of the chimney.

Prompt: Trasforma questo layout grezzo in un paesaggio cinematografico fotorealistico di una baita moderna al tramonto. Mantieni gli elementi dove li ho posizionati. La baita include una sauna con fumo che esce dal camino.

Il risultato senza modalità di pensiero è discreto, ma non molto fotorealistico. Tuttavia, l'illuminazione è ben riuscita e l'immagine cattura perfettamente l'atmosfera del prompt. Possiamo vedere quasi tutti gli elementi dello schizzo. Alcuni dettagli sono fuori posto:

  • Manca la barca
  • Il molo è sullo stagno, non sul lago
  • La posizione del sole non è nell'angolo in alto a destra.

Quando abbiamo provato lo stesso prompt con la stessa immagine dello schizzo in modalità di pensiero, l'output è apparso molto più realistico e ha corretto tutte le piccole imprecisioni:

Prompt: Trasforma questo layout grezzo in un paesaggio cinematografico fotorealistico di una baita moderna al tramonto. Mantieni gli elementi dove li ho posizionati. La baita include una sauna con fumo che esce dal camino.

L'immagine contiene ogni elemento dello schizzo nella sua posizione designata e appare molto pulita. La lezione principale qui è usare la modalità di pensiero per ottenere i risultati migliori quando si trasformano schizzi grezzi in immagini fotorealistiche.

Test di creatività

Per il test successivo, volevamo vedere se riusciva a ricreare la poesia concreta di Niikuni Seiichi

Questa famosa poesia mostra il kanji giapponese per pioggia, circondato dalla pioggia, quindi è come catturare la pioggia nel linguaggio, per come la vediamo noi.

poesia concreta di Niikuni Seiichi

Ecco il nostro prompt:

Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

E questo è l'output:

Prompt: Please recreate the concrete poetry of Niikuni Seiichi. I want to see "Ame" meaning Rain. But make it different using your creativity.

Questo, secondo noi, è interessante. Non ha ricreato esattamente l'immagine, ma ha creato qualcos'altro di intrigante. Nella nuova composizione, il kanji di “pioggia” non è circondato dalla pioggia, ma scende come pioggia. La composizione dei simboli sembra molto casuale, proprio come ci si aspetterebbe per le gocce di pioggia, ma crea un bel contrasto con l'originale molto ordinato.

Come posso accedere a ChatGPT Images 2.0?

L'accesso segue lo stesso schema del rilascio precedente. Mantiene lo spazio di lavoro creativo dedicato introdotto a dicembre — l'editor in stile canvas, gli artifact persistenti, i preset di stile — e sostituisce il modello sottostante con uno significativamente più capace.

  • Web, app mobile e Codex: ChatGPT Images 2.0 è disponibile nella scheda Images per gli utenti Free, Plus e Pro, con limiti d'uso che scalano per livello. L'accesso Business ed Enterprise in genere segue dopo il rollout iniziale.
  • API: Gli sviluppatori possono usare il nuovo modello tramite l'OpenAI API e Azure OpenAI Service, tramite gli endpoint di generazione e modifica immagini. Come per la 1.5, l'output è prezzato in token e la rigenerazione parziale durante le modifiche mantiene i costi più bassi rispetto a rigenerare ogni volta un'immagine completa.

ChatGPT Images 2.0 vs. Nano Banana 2

Potresti chiederti come si posizioni ChatGPT Images 2.0 rispetto a Nano Banana 2. Entrambi i modelli sono recenti, entrambi sono l'esperienza predefinita nei rispettivi ecosistemi ed entrambi sono presentati all'insegna di velocità, ragionamento e intelligenza sul mondo reale.

 

ChatGPT Images 2.0

Nano Banana 2

Architettura sottostante

GPT-Image-2 (successore di GPT-Image-1.5)

Gemini 3.1 Flash

Modello di editing

Precisione: selezione area e modifica in-place

Ragionamento: conversazionale e mascheratura intelligente

Workflow

Spazio di lavoro creativo dedicato (scheda Images)

Integrato nella chat Gemini

Iterazione

Efficiente: rigenerazione parziale

Veloce: 4–6s a 1K, regolabile via Thinking Mode

Ancoraggio al mondo reale

Ragionamento integrato e conoscenza aggiornata

Image Search Grounding (estrae riferimenti live da Google Search)

Coerenza multi-pannello

Forte su sequenze e schede personaggi

Forte, con focus sulla coerenza del soggetto

Testo multilingue

Grande upgrade rispetto a 1.5; ampio supporto di script

Forte, soprattutto in cinese e layout dell'Asia orientale

Risoluzione predefinita

Standard + rapporti d'aspetto flessibili

2K predefinita nell'app Gemini

Ecosistema

OpenAI & Azure

Stack Google / Gemini, Search, Lens

Quando usare ChatGPT Images 2.0 vs. Nano Banana 2

Usa ChatGPT Images 2.0 quando…

  • Hai bisogno di un ciclo di editing guidato da riferimenti. Il modello accetta un'immagine di riferimento e applica modifiche mirate (dettagli di texture, correzioni posizionali, aggiustamenti del rapporto d'aspetto) in più turni, con follow-up in linguaggio naturale che orientano in modo affidabile l'output senza ricominciare da capo, risparmiando anche token
  • Stai trasformando input grezzi in asset rifiniti. La modalità di pensiero risolve schizzi vaghi e istruzioni spaziali in composizioni accurate e fotorealistiche con elementi posizionati esattamente come previsto
  • L'accuratezza fattuale all'interno dell'immagine è critica. L'ancoraggio via ricerca web estrae informazioni live e le rende correttamente all'interno dell'immagine, rendendola affidabile per poster di eventi, infografiche di attualità o qualsiasi visual in cui numeri e nomi debbano essere giusti. Ricorda di usare la modalità di pensiero per abilitare la ricerca sul web

Usa Nano Banana 2 quando…

  • Stai inserendo soggetti o luoghi reali specifici in una scena. Image Search Grounding estrae riferimenti visivi live da Google, ricostruendo con precisione luoghi specifici (anche tramite coordinate GPS) e combinandoli con personaggi soggetto-coerenti in una singola generazione
  • Devi mantenere l'identità su più personaggi e oggetti in un unico workflow. Il modello supporta esplicitamente fino a cinque personaggi e quattordici riferimenti totali (personaggi + oggetti) con coerenza rigorosa. Questo lo rende una scelta forte per storyboard, foto prodotto o narrazioni multi-personaggio
  • Stai costruendo all'interno dell'ecosistema Google. Nano Banana è integrato nativamente in Gemini chat, Google Search, Google Ads, Firebase e Vertex AI

Entrambi sono scelte valide per quanto riguarda il rendering del testo in immagine, la gamma stilistica e l'editing conversazionale.

Considerazioni finali

L'impostazione del “partner di pensiero visivo” regge – ma solo con la modalità di pensiero attiva. Senza, il modello fatica con la logica spaziale e il fotorealismo; con, trasforma input ambigui in output che sembrano collaborativi piuttosto che meccanici. Due aree in cui il modello brilla anche senza modalità di pensiero sono l'autenticità stilistica e la flessibilità del rapporto d'aspetto.

L'ancoraggio via ricerca web sembra essere il più grande upgrade rispetto a Images 1.5. Nel test sulla Boston Marathon, il divario è stato evidente: la 2.0 ha azzeccato tutti i fatti, mentre la 1.5 non era aggiornata. È importante sapere che la ricerca web funziona solo in modalità di pensiero.

Un riscontro interessante è che i paletti sul copyright sono più stretti, e si nota. Se vuoi ricreare uno stile per cui un'azienda o una persona è riconosciuta, devi fare il passo in più di identificare l'essenza del loro stile e descriverla (che, a dirla tutta, oggi è un compito piuttosto facile).

Nel complesso, il modello è un upgrade significativo rispetto al predecessore e sfida lo status di Nano Banana 2 come strumento numero uno per la generazione e l'editing di immagini con AI. 

Per sfruttare al meglio questi strumenti, saper creare prompt è una competenza essenziale. Ti consigliamo vivamente i nostri corsi Understanding Prompt Engineering e Prompt Engineering with the OpenAI API per basi teoriche e pratiche.


Josef Waples's photo
Author
Josef Waples

Sono uno scrittore e editor di data science, con contributi a articoli di ricerca su riviste scientifiche. Sono particolarmente interessato ad algebra lineare, statistica, R e affini. Inoltre, gioco anche parecchio a scacchi! 


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom è un data scientist e formatore tecnico. Scrive e gestisce i tutorial e i post del blog di DataCamp su data science. In precedenza, Tom ha lavorato nella data science presso Deutsche Telekom.

Argomenti

Impara con DataCamp

Corso

Comprendere l'ingegneria del prompt

1 h
181.5K
Scopri come scrivere prompt efficaci con ChatGPT da applicare oggi stesso al tuo flusso di lavoro.
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

Mostra altroMostra altro