Corso
I workflow agentici hanno definito la prima metà del 2026, soprattutto nel coding: modelli che prendono un singolo prompt e portano a termine un compito. La competizione ora corre su tre assi contemporaneamente: capacità, velocità e prezzo. Anthropic e Google hanno fatto scommesse visibilmente diverse.
Questo articolo confronta due release recenti: Gemini 3.5 Flash di Google, annunciato al Google I/O, e Claude Opus 4.8 di Anthropic, rilasciato il 28 maggio. Non appartengono alla stessa categoria. Uno è un mulo da lavoro veloce ed economico; l'altro è un flagship premium. Proprio questo divario rende il confronto interessante, perché costringe a chiedersi quando valga la pena pagare per la pura capacità.
In questo articolo confronterò i due modelli su benchmark, costi e velocità, poi indicherò quale si adatta a quale lavoro. Puoi anche approfondire nei nostri approfondimenti su Gemini 3.5 Flash e nella nostra analisi di Claude Opus 4.8.
In breve
- Opus 4.8 è il modello complessivamente più capace. Guida l'Artificial Analysis Intelligence Index (61,4), il GDPval-AA (1.890 Elo) e Humanity's Last Exam.
- Gemini 3.5 Flash è molto più economico e veloce: 1,50$/9$ per milione di token contro i 5$/25$ di Opus 4.8, e 192,2 token di output al secondo contro 66,8.
- Gemini 3.5 Flash accetta input multimodali (video, audio, PDF), mentre Opus 4.8 gestisce solo testo e immagini.
- Scegli Opus 4.8 quando qualità del compito e rischio di allucinazioni hanno un costo reale. Scegli Gemini 3.5 Flash per pipeline multimodali ad alto volume e sensibili ai costi.
Che cos'è Claude Opus 4.8?
Claude Opus 4.8 è il modello di punta di Anthropic e il successore di Opus 4.7, pensato per il ragionamento complesso e il coding agentico su lungo orizzonte. Attualmente è in cima all'Artificial Analysis Intelligence Index con 61,4 punti.
Guida anche la classifica GDPval-AA, che valuta i modelli su compiti reali in varie professioni, e il nuovo benchmark ITBench-AA, che testa quanto bene gli agenti diagnosticano la causa radice di incidenti Kubernetes a partire da snapshot salvati.
Caratteristiche e capacità principali
Le specifiche di punta:
- finestra di contesto da 1 milione di token con fino a 128K token di output
- adaptive thinking come unico modo di thinking supportato
- un parametro di effort che ora è impostato di default su alto ovunque, incluso Claude Code
Opus 4.8 aggiunge anche una fast mode, attualmente in anteprima di ricerca, che offre fino a 2,5x token di output al secondo a 10$/50$ per milione di token in input/output. È il doppio del prezzo standard di Opus 4.8, ma un terzo di quanto costa la fast mode su Opus 4.7.
La Messages API ora accetta voci di sistema all'interno dell'array dei messaggi, così puoi aggiornare le istruzioni di Claude a metà compito senza riavviare la conversazione. Puoi spingere permessi, budget di token o contesto dell'ambiente senza invalidare la cache del prompt.
La lunghezza minima del prompt cacheable scende anche a 1.024 token, dai 4.096 di Opus 4.7, così ora si possono mettere in cache prompt più brevi.
Rispetto a Opus 4.7, i guadagni emergono su vari benchmark, secondo Artificial Analysis:
- Terminal-Bench Hard: +6,6 punti
- τ²-Bench Telecom, che simula scenari di supporto tecnico: +5,8 punti
- IFBench, che misura la precisione nel seguire le istruzioni: +3,6 punti
È anche in cima a Humanity's Last Exam, con il 49,8% senza strumenti e il 57,9% con strumenti.
Pro e contro
Sui lavori agentici, Opus 4.8 è l'opzione più forte in questo confronto. È primo nell'Artificial Analysis Agentic Index, che copre attività come la programmazione.
Il costo è l'ostacolo. Il prezzo è invariato rispetto a Opus 4.7, 5$/25$ per milione di token in input/output, che è salato per lavori ad alto volume. Anche i controlli di sampling restano non disponibili: temperature, top_p e top_k generano un errore se li imposti.
Che cos'è Gemini 3.5 Flash?
Gemini 3.5 Flash è l'ultimo modello di Google, pensato per la velocità con qualità quasi da frontiera, come spieghiamo nella nostra panoramica su Gemini 3.5 Flash. Ha ottenuto il 76,2% su Terminal-Bench 2.1 e raggiunto 1.656 Elo su GDPval-AA.
Caratteristiche e capacità principali
Flash accetta come input testo, immagini, video, audio e PDF, con pieno supporto al livello di thinking. Il set di funzionalità core:
- contesto di input di circa 1 milione di token (1.048.576 token) con limite di output di 65.536 token
- Batch API e cache dei prompt
- esecuzione di codice e function calling
- search grounding e output strutturati
Nei benchmark, raggiunge l'83,6% su MCP Atlas per il coordinamento agentico multi-strumento e l'84,2% su CharXiv Reasoning per la comprensione multimodale. È 7° nell'Artificial Analysis Intelligence Index, risultato solido per un modello di fascia Flash, e 6° nell'Agentic Index, vicino a Opus 4.7.
Gemini 3.5 Flash supporta anche nativamente l'harness multi-agente Antigravity. L'interfaccia di Antigravity è stata rivista in questa release per somigliare alle app OpenAI Codex e Cursor.
Pro e contro
Il punto di forza di Flash è l'intelligenza per dollaro: un punteggio di 55 sull'Artificial Analysis Intelligence Index a 1,50$ per milione di token in input e 9$ per milione in output, insolitamente capace per il prezzo.
L'altro punto di vendita è l'input multimodale nativo, inclusi video e audio. Il suo sistema di thinking a quattro livelli (minimo, basso, medio, alto) ti offre anche un controllo più fine su costi e prestazioni rispetto all'unica impostazione di effort di Opus 4.8.
Il vero standout, però, è l'uso agentico degli strumenti. Flash ottiene l'83,6% su MCP Atlas, il miglior risultato di coordinamento multi-strumento in questo confronto e persino davanti a Opus 4.8 con l'82,2%. Un modello di fascia Flash che supera il nuovissimo flagship di Anthropic su quel benchmark è il tipo di risultato che di solito non segue le linee di fascia.
Spiccano due avvertenze. Nella corsa dell'Intelligence Index, Flash ha generato 73M token contro una media di 35M, quindi è prolisso, e quella prolissità incide sulla fatturazione dell'output. Il tempo al primo token è di 18,88 secondi, alto per la categoria, dove i modelli comparabili stanno attorno ai due secondi.
Per vedere come Flash si confronta con il flagship di OpenAI, li mettiamo a confronto nel nostro articolo Gemini 3.5 Flash vs. GPT-5.5.
Claude Opus 4.8 vs Gemini 3.5 Flash: confronto diretto
Ecco il riferimento rapido prima di andare categoria per categoria.
| Proprietà | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| Rilascio | 28 maggio 2026 | 19 maggio 2026 |
| Finestra di contesto | 1M token | 1M token |
| Token massimi di output | 128K | 65.536 |
| Intelligence Index (AA) | 61,4 | 55 |
| GDPval-AA Elo | 1.890 | 1.656 |
| Velocità di output | 66,8 token/sec | 192,2 token/sec |
| Modalità di input | Testo, immagine | Testo, immagine, video, audio, PDF |
| Prezzo input | 5$ / 1M token | 1,50$ / 1M token |
| Prezzo output | 25$ / 1M token | 9$ / 1M token |
| Modalità di thinking | Solo Adaptive | Minimo / basso / medio / alto |
Prestazioni agentiche e di coding
Opus 4.8 è l'agente più forte, ma Flash è più vicino di quanto suggerisca la sua fascia. Opus 4.8 guida il GDPval-AA con 1.890 Elo contro i 1.656 di Flash, quindi è migliore nel knowledge work.
MCP Atlas è la sorpresa. Flash ottiene l'83,6% in questo benchmark di coordinamento multi-strumento, superando l'82,2% di Opus 4.8. Un modello Flash che batte l'ultimo flagship di Anthropic nell'uso agentico degli strumenti è davvero inaspettato, ed è l'argomento più chiaro a favore di Flash in questo confronto.
SWE-bench Pro va nell'altra direzione. Il benchmark testa i modelli sulla risoluzione di ticket di ingegneria del software reali, e Opus 4.8 ottiene il 69,2%, secondo solo al Mythos Preview interno di Anthropic. Flash arriva al 55,0%, dietro a Opus con il margine atteso tra le fasce, ma notevole di per sé: supera il 54,2% di Gemini 3.1 Pro, quindi questa release di Flash ha raggiunto la fascia Pro della generazione precedente.
Su Terminal-Bench Hard, Opus 4.8 ottiene il 58,3% contro il 40,9% di Flash, il che lo rende la scelta migliore per ingegneria del software basata su terminale, amministrazione di sistema e lavori di data processing. Flash si guadagna il posto quando esegui loop di coding in parallelo e velocità e costi contano più dell'accuratezza di punta.
Ragionamento e compiti scientifici
Opus 4.8 è chiaramente avanti nel ragionamento accademico. Ottiene il 57,9% su Humanity's Last Exam contro il 40,25% di Flash, il che lo favorisce per lavori in matematica, scienze e humanities.
Supporto input multimodale
Qui Flash vince nettamente. Opus 4.8 legge testo e immagini; Flash legge anche video, audio e PDF. Se la tua pipeline tocca uno di questi formati, tra i due l'unica opzione che li gestisce è Flash.
Velocità e latenza
Flash è circa tre volte più veloce in output. Artificial Analysis lo misura a 192,2 token di output al secondo contro i 66,8 di Opus 4.8.
Costo ed efficienza dei token
I token di output sono dove il divario morde: 25$ per milione su Opus 4.8 contro 9$ su Flash, quindi Opus è circa 2,8 volte più costoso. Su pipeline ad alto volume, questa differenza si amplifica rapidamente.
Finestra di contesto e capacità di output
Entrambi accettano 1M token in input, quindi la differenza è sul lato output. Opus 4.8 scrive fino a 128K token in un passaggio contro i 65.536 di Flash, quasi il doppio. Per sintesi di codice long-form, generazione di documenti o loop agentici che emettono output singoli molto grandi, quel margine conta.
Quale modello dovresti scegliere?
Tutto dipende se stai pagando per capacità o per throughput. Ecco come la dividerei.
Scegli Claude Opus 4.8 se…
- La qualità del completamento del compito ha conseguenze dirette. I suoi 1.890 Elo su GDPval-AA e il tasso di allucinazioni più basso dei modelli di Google e OpenAI su AA-Omniscience lo rendono la scelta più sicura per lavori di conoscenza ad alta precisione.
- Ti servono 128K token di output per generazioni di grandi dimensioni in un singolo passaggio, quasi il doppio dei 65.536 di Flash.
- Stai già costruendo nell'ecosistema Anthropic tramite Claude Code o API e il passaggio sarebbe oneroso.
- I tuoi loop agentici durano a lungo al punto che i messaggi di sistema a metà conversazione contano, dato che la Messages API ora aggiorna permessi, budget di token o contesto a metà compito senza rompere la cache del prompt.
Scegli Gemini 3.5 Flash se…
- La tua pipeline ingerisce video, audio o PDF.
- Ti serve volume di output, dove 9$ contro 25$ per milione di token cambia i conti.
- Vuoi il punteggio più forte nel coordinamento multi-strumento, dato che Flash guida MCP Atlas con l'83,6%, davanti persino a Opus 4.8 con l'82,2%.
- Stai costruendo su infrastruttura Google tramite Antigravity o Vertex AI e vuoi un unico vendor.
- Il controllo granulare dei costi è importante, dove il thinking a quattro livelli di Flash batte l'unica impostazione di effort di Opus 4.8.
Cosa ci aspetta per Flash e i modelli flagship
Questo modello Flash è molto più costoso dei precedenti rilasci Flash, e Google ha ricevuto critiche per questo. Il divario di intelligenza tra le fasce Flash e Opus è ancora significativo, il che indebolisce l'argomento per pagare prezzi quasi da flagship per un modello Flash. La corsa più interessante è un modello piccolo che sia davvero bravo nel coding e nel lavoro agentico restando economico quanto il Composer 2.5 di Cursor.
La fast mode di Anthropic è quella da tenere d'occhio per il coding agentico, ma il prezzo la frenerà. A 10$/50$, è difficile da vendere per sviluppatori che eseguono loop lunghi, e l'adozione dipende dal fatto che Anthropic riconsideri quel numero.
Anthropic è rimasta focalizzata sul coding, quindi dubito che inseguirà Google su input video e audio a breve. Questo offre a Google un'apertura, ma solo se riuscirà a rilasciare un modello Flash o flagship che superi Opus nei compiti agentici. Finora non è successo.
Considerazioni finali
Se qualità del compito e rischio di allucinazioni hanno un costo reale, ad esempio in finanza o medicina, Opus 4.8 è il modello a cui puntare. Se stai ottimizzando per throughput, costo o input multimodale, Gemini 3.5 Flash è l'opzione migliore.
La mia lettura: i due non competono davvero per lo stesso lavoro, e la maggior parte dei team saprà da che parte stare entro una frase nel descrivere il proprio carico di lavoro. La domanda più difficile è se Google può colmare il divario di capacità senza rinunciare al vantaggio di prezzo che rende Flash utile. Google sta già usando internamente Gemini 3.5 Pro, e quella release, più di Flash, è la più probabile a mettere vera pressione su Opus 4.8.
Se vuoi affinare le competenze che rendono gli assistenti AI più affidabili nel tuo workflow, inizia dal nostro corso AI-Assisted Coding for Developers. E se vuoi costruire applicazioni LLM con prompt, chain e agenti, il nostro corso Developing LLM Applications with LangChain è un ottimo passo successivo.
Claude Opus 4.8 vs Gemini 3.5 Flash: FAQ
Claude Opus 4.8 è complessivamente migliore di Gemini 3.5 Flash?
Sui benchmark di intelligenza complessiva, sì. Opus 4.8 ottiene 61,4 sull'Artificial Analysis Intelligence Index contro i 55 di Flash. Ma meglio dipende dal caso d'uso. Flash è più veloce, più economico e supporta input video, audio e PDF che Opus 4.8 non supporta.
Quali formati di input supporta Gemini 3.5 Flash?
Gemini 3.5 Flash supporta input di testo, immagine, video, audio e PDF. Claude Opus 4.8 supporta solo testo e immagine.
Come si confrontano i prezzi tra i due modelli?
Claude Opus 4.8 costa 5$ per milione di token in input e 25$ per milione di token in output. Gemini 3.5 Flash costa 1,50$ per milione di token in input e 9$ per milione di token in output. Il prezzo sui cache hit è 0,50$ per milione per Opus 4.8 e 0,15$ per milione per Flash.
Che cos'è GDPval-AA e perché conta in relazione a Opus 4.8 e Gemini 3.5 Flash?
GDPval-AA è il benchmark principale di Artificial Analysis per le prestazioni agentiche su compiti di knowledge work reali, valutato in Elo. Opus 4.8 è in testa con 1.890 Elo contro i 1.656 di Flash. È più utile dei benchmark tradizionali per valutare i modelli in contesti agentici in produzione.
Quale modello ha una finestra di output più ampia?
Claude Opus 4.8 supporta un massimo di 128K token di output, il doppio rispetto alla finestra da 65.536 token di Gemini 3.5 Flash. Per workflow che generano documenti lunghi, grandi file di codice o necessitano di output di grandi dimensioni in un singolo passaggio, Opus 4.8 è l'opzione preferita.
Gemini 3.5 Flash supporta il thinking?
Sì. Flash ha quattro livelli di thinking: minimo, basso, medio e alto. Il default è medio. Claude Opus 4.8 usa solo adaptive thinking, senza supporto per budget di thinking esteso.


