Vai al contenuto principale

Claude Opus 4.7 vs. GPT-5.4: quale modello di frontiera dovresti usare?

Confrontiamo Claude Opus 4.7 e GPT-5.4 per coding, workflow agentici e task a lungo contesto, analizzando benchmark, struttura dei prezzi e uso degli strumenti per guidare la tua scelta.
Aggiornato 24 apr 2026  · 11 min leggi

GPT-5.4 è stato lanciato il 5 marzo 2026 come punta di diamante di OpenAI per il lavoro professionale, unificando coding e ragionamento in un unico modello generalista. Sei settimane dopo, il 16 aprile, Anthropic ha rilasciato Claude Opus 4.7, costruito su una scommessa diversa: un modello che gestisce in autonomia l’ingegneria a lungo orizzonte e resta coerente nelle sessioni in cui la maggior parte degli agenti va in crisi.

È un buon momento per confrontarli direttamente, con una nota importante: questo articolo è uscito lo stesso giorno del lancio di Opus 4.7, quindi i numeri testa a testa qui sotto sono per lo più riportati dai vendor. Considerali un punto di partenza, non una sentenza.

Aggiornamento: OpenAI ha pubblicato il modello successore di GPT-5.4. Scopri tutto nella nostra guida a GPT-5.5.

Confronto diretto Opus 4.7 vs. GPT-5.4

Ecco un rapido riferimento prima di entrare nei dettagli. I prezzi sono dove risiede la parte più interessante e li tratteremo in una sezione dedicata.

Tabella di specifiche affiancate che confronta Claude Opus 4.7 e GPT-5.4 su finestra di contesto, prezzi, livelli di impegno, visione e funzionalità chiave.

Specifiche chiave a confronto per entrambi i modelli. Immagine dell’autore.

Gemini 3.1 Pro è una vera alternativa se la tua esigenza primaria è l’elaborazione massiva di documenti o analisi legali estese; offre costi per token inferiori con una finestra di contesto da 2M. Questo articolo resta focalizzato sul confronto Anthropic vs OpenAI.

Il modo in cui ogni vendor presenta il proprio modello dice molto su come si aspetta che tu lo usi.

Posizionamento del modello e uso previsto

OpenAI posiziona GPT-5.4 come un modello unificato e generalista. Assorbe le capacità di coding che prima stavano in GPT-5.3-Codex, così gli sviluppatori non devono più instradare le richieste verso endpoint diversi in base al tipo di task. Un modello, un endpoint, qualunque sia il compito.

La proposta di Anthropic per Opus 4.7 è più mirata: un modello ottimizzato per “coding, agenti, uso del computer e workflow enterprise”, con l’autonomia a lungo orizzonte come principale elemento distintivo. Gli affidi lavoro ingegneristico complesso e ti fidi che intercetti i propri errori prima di riportare i risultati. Da notare che Opus 4.7 è il modello disponibile generalmente più capace di Anthropic, ma non il top di gamma; sopra c’è Claude Mythos Preview, limitato a workflow di cybersecurity difensiva.

Questa differenza emerge agli estremi: sessioni di coding molto lunghe o pipeline che concatenano dozzine di strumenti.

Coding e workflow agentici

Sul coding a livello di repository, Opus 4.7 è in vantaggio sui benchmark che ciascun vendor ha scelto di riportare (numeri completi sotto). Ha introdotto l’auto-verifica dell’output, cioè il modello controlla il proprio lavoro prima di restituire la risposta, e Genspark ha evidenziato in particolare la sua resistenza ai loop: Opus 4.7 è meno incline a bloccarsi ciclando sullo stesso problema. È il genere di aspetto a cui inizi a dare peso quando un agente rimane in loop per 40 minuti sul nulla.

GPT-5.4 guida Terminal-Bench 2.0 di circa sei punti (75,1% contro 69,4%), anche se Anthropic segnala che il numero di GPT-5.4 deriva da un harness auto-riportato. GPT-5.4 ha anche introdotto l’aggiustamento del piano a metà risposta tramite Interactive Thinking: durante il ragionamento complesso, puoi intervenire prima che il modello termini la generazione e reindirizzarlo se la traiettoria sembra sbagliata. Opus 4.7 non ha un equivalente. Il divario su SWE-bench è reale, però: sei punti su un benchmark scelto dal vendor sono un segnale utile, non un verdetto.

Finestra di contesto e lavoro su contesti lunghi

Entrambi i modelli supportano all’incirca 1M di token; ciò che cambia è cosa succede al conto quando usi quel contesto. Opus 4.7 applica una tariffa piatta su tutta la finestra, quindi una richiesta da 900K token costa lo stesso per token di una da 9K. GPT-5.4 addebita 2,50 $ per milione sotto i 272K token di input, ma oltre quella soglia l’intera sessione cambia tariffa. Tratterò i numeri esatti nella sezione prezzi.

C’è anche una particolarità del tokenizer: Opus 4.7 può mappare lo stesso testo fino al 35% di token in più rispetto a 4.6. Il prezzo per token non cambia, ma il costo effettivo per task può aumentare.

Sulle prestazioni reali in lungo contesto, i test dei partner hanno posizionato Opus 4.7 a pari merito per il punteggio di consistenza più alto su sei moduli di ricerca, a 0,715. Le pipeline RAG che si avvicinano al limite di 1M andrebbero testate sul tuo carico reale prima di affidarti ai benchmark dei vendor.

Uso degli strumenti, multimodalità e interazione con l’ambiente

Sulla carta le superfici di tool sono simili, in pratica divergono di più. Su OSWorld-Verified (uso del computer desktop), Opus 4.7 ora è in testa al 78,0% contro il 75,0% di GPT-5.4, entrambi sopra la baseline dell’esperto umano del 72,4%. Il quadro si ribalta sulla ricerca web via browser: GPT-5.4 raggiunge l’89,3% su BrowseComp (variante Pro) contro il 79,3% di Opus 4.7. Un unico titolo “uso del computer” nasconde la distinzione desktop vs browser.

L’aggiornamento multimodale di punta di Opus 4.7 è la risoluzione visiva: immagini fino a 2.576 pixel sul lato lungo, circa 3,75 megapixel, oltre tre volte i modelli Claude precedenti, elaborate con fedeltà superiore automaticamente senza parametri API. XBOW, un partner per i test di sicurezza, ha riportato un’acuità visiva balzata dal 54,5% su Opus 4.6 al 98,5% su 4.7, il maggiore incremento su un singolo benchmark tra tutte le valutazioni partner di questa release.

I due differiscono anche nell’architettura degli strumenti. Il sistema di ricerca tool di GPT-5.4 carica le definizioni on demand invece di includerle tutte nel prompt, riducendo l’overhead di token in ecosistemi di strumenti ampi. Opus 4.7 ragiona sul problema prima di ricorrere agli strumenti, usando complessivamente meno chiamate; l’uso degli strumenti aumenta ai livelli di impegno più alti.

Direzionabilità, affidabilità e stile di output

Opus 4.7 prende le istruzioni alla lettera. Non generalizza da un elemento all’altro né deduce richieste non esplicite, quindi i prompt scritti per la 4.6 possono comportarsi in modo inatteso; Anthropic consiglia di ri-tarare. Il vantaggio è l’affidabilità nei loop agentici lunghi: il team engineering di Ramp ha notato che serviva molta meno guida passo-passo in workflow multi-strumento, e i test di Hexagon hanno trovato Opus 4.7 a basso impegno grosso modo equivalente a Opus 4.6 a medio.

Anthropic ha anche introdotto xhigh come nuovo livello di impegno tra high e max, e ha portato il default di Claude Code a xhigh per tutti i piani. Insieme al nuovo tokenizer, i conteggi di token in output possono crescere rispetto a 4.6 nelle tornate agentiche successive; i Task Budget (ora in beta pubblica) ti permettono di limitare la spesa di un agente in una sessione. La storia della direzionabilità di GPT-5.4 ruota attorno a Interactive Thinking, come già detto nella sezione coding, e la guida ai prompt di OpenAI osserva che il modello rende bene con contratti di output espliciti.

Una nota dalla stessa valutazione di sicurezza di Anthropic: Opus 4.7 è migliorato su onestà e resistenza alle prompt injection rispetto a 4.6, ma è leggermente regredito nel resistere a consigli di riduzione del danno eccessivamente dettagliati su sostanze controllate. Valutazione complessiva di Anthropic: “in gran parte ben allineato e affidabile, anche se non pienamente ideale nel comportamento”.

Opus 4.7 vs. GPT-5.4 nei benchmark

I benchmark vanno osservati con attenzione e presi sul serio fino a un certo punto. Entrambi i vendor hanno scelto i test che li favoriscono, e Vals.ai e Artificial Analysis non avevano ancora indicizzato Opus 4.7 al momento della stesura. Prova sui tuoi task prima di trarre conclusioni da questi numeri.

Benchmark di coding

La tabella seguente copre le evidenze di coding più rilevanti dai materiali di rilascio di ciascun vendor.

Benchmark

Claude Opus 4.7

GPT-5.4

Note

SWE-bench Pro

64,3%

57,7%

Riportato dai vendor; configurazioni di harness diverse

SWE-bench Verified

87,6%

Non pubblicato

OpenAI non ha rilasciato un punteggio ufficiale su questa variante

CursorBench

~70%

Non pubblicato

Cursor è partner Anthropic; non indipendente

Terminal-Bench 2.0

69,4%

75,1%

Anthropic segnala che il numero di GPT-5.4 proviene da un harness auto-riportato; GPT-5.4 è anche regredito rispetto a GPT-5.3-Codex (77,3%)

GPQA Diamond

94,2%

94,4% (Pro)

Di fatto pari; quasi saturo a questo livello

Grafico a barre orizzontali che confronta Claude Opus 4.7 e GPT-5.4 su SWE-bench Pro e SWE-bench Verified, mostrando Opus 4.7 in vantaggio su entrambi.

I benchmark di coding favoriscono chiaramente Opus 4.7. Immagine dell’autore.

SWE-bench ha diverse varianti ed entrambi i vendor hanno evidenziato quella in cui performano meglio. Anthropic ha applicato filtri contro la memorizzazione e riporta che il margine di Opus 4.7 tiene anche escludendo i problemi segnalati. Per contesto: il modello open-weight di Z.ai GLM-5.1 è stato brevemente in testa a SWE-bench Pro al 58,4% a inizio aprile 2026 prima dell’arrivo del 64,3% di Opus 4.7, quindi qualsiasi affermazione di “stato dell’arte” qui ha vita breve.

Benchmark per agenti e uso del computer

Con il rilascio di Opus 4.7, Anthropic ha pubblicato numeri comparativi per entrambi i modelli sulla maggior parte dei benchmark agentici. Il quadro è misto, non a senso unico.

Benchmark

Claude Opus 4.7

GPT-5.4

Note

OSWorld-Verified

78,0%

75,0%

Uso del computer desktop; entrambi sopra la baseline dell’esperto umano (72,4%)

BrowseComp

79,3%

89,3% (Pro)

Ricerca web con ragionamento multi-hop; GPT-5.4 in vantaggio

MCP-Atlas

77,3%

68,1%

Uso di strumenti su larga scala attraverso molti servizi collegati

WebArena-Verified

Non pubblicato

67,3%

Task autonomi di navigazione web

Toolathlon

Non pubblicato

54,6%

Orchestrazione di strumenti multi-step; in crescita da 46,3% su GPT-5.2

Finance Agent v1.1

64,4%

61,5% (Pro)

Agente per ricerca finanziaria a lungo contesto

GDPval-AA

1753 Elo

1674 Elo

Lavoro di conoscenza professionale; Opus 4.7 in testa di 79 punti Elo

BigLaw Bench

90,9% ad alto impegno

Non pubblicato

Task su documenti legali; valutazione del partner Harvey

Il quadro si divide per ambiente: Opus 4.7 vince su desktop, uso di strumenti e lavoro di conoscenza; GPT-5.4 vince sulla ricerca via browser. Diversi numeri di GPT-5.4 provengono dalla variante Pro, quindi il livello standard potrebbe segnare meno. Il prossimo passo sono run indipendenti su uno scaffold condiviso.

Prezzi: Opus 4.7 vs. GPT-5.4

Le tariffe di copertina sembrano semplici. Il quadro dei costi reali non lo è.

Struttura dei prezzi API

La differenza di prezzo è più facile da capire con alcuni scenari concreti.

Con una richiesta da 100K token in input e 10K in output (ben al di sotto della soglia di 272K di GPT-5.4), GPT-5.4 costa circa 0,40 $ contro 0,75 $ di Opus 4.7. Quasi la metà del prezzo per lavoro su contesti brevi-medi.

A 500K di input e 20K di output, oltre la soglia di GPT-5.4, i due modelli costano più o meno uguale: 2,95 $ contro 3,00 $. A 900K di input e 10K di output, sono quasi identici.

La soglia di riprezzamento a 272K è la parte che coglie di sorpresa: si applica all’intera sessione, non solo ai token oltre il limite. Una pipeline che invia regolarmente prompt da 280K token paga la tariffa piena long-context su ogni singola richiesta, non solo sugli 8K extra. È un riprezzamento a livello di sessione, non una maggiorazione marginale.

Grafico che mostra come si confrontano i costi API di GPT-5.4 e Claude Opus 4.7 su richieste a contesto breve (100K token), medio (500K token) e lungo (900K token), con la soglia di prezzo a 272K di GPT-5.4 chiaramente segnata.

I costi di GPT-5.4 aumentano oltre i 272K token. Immagine dell’autore.

Come accennato nella sezione sulla finestra di contesto, il nuovo tokenizer può mappare lo stesso input fino al 35% di token in più rispetto a Opus 4.6. Il prezzo per token è invariato, ma il costo reale per task può salire. Misura sul traffico reale; estrapolare dalle baseline di 4.6 ti darà un numero troppo basso.

Entrambe le piattaforme offrono circa il 90% di sconto sui token di input in cache: 0,50 $ per milione per Opus 4.7, 0,25 $ per milione per GPT-5.4 sotto i 272K. Le Batch API aggiungono un ulteriore sconto di circa il 50% per il lavoro non urgente. Per i carichi asincroni, questi sconti sono la leva singola più grande su entrambe le piattaforme.

Ci sono anche costi per strumento che spesso sfuggono. Anthropic addebita 10 $ per 1.000 ricerche web, più i costi standard dei token per i contenuti recuperati. OpenAI addebita separatamente l’archiviazione e le query della file search. Questi costi si sommano in pipeline ricche di strumenti.

Costo per diversi carichi di lavoro

Per lavoro ad alto volume e contesto breve (chiamate API sotto i 100K token, classificazione in batch, iterazione rapida), GPT-5.4 è più economico. Il divario di costo in input può avvicinarsi al 2x.

Oltre i 272K token, il vantaggio si inverte. La tariffa piatta di Opus 4.7 diventa più facile da preventivare e quasi eguaglia GPT-5.4 sul costo totale.

Entrambe le piattaforme applicano un piccolo sovrapprezzo per la residenza dei dati (circa il 10% su entrambi i lati). A quel livello, è una decisione di compliance, non di prezzo. Per le sessioni agentiche di Claude Code, i Task Budget (trattati nella sezione direzionabilità) sono la leva principale sulla spesa di token.

Claude Opus 4.7 è migliore di GPT-5.4?

Non esiste una risposta universale, e qualsiasi articolo che te ne dia una sta vendendo qualcosa.

Scegli Claude Opus 4.7 se il tuo lavoro principale è l’ingegneria software a esecuzione lunga in cui conta l’auto-verifica, il tuo agente usa applicazioni desktop, i tuoi prompt superano regolarmente i 272K token, il tuo workflow legge screenshot densi o diagrammi tecnici, oppure sei già su Claude Code, Cursor, Replit o Devin.

Scegli GPT-5.4 se il tuo agente fa ricerca web pesante via browser, i tuoi carichi restano sotto i 272K token e il costo conta, vuoi il caricamento differito degli strumenti in un ampio ecosistema di tool, o il tuo team usa già la Responses API di OpenAI.

Valuta di testare entrambi se il tuo lavoro si divide tra ricerca web autonoma e coding esteso. I punti di forza di GPT-5.4 su browser e terminale si adattano ai workflow web agentici; la resistenza ai loop e i prezzi flat di Opus 4.7 funzionano meglio per sessioni di ingegneria profonda e pipeline ricche di documenti.

Guida decisionale a due colonne che mostra i casi d’uso adatti a Claude Opus 4.7 a sinistra e quelli adatti a GPT-5.4 a destra.

Scegliere il modello giusto per il tuo workflow. Immagine dell’autore.

Una cosa vale per entrambe le scelte: gli sconti delle Batch API possono contare più della scelta del modello per i carichi asincroni. E dato che i benchmark indipendenti per Opus 4.7 sono ancora in arrivo, un pilot su una fetta reale del tuo lavoro vale più di qualsiasi articolo comparativo, incluso questo.

Conclusione

Il divario tra Claude Opus 4.7 e GPT-5.4 riguarda meno quale modello sia più “intelligente” e più la forma del lavoro che stai facendo.

Anthropic ha puntato sull’autonomia: un modello pensato per mantenere coerenza su lunghe esecuzioni ingegneristiche e controllare il proprio output. OpenAI ha puntato sull’ampiezza: una superficie di strumenti più estesa e tariffe più basse per la maggior parte dei prompt che restano sotto i 272K token.

I prezzi sono dove più team restano spiazzati e, come detto prima, il cambio di tariffa a 272K per sessione è la trappola specifica. Ciò che in pratica sposta la spesa mensile più della tariffa base sono di solito la cache e gli sconti delle Batch API su entrambe le piattaforme.

I divari nei benchmark sono di pochi punti, e entrambi i vendor stanno rilasciando nuovi modelli ogni poche settimane. Scegli quello che si adatta al tuo stack reale e torna a valutare tra un mese.

Se vuoi approfondire come mettere al lavoro questi modelli, il nostro corso Software Development with Cursor copre in pratica i workflow di coding assistito dall’AI.


Khalid Abdelaty's photo
Author
Khalid Abdelaty
LinkedIn

Sono un data engineer e community builder: lavoro su pipeline dati, cloud e strumenti di AI, e scrivo tutorial pratici e ad alto impatto per DataCamp e per sviluppatori alle prime armi.

FAQ

Claude Opus 4.7 è disponibile fuori dall’API di Anthropic?

Sì. Opus 4.7 è disponibile su Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry con l’ID modello claude-opus-4-7. La disponibilità regionale e i prezzi dei token in cache possono variare tra i cloud, quindi controlla la pagina del provider se la residenza dei dati è importante per il tuo deployment.

Devo aggiornare il mio codice API quando migro da Opus 4.6 a Opus 4.7?

Sì, tre breaking change. Impostare temperature, top_p o top_k a valori non di default ora restituisce un errore 400. Il vecchio parametro budget_tokens fallisce; sostituiscilo impostando il thinking in modalità adattiva. E il nuovo tokenizer genera più token per richiesta, quindi qualsiasi max_tokens hardcoded che era stretto su 4.6 potrebbe troncare l’output su 4.7. Ri-tara anche i prompt: 4.7 prende le istruzioni più alla lettera rispetto a 4.6.

Quale modello è migliore per il coding?

Opus 4.7 è in testa su SWE-bench Pro (64,3% contro 57,7%) e SWE-bench Verified (87,6%; OpenAI non ha pubblicato un punteggio qui). GPT-5.4 è in testa su Terminal-Bench 2.0 al 75,1% contro 69,4%, anche se Anthropic segnala che quel numero proviene da un harness auto-riportato. Opus 4.7 per l’ingegneria a livello di repository, GPT-5.4 per workflow pesanti da terminale. Valutazioni indipendenti su uno scaffold condiviso sono ancora in sospeso.

In che modo il cambiamento del tokenizer di Opus 4.7 influisce sui costi?

L’intervallo è 1,0–1,35x, non un 35% fisso, quindi l’impatto dipende dal tipo di contenuto. Il fattore meno ovvio: 4.7 “pensa” anche di più ai livelli di impegno più alti nelle tornate agentiche successive, quindi i conteggi di token si sommano nel corso di una sessione. I Task Budget sono il limite pratico.

GPT-5.4 è migliore nell’uso degli strumenti rispetto a Claude Opus 4.7?

In modi diversi. GPT-5.4 ha una superficie di strumenti integrata più ampia (web search, file search, interprete di codice, uso del computer) con caricamento degli strumenti on demand. Opus 4.7 usa meno chiamate agli strumenti e ragiona prima. Notion ha riportato che Opus 4.7 è stato il primo modello a superare i loro test di bisogni impliciti e ha prodotto un terzo degli errori di tool rispetto a 4.6. Su MCP-Atlas (uso di strumenti su scala), Opus 4.7 è in vantaggio 77,3% a 68,1%, quindi una superficie più ampia non significa automaticamente migliore orchestrazione.

Argomenti

Impara con DataCamp

Corso

Concetti di IA generativa

2 h
101.8K
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

Mostra altroMostra altro