Vai al contenuto principale

Claude Fable 5 vs GPT-5.5: benchmark, prezzi e come scegliere

Claude Fable 5 è in testa sui benchmark di capacità pura, ma GPT-5.5 vince per accesso, prezzi e meno interruzioni dai classificatori. Ecco come scegliere.
Aggiornato 10 giu 2026  · 11 min leggi

Se stai scegliendo tra Claude Fable 5 e GPT-5.5 per un flusso di lavoro in produzione, le tabelle dei benchmark raccontano una storia chiara. Sulla carta, Fable 5 è il modello più forte con un ampio margine su coding e ragionamento. Ma costa anche il doppio per token di output, ha un sistema di classificazione che può reindirizzare silenziosamente la tua richiesta a un modello più debole e impone un requisito di conservazione dei dati di 30 giorni che blocca del tutto alcuni clienti enterprise.

In questo articolo confronterò Fable 5 e GPT-5.5 su cinque dimensioni: performance nel coding e nei compiti agentici, lavoro a lungo contesto, classificatori di sicurezza e attriti di accesso, lavoro di conoscenza e ragionamento, e prezzi. Puoi anche consultare le nostre guide dedicate a Claude Fable 5 e GPT-5.5 per una copertura più approfondita di ciascun modello.

Resta aggiornato su tutto ciò che riguarda l’AI. Iscriviti a The Median, la nostra newsletter gratuita del venerdì che riassume le notizie chiave della settimana. Tieniti in forma in pochi minuti a settimana.

Che cos’è Claude Fable 5?

Claude Fable 5 è il primo modello di classe Mythos di Anthropic disponibile per uso generale, lanciato il 9 giugno 2026. Mythos è un nuovo livello di capacità che si colloca sopra Opus nella gerarchia dei modelli di Anthropic. Fable 5 è lo stesso modello sottostante di Claude Mythos 5, ma con classificatori di sicurezza attivi che instradano alcune query sensibili a Claude Opus 4.8. La distinzione del nome conta: Fable è la versione accessibile al pubblico; Mythos è la versione non soggetta a restrizioni disponibile solo ai partner di Project Glasswing.

Anthropic presenta Fable 5 come lo stato dell’arte su quasi tutti i benchmark testati, con particolare forza nell’ingegneria del software, nel lavoro di conoscenza, nella visione e nei compiti agentici di lunga durata. Più il compito è lungo e complesso, maggiore è il vantaggio rispetto ai precedenti modelli Claude. Stripe ha riportato che Fable 5 ha compresso mesi di lavoro di ingegneria in giorni durante una migrazione di codebase Ruby da 50 milioni di linee.

Per saperne di più sulle capacità di Fable 5 e sull’analisi dei benchmark, vedi la nostra guida a Claude Fable 5. Trattiamo anche la variante ristretta Mythos 5 nel nostro articolo su Claude Mythos 5.

Che cos’è GPT-5.5?

GPT-5.5 è il modello rilasciato da OpenAI nell’aprile 2026, descritto come il modello di coding agentico più potente dell’azienda finora. OpenAI ha rilasciato anche una variante GPT-5.5 Pro per lavori a maggiore accuratezza. Il modello è stato co-progettato per e serve su sistemi NVIDIA GB200 e GB300 NVL72, e OpenAI afferma che eguaglia la latenza per token di GPT-5.4 in ambienti reali offrendo al contempo un livello di intelligenza significativamente superiore.

La novità architetturale principale di GPT-5.5 è l’affidabilità nel lungo contesto. GPT-5.4 collassava oltre ~128K token sul benchmark MRCR; GPT-5.5 regge fino a 512K-1M token (74,0% su MRCR v2 in quel range, contro il 36,6% di GPT-5.4). È un cambiamento qualitativo in ciò per cui il modello può essere usato, non un guadagno marginale di benchmark.

Per una panoramica completa dei benchmark di GPT-5.5 e dei nostri riscontri pratici, consulta la nostra guida a GPT-5.5. Lo abbiamo anche confrontato direttamente con Claude Opus 4.8 nel nostro confronto Claude Opus 4.8 vs GPT-5.5.

Claude Fable 5 vs GPT-5.5: confronto diretto

Ecco un rapido riepilogo della posizione di ciascun modello prima di entrare nei dettagli.

Caratteristica Claude Fable 5 GPT-5.5
SWE-Bench Pro 80,3% 58,6%
Terminal-Bench 2.1 88,0%* 83,4% (Codex CLI)
Humanity's Last Exam (con strumenti) 64,5% 52,2%
MRCR v2 a 512K-1M token Non pubblicato 74,0%
OSWorld-Verified 85,0% 78,7%
Prezzo input API (per 1M token) $10 $5
Prezzo output API (per 1M token) $50 $30
Fallback del classificatore di sicurezza Sì (instrada a Opus 4.8) Nessun fallback silenzioso
Requisito di conservazione dei dati 30 giorni obbligatori Policy standard
Disponibilità generale Limitata (crediti extra necessari dopo il 22 giugno) Sì (ChatGPT + API)

Performance nel coding e nei compiti agentici

Qui il divario tra i due modelli è più ampio e più rilevante per la decisione. Su SWE-Bench Pro, il benchmark per la risoluzione di issue reali su GitHub, Fable 5 ottiene 80,3% contro il 58,6% di GPT-5.5. Sono 22 punti di differenza. Per contesto, Claude Opus 4.7 aveva già superato GPT-5.5 in questo benchmark con il 64,3%, quindi GPT-5.5 era già indietro sul coding a livello di repository prima dell’arrivo di Fable 5.

Sul test FrontierCode di Cognition, che valuta se i modelli riescono a superare compiti di coding difficili rispettando gli standard di codebase di produzione, Fable 5 ottiene il punteggio più alto tra i modelli di frontiera anche a sforzo medio. Il CEO di Cursor, Michael Truell, lo ha descritto come il modello con il punteggio più alto su FrontierBench, eccellente nel ragionamento a lungo orizzonte e nel generalizzare a strumenti non familiari out of the box.

Fable 5 sembra inoltre in vantaggio su Terminal-Bench 2.1 con un punteggio riportato dell’88,0%*, davanti a GPT-5.5 all’83,4%. L’asterisco indica che il numero va preso con cautela a causa di una discrepanza tra Fable 5 e Mythos 5. Dove ciò accade, Fable è il meno performante dei due, quindi supporrei che Fable 5 sia alla pari con GPT-5.5 o avanti di poco.

GPT-5.5 resta la scelta migliore per DevOps pesante da terminale e automazione shell, ma il divario su SWE-Bench Pro è un segnale reale. Se il tuo caso d’uso principale è l’ingegneria a livello di repository, Fable 5 è la scelta chiara in base alle sole capacità. La domanda è se il costo di output per token doppio e l’attrito dei classificatori valgano la pena per il tuo carico di lavoro specifico.

Performance a lungo contesto

Questo è il vero elemento differenziante di GPT-5.5, e merita attenzione. GPT-5.4 cedeva oltre ~128K token sul benchmark MRCR v2. GPT-5.5 no. A 512K-1M token, GPT-5.5 ottiene il 74,0% su MRCR v2, rispetto al 36,6% di GPT-5.4 nello stesso range. Non è un miglioramento marginale; è una classe di capacità diversa.

Anthropic sostiene che Fable 5 resta focalizzato su milioni di token in compiti di lunga durata e migliora i propri output usando i suoi appunti. Il test di memoria di Slay the Spire ha mostrato che la memoria persistente basata su file ha migliorato le performance di Fable 5 tre volte più di quanto abbia migliorato quelle di Opus 4.8. Ma Anthropic non ha pubblicato punteggi in stile MRCR per Fable 5 nel range 512K-1M, quindi qui non è possibile un confronto diretto alla pari.

Per chi lavora con contesti da milioni di token, come revisione di documenti legali, analisi di grandi codebase o sintesi di letteratura scientifica, i punteggi pubblicati di GPT-5.5 sul lungo contesto sono la base di evidenza più solida. Nei nostri test su GPT-5.5, abbiamo riscontrato che ha superato un needle test da 300K token e che i punteggi MRCR reggevano oltre 256K, dove GPT-5.4 collassava. Fable 5 potrebbe essere altrettanto forte qui, ma i dati non sono pubblicati in un formato comparabile.

Classificatori di sicurezza e attriti di accesso

Questo è l’aspetto più sottovalutato per chi lavora sul campo con Fable 5, e merita più di una nota a piè di pagina. Fable 5 esegue un sistema di classificazione a due stadi: una sonda monitora le attivazioni interne su tutto il traffico, e le richieste segnalate vengono inoltrate a un classificatore LLM separato che prende la decisione finale. Quando una richiesta viene bloccata, viene reindirizzata a Claude Opus 4.8 e all’utente viene notificato quale modello ha gestito la query.

Anthropic afferma che i classificatori si attivano in meno del 5% delle sessioni in media. Le tre aree coperte sono:

  • Cybersecurity: sviluppo di exploit, compiti di cyber offensivo e workflow di hacking agentico sono bloccati. Fable 5 ha ottenuto 0,0% su tutti e quattro i benchmark cyber con classificatori attivi, rispetto all’88,4% del modello Mythos sottostante nello sviluppo di exploit per Firefox.
  • Biologia e chimica: la maggior parte delle richieste in questo dominio ricade su Opus 4.8. Le valutazioni interne di Anthropic hanno mostrato che il modello sottostante si avvicina a prestazioni di livello esperto su compiti di progettazione di virus adeno-associati, motivo per cui la copertura è ampia.
  • Distillazione: le richieste segnalate come tentativi di estrarre le capacità di Claude per addestrare modelli concorrenti vengono reindirizzate.

Il meccanismo di fallback non è solo una questione di capacità; è una questione di affidabilità per le pipeline agentiche. Quando Fable 5 instrada verso Opus 4.8, la fatturazione avviene alle tariffe di Opus 4.8, ma stai anche ottenendo un modello diverso (comunque molto valido!) a metà del task. Per una pipeline che si aspetta la profondità di ragionamento di Fable 5 dall’inizio alla fine, un passaggio silenzioso a Opus 4.8 a sessione in corso può infrangere assunzioni sulla qualità dell’output.

GPT-5.5 ha proprie salvaguardie cyber, descritte come classificatori più severi per potenziali rischi informatici. Ma non esiste un fallback silenzioso a un modello più debole. L’approccio di OpenAI è un accesso fidato a livelli: i difensori verificati possono fare domanda su chatgpt.com/cyber per un accesso ampliato con meno restrizioni. Questa strada è più accessibile rispetto al Project Glasswing di Anthropic, che è ancora limitato a un piccolo gruppo di partner approvati.

C’è un altro blocco da nominare chiaramente. Fable 5 e Mythos 5 sono classificati come Covered Models, il che significa che Anthropic richiede la conservazione dei dati per 30 giorni su tutto il traffico, anche per i clienti enterprise precedentemente su piani a conservazione zero. Anthropic afferma che i dati non sono usati per l’addestramento, ma il requisito di conservazione in sé è un ostacolo insormontabile per settori regolamentati. Alcuni clienti enterprise non possono usare affatto Fable 5 a causa di questa policy.

Lavoro di conoscenza e ragionamento

Entrambi i modelli sono forti qui e le differenze sono più ridotte che nel coding. Fable 5 è in testa all’Hebbia’s Finance Benchmark per il ragionamento di livello senior, con il punteggio più alto tra tutti i modelli su ragionamento basato su documenti, interpretazione di grafici e problem solving. IMC ha riportato che Fable 5 ha superato le loro valutazioni per l’analisi di trading su tutta la linea, incluse analisi della causa radice e dell’expected value.

GPT-5.5 è in testa su FrontierMath Tier 4 al 35,4%, avanti rispetto ai punteggi pubblicati di Fable 5. Su GDPval, che testa agenti in 44 professioni, GPT-5.5 ottiene l’84,9%. Su Humanity’s Last Exam con strumenti, Fable 5 è avanti al 64,5% contro il 52,2% di GPT-5.5, un divario significativo per i compiti di ragionamento multidisciplinare.

Prezzi e disponibilità

Il divario di prezzo è reale e si amplifica alla scala. Fable 5 costa $10 per milione di token in input e $50 per milione di token in output. GPT-5.5 costa $5 per milione di token in input e $30 per milione di token in output. Per carichi ad alto volume, quell’aumento del 100%/67% pesa rapidamente.

L’accesso in abbonamento aggiunge un’ulteriore complicazione per Fable 5. Gli abbonati Pro, Max, Team ed Enterprise hanno avuto accesso gratuito fino al 22 giugno. Dopo tale data, per usare Fable 5 servono crediti di utilizzo in aggiunta all’abbonamento esistente. Anthropic afferma di voler ripristinare Fable 5 come funzionalità standard dell’abbonamento quando la capacità lo consentirà, ma non c’è una tempistica certa. GPT-5.5 è stato reso disponibile a Plus, Pro, Business ed Enterprise su ChatGPT e Codex dal primo giorno, con accesso API poco dopo.

Un dettaglio di prezzo utile da sapere: quando una query Fable 5 ricade su Opus 4.8 a causa dei classificatori, la fatturazione avviene alle tariffe di Opus 4.8 ($5 input / $25 output), non a quelle di Fable 5.

Quando scegliere Claude Fable 5 vs GPT-5.5

La decisione si riduce a tre variabili: quanto conta per il tuo lavoro il divario su SWE-Bench Pro, se il tuo dominio attiva i classificatori di Fable 5 e se ti serve performance affidabile oltre i 256K token.

Caso d’uso Consigliato Perché
Ingegneria software a livello di repository Claude Fable 5 80,3% vs 58,6% su SWE-Bench Pro è un divario di 22 punti che riflette reali differenze di capacità su codebase complesse
Strumenti di sicurezza, penetration testing o ricerca in sicurezza offensiva GPT-5.5 I classificatori di Fable 5 bloccheranno o reindirizzeranno gran parte di questo lavoro; il percorso di accesso fidato a livelli di GPT-5.5 è più accessibile
Revisione di documenti legali o sintesi di letteratura scientifica a 500K+ token Entrambi I punteggi MRCR pubblicati a 512K-1M token (74,0%) mostrano che GPT-5.5 regge dove GPT-5.4 crollava; Fable 5 non ha dati pubblicati comparabili, ma promette prestazioni migliori
Finanza e lavoro di conoscenza con documenti complessi Claude Fable 5 In testa all’Hebbia’s Finance Benchmark e a Humanity’s Last Exam con strumenti (64,5% vs 52,2%)
Carichi API ad alto volume dove il costo conta GPT-5.5 $30 vs $50 per milione di token in output; il divario si amplifica alla scala
Pipeline di ricerca biomedica GPT-5.5 (o attendi accesso fidato a Fable 5) I classificatori di biologia di Fable 5 reindirizzeranno la maggior parte delle query biomediche a Opus 4.8 finché il programma di accesso fidato non sarà aperto
Settori regolamentati che richiedono conservazione zero dei dati GPT-5.5 La policy obbligatoria di conservazione a 30 giorni di Fable 5 è un blocco totale per alcuni clienti enterprise

Scegli Claude Fable 5 se...

  • Il tuo caso d’uso principale è l’ingegneria software a livello di repository e il divario di 22 punti su SWE-Bench Pro giustifica il costo di output per token doppio.
  • Il tuo lavoro non è vicino ai domini di cybersecurity, biologia o chimica, quindi è improbabile che i classificatori si attivino nelle tue sessioni.
  • Ti serve il tetto massimo più alto su compiti analitici complessi, inclusi benchmark di finanza e ragionamento multidisciplinare, dove Fable 5 è avanti a doppia cifra.
  • Usi l’API e puoi assorbire $50 per milione di token in output per il guadagno di capacità.

Scegli GPT-5.5 se...

  • Stai costruendo in domini adiacenti alla sicurezza e ti serve un modello che non reindirizzi silenziosamente le richieste a metà pipeline.
  • La policy dati della tua azienda richiede conservazione zero, cosa impossibile con lo status di Covered Model di Fable 5.
  • Ti serve un accesso API prevedibile senza uno “scalino” di abbonamento o un sistema di crediti di utilizzo aggiuntivi sul tuo piano.
  • Conta l’efficienza dei costi e il divario $30 vs $50 per token di output è significativo ai tuoi volumi.

Considerazioni finali

Fable 5 è il modello più capace sui benchmark che contano di più. Il divario su SWE-Bench Pro (80,3% vs 58,6%) non è rumore, e il vantaggio su Humanity’s Last Exam (64,5% vs 52,2% con strumenti) riflette una reale differenza di profondità di ragionamento. Se la pura capacità è l’unica variabile, Fable 5 vince.

Ma l’asterisco sui punteggi di Fable 5 è reale. Quei numeri riflettono il modello Mythos sottostante. Fable 5 è Mythos con classificatori sopra, e per cybersecurity, biomedicina e alcune query dual-use, ottieni invece Opus 4.8. Per le pipeline agentiche non è solo una questione di capacità; è una questione di affidabilità. Una pipeline che si aspetta la profondità di ragionamento di Fable 5 lungo tutto il percorso può rompersi quando il modello cambia silenziosamente a metà del compito. Aggiungi il requisito obbligatorio di conservazione dei dati di 30 giorni, e Fable 5 semplicemente non è (ancora) un’opzione per alcuni clienti enterprise.

C’è una terza opzione che vale la pena nominare. Se il prezzo di Fable 5 è proibitivo e i guadagni di GPT-5.5 sul lungo contesto non contano per il tuo caso d’uso, Claude Opus 4.8 non è un ripiego. Ha già superato GPT-5.5 su SWE-Bench Pro con il 69,2% contro il 58,6%, costa $5/$25 per milione di token e non presenta l’attrito dei classificatori di Fable 5. Approfondiamo la decisione Opus 4.8 vs GPT-5.5 nel nostro articolo su Claude Opus 4.8.

Se vuoi metterti al passo con il lavoro con modelli di frontiera in produzione, ti consigliamo di iniziare con il nostro percorso di competenze AI Fundamentals.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom è un data scientist e formatore tecnico. Scrive e gestisce i tutorial e i post del blog di DataCamp su data science. In precedenza, Tom ha lavorato nella data science presso Deutsche Telekom.

Argomenti

Impara l’AI con DataCamp!

Programma

Fondamenti della ChatGPT

3 h
Esplora gli elementi essenziali della ChatGPT e dell'ingegneria di pronto intervento. Padroneggia i suggerimenti per massimizzare le capacità di ChatGPT.
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow