Programma
Sakana presenta Fugu come allineato a Fable 5, ma esclude Fable 5 dalla sua stessa tabella dei benchmark. Quindi confronteremo i due modelli fianco a fianco per quanto è effettivamente possibile.
Ecco il contesto. Il governo degli Stati Uniti ha sospeso l’accesso pubblico a Claude Fable 5 a poco meno di tre giorni dal lancio da parte di Anthropic. E Fable 5 era presentato come il suo modello più capace. Ora, due settimane dopo, la giapponese Sakana AI ha rilasciato Fugu con affermazioni importanti. Una in particolare ha fatto il giro: Sakana AI dice che Fugu Ultra "sta spalla a spalla con modelli leader come Fable 5 e Mythos Preview" sui benchmark più difficili del settore per ingegneria, scienza e ragionamento, e senza alcun rischio legato ai controlli all’export. Il CEO David Ha ha scritto su X che Fugu dimostra che un pool intercambiabile di agenti orchestrati può eguagliare modelli di frontiera soggetti a restrizioni come Fable.
Le affermazioni sono un po’ difficili da verificare perché Fable 5 non compare affatto nella tabella dei benchmark di Fugu. Sakana lo esclude sostenendo che non è accessibile pubblicamente. Facciamo il possibile: stiamo verificando la manciata di benchmark che compaiono nelle tabelle pubblicate da entrambi i laboratori con baseline corrispondenti. E per chiudere, parleremo di prezzi e della situazione d’accesso
Se vuoi un’infarinatura sui due sistemi presi singolarmente, abbiamo dei post: leggi la nostra copertura di Claude Fable 5 e il nostro approfondimento su Sakana Fugu.
Che cos’è Sakana Fugu?
Sakana Fugu non è un singolo modello addestrato nel senso tradizionale. È un orchestratore: un modello che riceve la tua richiesta, decide se rispondere direttamente o delegare a modelli specialistici in un pool, gestisce verifica e sintesi e restituisce una risposta attraverso una singola API compatibile con OpenAI. Dall’esterno chiami un endpoint; all’interno, un insieme coordinato di modelli di frontiera fa il lavoro.
È disponibile in due varianti. Fugu bilancia qualità e bassa latenza ed è proposto come predefinito quotidiano per coding, review e servizi interattivi. Fugu Ultra coordina un pool più ampio di agenti esperti ed è ottimizzato per la massima qualità delle risposte su problemi difficili e multi-step — riproduzione di paper, analisi di cybersecurity, data science in stile Kaggle, indagini su brevetti.
L’idea è in realtà duplice.
- Primo, un’orchestrazione appresa: il coordinatore è addestrato a decidere quando delegare e come combinare gli output, invece di eseguire una pipeline scritta a mano.
- Secondo, un pool di agenti intercambiabile: quando un nuovo modello di frontiera diventa pubblicamente disponibile, Sakana prevede di impiegare circa due settimane per integrarlo. (Importante per il resto dell’articolo: Fable 5 non è in quel pool perché non è accessibile pubblicamente.
Che cos’è Claude Fable 5?
Claude Fable 5 è un modello di classe Mythos, un livello che Anthropic posiziona sopra la classe Opus, reso sicuro per l’uso generale tramite una serie di classificatori. È lo stesso modello sottostante di Claude Mythos 5; la differenza è che Fable 5 gira (girava) con i classificatori di sicurezza attivi, mentre Mythos 5 ne ha alcuni disattivati ed è riservato ai partner di Project Glasswing e a selezionati ricercatori in biologia.
Secondo Anthropic, Fable 5 era all’avanguardia su quasi tutti i benchmark tracciati da Anthropic, con un vantaggio crescente su task più lunghi e complessi. Il dettaglio pratico principale: quando una query tocca cybersecurity, biologia/chimica o distillazione di modelli, un classificatore a due stadi reindirizza la risposta a Claude Opus 4.8 e lo comunica all’utente.
Sakana Fugu vs. Claude Fable 5: benchmark
La tabella di confronto pubblicata da Sakana esclude Fable 5 e Mythos Preview, sostenendo che non sono accessibili pubblicamente e quindi non possono essere nel pool di Fugu. I numeri ufficiali di Fugu sono quindi misurati rispetto a Opus 4.8, GPT-5.5 e Gemini 3.1 Pro, che puoi vedere tutti nella tabella qui sotto. Lo vedi vincere in 10 benchmark su 11.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* scaffolding mini-swe-agent. † baseline riportate dai provider. Tutti i punteggi di Fugu sono riportati da Sakana e non sono ancora stati riprodotti in modo indipendente.
Per inserire Fable 5 nel quadro, ho incrociato i benchmark che compaiono sia nella tabella di Anthropic sia in quella di Sakana, verificando che le baseline condivise coincidano. Su SWE-Bench Pro e Humanity's Last Exam (senza strumenti), i numeri di Opus 4.8, GPT-5.5 e Gemini 3.1 Pro sono identici in entrambe le fonti — quindi quei due confronti sono puliti. Ridotto ai soli due sistemi, il testa a testa è così:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Leader |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (no tools) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ I due laboratori riportano baseline diverse e usano scaffolding differenti per TerminalBench, quindi le condizioni non sono identiche.
Questi tre sono gli unici benchmark che compaiono nelle tabelle pubblicate da entrambi i laboratori con baseline corrispondenti, motivo per cui il resto del confronto deve restare qualitativo. Fable 5 è in testa in tutti e tre.
Quindi, su ogni benchmark in cui è anche solo possibile un confronto diretto, Fable 5 risulta davanti a Fugu Ultra di circa 6–9 punti. È coerente con l’area in cui Fable 5 è progettato per vincere: task a lungo raggio valutati alla fine, dove un singolo modello più forte accumula meno errori composti.
In sintesi:
- Tutti i numeri di Fugu sono auto-riportati e non sono ancora comparsi su classifiche di terze parti.
- Sakana descrive Fugu come "spalla a spalla" con Fable 5 e Mythos Preview. Dati i divari sopra, è una lettura difendibile ma generosa. "Vicino, ma dietro" è più accurato.
- I set di confronto si sovrappongono solo in parte. Fable 5 è in testa sulla visione (può ricostruire il sorgente di una web app da screenshot), che Fugu non enfatizza affatto; Fugu pubblica benchmark su long-context e banking che la tabella di Anthropic non copre. Sono quindi ottimizzati per forme di lavoro in parte diverse.
Sakana Fugu vs. Claude Fable 5: disponibilità e accesso
Claude Fable 5 è attualmente sospeso. Anthropic ha ritirato l’accesso sia a Fable 5 sia a Mythos 5 il 12 giugno a seguito di una direttiva statunitense sui controlli all’export e afferma di essere al lavoro per ripristinare l’accesso il prima possibile. Gli altri modelli di Anthropic, come Opus 4.8, sono ancora disponibili.
Sakana Fugu è disponibile ora tramite console.sakana.ai con un’API compatibile con OpenAI — tranne nell’UE e nello SEE, dove Sakana ha sospeso la disponibilità mentre lavora alla conformità GDPR. Non sono riuscito a ottenere una tempistica precisa.
Al momento, un team europeo potrebbe non riuscire a usare nessuno dei due modelli.
Considerazioni finali
Sulla carta, è una gara serrata e autentica tra due filosofie.
Anthropic ragiona in termini di scala — un modello di classe Mythos così capace da richiedere un sistema di classificatori parallelo.
Sakana punta sul coordinamento — l’idea che un orchestratore addestrato sopra un pool intercambiabile possa restare a distanza di aggancio da qualsiasi singolo modello di frontiera, pur essendo più economico, più resiliente e agnostico rispetto ai provider.
I benchmark, presi alla lettera, dicono che la scommessa di Anthropic produce l’artefatto più forte nei test comparabili, mentre quella di Sakana produce quello più disponibile e più economico.

Sono uno scrittore e editor di data science, con contributi a articoli di ricerca su riviste scientifiche. Sono particolarmente interessato ad algebra lineare, statistica, R e affini. Inoltre, gioco anche parecchio a scacchi!
Sakana Fugu vs. Claude Fable FAQ
Sakana Fugu è migliore di Claude Fable 5?
Sui benchmark in cui è possibile un confronto diretto (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 è davanti a Fugu Ultra di circa 6–9 punti.
Perché Fable 5 non è nella tabella dei benchmark di Fugu?
Sakana esclude Fable 5 e Mythos Preview perché non sono accessibili pubblicamente e quindi non possono far parte del pool di agenti di Fugu. Il confronto ufficiale è contro Opus 4.8, GPT-5.5 e Gemini 3.1 Pro, che Fugu Ultra batte in 10 benchmark su 11.
Qual è più economico?
Fugu Ultra, a $5/M input e $30/M output, costa circa la metà rispetto ai $10/M input e $50/M output di Fable 5. Entrambi offrono piani in abbonamento mensili da $20/$100/$200.
Fable 5 tornerà disponibile?
Anthropic afferma di lavorare per ripristinare l’accesso a Fable 5 e Mythos 5 il più rapidamente possibile, ma non ha pubblicato una tempistica. Nel frattempo, gli altri modelli, inclusi Opus 4.8, restano disponibili.
Fugu aggira davvero la sospensione di Fable 5?
Non direttamente — Fable 5 non è mai stato nel pool di Fugu, quindi Fugu non può recuperare le sue capacità specifiche.

