Vai al contenuto principale

Sakana Fugu vs. Claude Fable 5: benchmark, prezzi e altro

Claude Fable 5 vince nei benchmark ma al momento è sospeso. Sakana Fugu è disponibile ora e costa la metà.
Aggiornato 25 giu 2026  · 6 min leggi

Sakana presenta Fugu come allineato a Fable 5, ma esclude Fable 5 dalla sua stessa tabella dei benchmark. Quindi confronteremo i due modelli fianco a fianco per quanto è effettivamente possibile.

Ecco il contesto. Il governo degli Stati Uniti ha sospeso l’accesso pubblico a Claude Fable 5 a poco meno di tre giorni dal lancio da parte di Anthropic. E Fable 5 era presentato come il suo modello più capace. Ora, due settimane dopo, la giapponese Sakana AI ha rilasciato Fugu con affermazioni importanti. Una in particolare ha fatto il giro: Sakana AI dice che Fugu Ultra "sta spalla a spalla con modelli leader come Fable 5 e Mythos Preview" sui benchmark più difficili del settore per ingegneria, scienza e ragionamento, e senza alcun rischio legato ai controlli all’export. Il CEO David Ha ha scritto su X che Fugu dimostra che un pool intercambiabile di agenti orchestrati può eguagliare modelli di frontiera soggetti a restrizioni come Fable.

Le affermazioni sono un po’ difficili da verificare perché Fable 5 non compare affatto nella tabella dei benchmark di Fugu. Sakana lo esclude sostenendo che non è accessibile pubblicamente. Facciamo il possibile: stiamo verificando la manciata di benchmark che compaiono nelle tabelle pubblicate da entrambi i laboratori con baseline corrispondenti. E per chiudere, parleremo di prezzi e della situazione d’accesso

Se vuoi un’infarinatura sui due sistemi presi singolarmente, abbiamo dei post: leggi la nostra copertura di Claude Fable 5 e il nostro approfondimento su Sakana Fugu.

Che cos’è Sakana Fugu?

Sakana Fugu non è un singolo modello addestrato nel senso tradizionale. È un orchestratore: un modello che riceve la tua richiesta, decide se rispondere direttamente o delegare a modelli specialistici in un pool, gestisce verifica e sintesi e restituisce una risposta attraverso una singola API compatibile con OpenAI. Dall’esterno chiami un endpoint; all’interno, un insieme coordinato di modelli di frontiera fa il lavoro.

È disponibile in due varianti. Fugu bilancia qualità e bassa latenza ed è proposto come predefinito quotidiano per coding, review e servizi interattivi. Fugu Ultra coordina un pool più ampio di agenti esperti ed è ottimizzato per la massima qualità delle risposte su problemi difficili e multi-step — riproduzione di paper, analisi di cybersecurity, data science in stile Kaggle, indagini su brevetti.

L’idea è in realtà duplice.

  • Primo, un’orchestrazione appresa: il coordinatore è addestrato a decidere quando delegare e come combinare gli output, invece di eseguire una pipeline scritta a mano.
  • Secondo, un pool di agenti intercambiabile: quando un nuovo modello di frontiera diventa pubblicamente disponibile, Sakana prevede di impiegare circa due settimane per integrarlo. (Importante per il resto dell’articolo: Fable 5 non è in quel pool perché non è accessibile pubblicamente.

Che cos’è Claude Fable 5?

Claude Fable 5 è un modello di classe Mythos, un livello che Anthropic posiziona sopra la classe Opus, reso sicuro per l’uso generale tramite una serie di classificatori. È lo stesso modello sottostante di Claude Mythos 5; la differenza è che Fable 5 gira (girava) con i classificatori di sicurezza attivi, mentre Mythos 5 ne ha alcuni disattivati ed è riservato ai partner di Project Glasswing e a selezionati ricercatori in biologia.

Secondo Anthropic, Fable 5 era all’avanguardia su quasi tutti i benchmark tracciati da Anthropic, con un vantaggio crescente su task più lunghi e complessi. Il dettaglio pratico principale: quando una query tocca cybersecurity, biologia/chimica o distillazione di modelli, un classificatore a due stadi reindirizza la risposta a Claude Opus 4.8 e lo comunica all’utente. 

Sakana Fugu vs. Claude Fable 5: benchmark

La tabella di confronto pubblicata da Sakana esclude Fable 5 e Mythos Preview, sostenendo che non sono accessibili pubblicamente e quindi non possono essere nel pool di Fugu. I numeri ufficiali di Fugu sono quindi misurati rispetto a Opus 4.8, GPT-5.5 e Gemini 3.1 Pro, che puoi vedere tutti nella tabella qui sotto. Lo vedi vincere in 10 benchmark su 11. 

Benchmark Fugu Fugu Ultra Opus 4.8 † Gemini 3.1 Pro † GPT-5.5 †
SWE-Bench Pro * 59.0 73.7 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 49.8 44.4 41.4
CharXiv Reasoning 85.1 86.6 84.2 83.3 84.1
GPQA-D 95.5 95.5 92.0 94.3 93.6
SciCode 60.1 58.7 53.5 58.9 56.1
τ³ Banking 21.7 20.6 20.6 8.4 20.6
Long Context Reasoning 74.7 73.3 67.7 72.7 74.3
MRCRv2 86.6 93.6 87.9 84.9 94.8

* scaffolding mini-swe-agent. † baseline riportate dai provider. Tutti i punteggi di Fugu sono riportati da Sakana e non sono ancora stati riprodotti in modo indipendente.

Per inserire Fable 5 nel quadro, ho incrociato i benchmark che compaiono sia nella tabella di Anthropic sia in quella di Sakana, verificando che le baseline condivise coincidano. Su SWE-Bench Pro e Humanity's Last Exam (senza strumenti), i numeri di Opus 4.8, GPT-5.5 e Gemini 3.1 Pro sono identici in entrambe le fonti — quindi quei due confronti sono puliti. Ridotto ai soli due sistemi, il testa a testa è così:

Benchmark Sakana Fugu Sakana Fugu Ultra Claude Fable 5 Leader
SWE-Bench Pro 59.0 73.7 80.3 Fable 5 (+6.6)
Humanity's Last Exam (no tools) 47.2 50.0 59.0 Fable 5 (+9.0)
Terminal-Bench 2.1 ‡ 80.2 82.1 88.0 Fable 5 (+5.9)

‡ I due laboratori riportano baseline diverse e usano scaffolding differenti per TerminalBench, quindi le condizioni non sono identiche.

Questi tre sono gli unici benchmark che compaiono nelle tabelle pubblicate da entrambi i laboratori con baseline corrispondenti, motivo per cui il resto del confronto deve restare qualitativo. Fable 5 è in testa in tutti e tre.

Quindi, su ogni benchmark in cui è anche solo possibile un confronto diretto, Fable 5 risulta davanti a Fugu Ultra di circa 6–9 punti. È coerente con l’area in cui Fable 5 è progettato per vincere: task a lungo raggio valutati alla fine, dove un singolo modello più forte accumula meno errori composti.

In sintesi:

  1. Tutti i numeri di Fugu sono auto-riportati e non sono ancora comparsi su classifiche di terze parti.
  2. Sakana descrive Fugu come "spalla a spalla" con Fable 5 e Mythos Preview. Dati i divari sopra, è una lettura difendibile ma generosa. "Vicino, ma dietro" è più accurato.
  3. I set di confronto si sovrappongono solo in parte. Fable 5 è in testa sulla visione (può ricostruire il sorgente di una web app da screenshot), che Fugu non enfatizza affatto; Fugu pubblica benchmark su long-context e banking che la tabella di Anthropic non copre. Sono quindi ottimizzati per forme di lavoro in parte diverse.

Sakana Fugu vs. Claude Fable 5: disponibilità e accesso

Claude Fable 5 è attualmente sospeso. Anthropic ha ritirato l’accesso sia a Fable 5 sia a Mythos 5 il 12 giugno a seguito di una direttiva statunitense sui controlli all’export e afferma di essere al lavoro per ripristinare l’accesso il prima possibile. Gli altri modelli di Anthropic, come Opus 4.8, sono ancora disponibili.

Sakana Fugu è disponibile ora tramite console.sakana.ai con un’API compatibile con OpenAI — tranne nell’UE e nello SEE, dove Sakana ha sospeso la disponibilità mentre lavora alla conformità GDPR. Non sono riuscito a ottenere una tempistica precisa.

Al momento, un team europeo potrebbe non riuscire a usare nessuno dei due modelli.

Considerazioni finali

Sulla carta, è una gara serrata e autentica tra due filosofie.

Anthropic ragiona in termini di scala — un modello di classe Mythos così capace da richiedere un sistema di classificatori parallelo.

Sakana punta sul coordinamento — l’idea che un orchestratore addestrato sopra un pool intercambiabile possa restare a distanza di aggancio da qualsiasi singolo modello di frontiera, pur essendo più economico, più resiliente e agnostico rispetto ai provider.

I benchmark, presi alla lettera, dicono che la scommessa di Anthropic produce l’artefatto più forte nei test comparabili, mentre quella di Sakana produce quello più disponibile e più economico.


Josef Waples's photo
Author
Josef Waples

Sono uno scrittore e editor di data science, con contributi a articoli di ricerca su riviste scientifiche. Sono particolarmente interessato ad algebra lineare, statistica, R e affini. Inoltre, gioco anche parecchio a scacchi! 

Sakana Fugu vs. Claude Fable FAQ

Sakana Fugu è migliore di Claude Fable 5?

Sui benchmark in cui è possibile un confronto diretto (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 è davanti a Fugu Ultra di circa 6–9 punti. 

Perché Fable 5 non è nella tabella dei benchmark di Fugu?

Sakana esclude Fable 5 e Mythos Preview perché non sono accessibili pubblicamente e quindi non possono far parte del pool di agenti di Fugu. Il confronto ufficiale è contro Opus 4.8, GPT-5.5 e Gemini 3.1 Pro, che Fugu Ultra batte in 10 benchmark su 11.

Qual è più economico?

Fugu Ultra, a $5/M input e $30/M output, costa circa la metà rispetto ai $10/M input e $50/M output di Fable 5. Entrambi offrono piani in abbonamento mensili da $20/$100/$200.

Fable 5 tornerà disponibile?

Anthropic afferma di lavorare per ripristinare l’accesso a Fable 5 e Mythos 5 il più rapidamente possibile, ma non ha pubblicato una tempistica. Nel frattempo, gli altri modelli, inclusi Opus 4.8, restano disponibili.

Fugu aggira davvero la sospensione di Fable 5?

Non direttamente — Fable 5 non è mai stato nel pool di Fugu, quindi Fugu non può recuperare le sue capacità specifiche.

Argomenti

Impara l’AI con DataCamp

Programma

L'intelligenza artificiale nell'ingegneria del software

7 h
Scrivi codice e crea app software più velocemente che mai con gli ultimi strumenti di sviluppo AI, come GitHub Copilot, Windsurf e Replit.
Vedi dettagliRight Arrow
Inizia il corso
Mostra altroRight Arrow
Correlato

blog

I 15 migliori server MCP remoti che ogni AI builder dovrebbe conoscere nel 2026

Scopri i 15 migliori server MCP remoti che stanno trasformando lo sviluppo AI nel 2026. Scopri come migliorano automazione, ragionamento, sicurezza e velocità dei workflow.
Abid Ali Awan's photo

Abid Ali Awan

15 min

blog

Che cos'è Snowflake? Guida per principianti alla piattaforma dati cloud

Esplora le basi di Snowflake, la piattaforma dati cloud. Scopri la sua architettura, le sue funzionalità e come integrarla nelle tue pipeline di dati.
Tim Lu's photo

Tim Lu

12 min

blog

Tokenizzazione nel NLP: come funziona, sfide e casi d'uso

Guida al preprocessing NLP nel machine learning. Copriamo spaCy, i transformer di Hugging Face e come funziona la tokenizzazione in casi d'uso reali.
Abid Ali Awan's photo

Abid Ali Awan

10 min

Mostra altroMostra altro