Leerpad
Sakana presenteert Fugu als een match voor Fable 5, maar sluit Fable 5 uit van de eigen benchmarktabel. Dus vergelijken we de twee modellen naast elkaar, voor zover dat daadwerkelijk kan.
Hier is de achtergrond. De Amerikaanse overheid schorste de publieke toegang tot Claude Fable 5 amper drie dagen nadat Anthropic het lanceerde. En Fable 5 werd gepresenteerd als het meest capabele model. Nu, twee weken later, heeft het Japanse Sakana AI Fugu uitgebracht met forse claims. Eén claim in het bijzonder ging rond: Sakana AI zegt dat Fugu Ultra "schouder aan schouder staat met toonaangevende modellen als Fable 5 en Mythos Preview" op de zwaarste engineering-, wetenschap- en redeneerbenchmarks van de industrie, en dan zonder exportcontrolerisico. CEO David Ha zei op X dat Fugu bewijst dat een verwisselbare pool van georkestreerde agenten kan tippen aan beperkte frontiermodellen zoals Fable.
Die claims zijn lastig te verifiëren omdat Fable 5 helemaal niet in Fugu’s benchmarktabel staat. Sakana sluit het uit omdat het niet publiek toegankelijk is. We doen wat we kunnen: we controleren de handvol benchmarks die in de gepubliceerde tabellen van beide labs voorkomen met overeenkomende baselines. En tot slot bespreken we de prijzen en de toegangssituatie.
Wil je achtergrond over de twee systemen afzonderlijk, dan hebben we daar blogs over: lees onze coverage van Claude Fable 5 en de bespreking van Sakana Fugu.
Wat is Sakana Fugu?
Sakana Fugu is niet één getraind model in de gebruikelijke zin. Het is een orkestrator: een model dat je verzoek ontvangt, beslist of het direct antwoordt of delegeert aan specialistische modellen in een pool, verificatie en synthese beheert en één reactie terugstuurt via een OpenAI-compatibele API. Van buitenaf roep je één endpoint aan; onder de motorkap doet een gecoördineerde set frontiermodellen het werk.
Het komt in twee varianten. Fugu balanceert kwaliteit met lage latentie en is gepositioneerd als de alledaagse standaard voor coderen, review en interactieve services. Fugu Ultra coördineert een diepere pool van expertagenten en is afgestemd op maximale antwoordkwaliteit bij moeilijke, meerstapsproblemen — paperreproductie, cyberbeveiligingsanalyse, data science à la Kaggle, octrooionderzoeken.
Het idee bestaat eigenlijk uit twee ideeën.
- Ten eerste, geleerde orkestratie: de coördinator is getraind om te beslissen wanneer te delegeren en hoe outputs te combineren, in plaats van een handmatig gecodeerde pipeline te draaien.
- Ten tweede, een verwisselbare agentenpool: wanneer een nieuw frontiermodel publiek beschikbaar komt, verwacht Sakana ongeveer twee weken nodig te hebben om het in te passen. (Belangrijk voor de rest van het artikel: Fable 5 zit daar niet in omdat het niet publiek toegankelijk is.)
Wat is Claude Fable 5?
Claude Fable 5 is een Mythos-klasse model, een niveau dat Anthropic boven de Opus-klasse positioneert, geschikt gemaakt voor algemeen gebruik via een set classifiers. Het is hetzelfde onderliggende model als Claude Mythos 5; het verschil is dat Fable 5 draait (draaide) met actieve veiligheidsclassifiers, terwijl bij Mythos 5 sommige daarvan zijn opgeheven en het is beperkt tot Project Glasswing-partners en geselecteerde biologieredearchers.
Anthropic claimde dat Fable 5 state-of-the-art was op bijna elke benchmark die Anthropic volgt, met een groeiende voorsprong op langere, complexere taken. Het belangrijkste praktische detail: wanneer een query raakt aan cyberbeveiliging, biologie/chemie of modeldistillatie, leidt een tweefasen-classifier de reactie om naar Claude Opus 4.8 en meldt dat aan de gebruiker.
Sakana Fugu vs. Claude Fable 5: benchmarks
Sakana’s gepubliceerde vergelijkingstabel sluit Fable 5 en Mythos Preview uit, omdat die niet publiek toegankelijk zijn en dus niet in Fugu’s pool kunnen zitten. Fugu’s officiële cijfers worden daarom afgezet tegen Opus 4.8, GPT-5.5 en Gemini 3.1 Pro, die je allemaal in de onderstaande tabel ziet. Je ziet Fugu winnen op 10 van de 11 benchmarks.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent scaffolding. † door providers gerapporteerde baselines. Alle Fugu-scores zijn door Sakana gerapporteerd en nog niet onafhankelijk gereproduceerd.
Om Fable 5 in beeld te krijgen, heb ik de benchmarks gekruist die in zowel Anthropics als Sakana’s tabellen voorkomen, en gecontroleerd dat de gedeelde baselines overeenkomen. Op SWE-Bench Pro en Humanity's Last Exam (geen tools) zijn de cijfers voor Opus 4.8, GPT-5.5 en Gemini 3.1 Pro identiek in beide bronnen — dus die twee vergelijkingen zijn zuiver. Teruggebracht tot alleen de twee systemen ziet de head-to-head er zo uit:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Leider |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6,6) |
| Humanity's Last Exam (geen tools) | 47.2 | 50.0 | 59.0 | Fable 5 (+9,0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5,9) |
‡ De twee labs rapporteren verschillende baselines en gebruiken verschillende scaffolds voor TerminalBench, dus de omstandigheden zijn niet identiek.
Dit zijn de enige benchmarks die in de gepubliceerde tabellen van beide labs voorkomen met overeenkomende baselines, waardoor de rest van de vergelijking kwalitatief moet blijven. Fable 5 leidt op alle drie.
Dus, op elke benchmark waar een side-by-side überhaupt mogelijk is, ligt Fable 5 zo’n 6–9 punten voor op Fugu Ultra. Dat past bij waar Fable 5 voor is ontworpen: langetermijntaken die achteraf worden beoordeeld, waar één sterker model minder opeenstapelende fouten maakt.
Samengevat:
- Alle Fugu-cijfers zijn zelf gerapporteerd en zijn nog niet op externe leaderboards verschenen.
- Sakana typeert Fugu als "schouder aan schouder" met Fable 5 en Mythos Preview. Gezien de bovenstaande verschillen is dat verdedigbaar maar wel royaal. "Dichtbij, maar volgend" is nauwkeuriger.
- De vergelijkingssets overlappen maar deels. Fable 5 loopt voor op visie (het kan de broncode van een webapp herbouwen op basis van screenshots), waar Fugu zich helemaal niet op richt; Fugu publiceert long-context- en bankbenchmarks die in Anthropics tabel niet voorkomen. Ze zijn dus geoptimaliseerd voor enigszins andere soorten werk.
Sakana Fugu vs. Claude Fable 5: beschikbaarheid en toegang
Claude Fable 5 is momenteel geschorst. Anthropic trok op 12 juni de toegang tot zowel Fable 5 als Mythos 5 in na een Amerikaanse exportcontroledirective, en zegt te werken aan zo snel mogelijke hersteltoegang. Anthropics andere modellen, zoals Opus 4.8, zijn nog steeds beschikbaar.
Sakana Fugu is nu beschikbaar via console.sakana.ai met een OpenAI-compatibele API — behalve in de EU en EER, waar Sakana de beschikbaarheid heeft gepauzeerd terwijl het aan AVG-naleving werkt. Ik kon daar geen exacte tijdlijn voor krijgen.
Op dit moment kan een Europees team mogelijk geen van beide modellen gebruiken.
Tot slot
Op papier is dit een echte, spannende strijd tussen twee filosofieën.
Anthropic denkt in termen van schaal — één Mythos-klasse model dat zó capabel is dat er een parallel classifiersysteem nodig is.
Sakana zet in op coördinatie — dat een getrainde orkestrator boven een verwisselbare pool binnen slagafstand kan blijven van elk afzonderlijk frontiermodel, terwijl het goedkoper, veerkrachtiger en provider-agnostisch is.
De benchmarks, letterlijk genomen, zeggen dat Anthropics weddenschap het sterkere artefact oplevert op de vergelijkbare tests, terwijl Sakana’s de meer beschikbare en goedkopere oplevert.

Ik ben een schrijver en editor op het gebied van data science en heb bijgedragen aan onderzoeksartikelen in wetenschappelijke tijdschriften. Ik ben vooral geïnteresseerd in lineaire algebra, statistiek, R en dergelijke. Ik speel ook best wat schaak!
Sakana Fugu vs. Claude Fable FAQs
Is Sakana Fugu beter dan Claude Fable 5?
Op de benchmarks waar een side-by-side mogelijk is (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), ligt Fable 5 ongeveer 6–9 punten voor op Fugu Ultra.
Waarom staat Fable 5 niet in Fugu's benchmarktabel?
Sakana sluit Fable 5 en Mythos Preview uit omdat ze niet publiek toegankelijk zijn en daarom geen deel kunnen uitmaken van Fugu's agentenpool. De officiële vergelijking is met Opus 4.8, GPT-5.5 en Gemini 3.1 Pro, die Fugu Ultra op 10 van de 11 benchmarks verslaat.
Welke is goedkoper?
Fugu Ultra, met $5/M input en $30/M output, kost ongeveer de helft van Fable 5's $10/M input en $50/M output. Beide bieden maandabonnementen van $20/$100/$200.
Komt Fable 5 terug?
Anthropic zegt te werken aan zo snel mogelijke hersteltoegang tot Fable 5 en Mythos 5, maar heeft geen tijdlijn gepubliceerd. De andere modellen, waaronder Opus 4.8, blijven intussen beschikbaar.
Omzeilt Fugu de schorsing van Fable 5 eigenlijk?
Niet direct — Fable 5 zat nooit in Fugu's pool, dus Fugu kan de specifieke capaciteiten ervan niet terughalen.
