Sakana Fugu vs. Claude Fable 5: benchmarks, prijzen en meer

Claude Fable 5 wint op benchmarks maar is momenteel geschorst. Sakana Fugu is nu beschikbaar en kost de helft.

Bijgewerkt 25 jun 2026 · 6 min lezen

Sakana presenteert Fugu als een match voor Fable 5, maar sluit Fable 5 uit van de eigen benchmarktabel. Dus vergelijken we de twee modellen naast elkaar, voor zover dat daadwerkelijk kan.

Hier is de achtergrond. De Amerikaanse overheid schorste de publieke toegang tot Claude Fable 5 amper drie dagen nadat Anthropic het lanceerde. En Fable 5 werd gepresenteerd als het meest capabele model. Nu, twee weken later, heeft het Japanse Sakana AI Fugu uitgebracht met forse claims. Eén claim in het bijzonder ging rond: Sakana AI zegt dat Fugu Ultra "schouder aan schouder staat met toonaangevende modellen als Fable 5 en Mythos Preview" op de zwaarste engineering-, wetenschap- en redeneerbenchmarks van de industrie, en dan zonder exportcontrolerisico. CEO David Ha zei op X dat Fugu bewijst dat een verwisselbare pool van georkestreerde agenten kan tippen aan beperkte frontiermodellen zoals Fable.

Die claims zijn lastig te verifiëren omdat Fable 5 helemaal niet in Fugu’s benchmarktabel staat. Sakana sluit het uit omdat het niet publiek toegankelijk is. We doen wat we kunnen: we controleren de handvol benchmarks die in de gepubliceerde tabellen van beide labs voorkomen met overeenkomende baselines. En tot slot bespreken we de prijzen en de toegangssituatie.

Wil je achtergrond over de twee systemen afzonderlijk, dan hebben we daar blogs over: lees onze coverage van Claude Fable 5 en de bespreking van Sakana Fugu.

Wat is Sakana Fugu?

Sakana Fugu is niet één getraind model in de gebruikelijke zin. Het is een orkestrator: een model dat je verzoek ontvangt, beslist of het direct antwoordt of delegeert aan specialistische modellen in een pool, verificatie en synthese beheert en één reactie terugstuurt via een OpenAI-compatibele API. Van buitenaf roep je één endpoint aan; onder de motorkap doet een gecoördineerde set frontiermodellen het werk.

Het komt in twee varianten. Fugu balanceert kwaliteit met lage latentie en is gepositioneerd als de alledaagse standaard voor coderen, review en interactieve services. Fugu Ultra coördineert een diepere pool van expertagenten en is afgestemd op maximale antwoordkwaliteit bij moeilijke, meerstapsproblemen — paperreproductie, cyberbeveiligingsanalyse, data science à la Kaggle, octrooionderzoeken.

Het idee bestaat eigenlijk uit twee ideeën.

Ten eerste, geleerde orkestratie: de coördinator is getraind om te beslissen wanneer te delegeren en hoe outputs te combineren, in plaats van een handmatig gecodeerde pipeline te draaien.
Ten tweede, een verwisselbare agentenpool: wanneer een nieuw frontiermodel publiek beschikbaar komt, verwacht Sakana ongeveer twee weken nodig te hebben om het in te passen. (Belangrijk voor de rest van het artikel: Fable 5 zit daar niet in omdat het niet publiek toegankelijk is.)

Wat is Claude Fable 5?

Claude Fable 5 is een Mythos-klasse model, een niveau dat Anthropic boven de Opus-klasse positioneert, geschikt gemaakt voor algemeen gebruik via een set classifiers. Het is hetzelfde onderliggende model als Claude Mythos 5; het verschil is dat Fable 5 draait (draaide) met actieve veiligheidsclassifiers, terwijl bij Mythos 5 sommige daarvan zijn opgeheven en het is beperkt tot Project Glasswing-partners en geselecteerde biologieredearchers.

Anthropic claimde dat Fable 5 state-of-the-art was op bijna elke benchmark die Anthropic volgt, met een groeiende voorsprong op langere, complexere taken. Het belangrijkste praktische detail: wanneer een query raakt aan cyberbeveiliging, biologie/chemie of modeldistillatie, leidt een tweefasen-classifier de reactie om naar Claude Opus 4.8 en meldt dat aan de gebruiker.

Sakana Fugu vs. Claude Fable 5: benchmarks

Sakana’s gepubliceerde vergelijkingstabel sluit Fable 5 en Mythos Preview uit, omdat die niet publiek toegankelijk zijn en dus niet in Fugu’s pool kunnen zitten. Fugu’s officiële cijfers worden daarom afgezet tegen Opus 4.8, GPT-5.5 en Gemini 3.1 Pro, die je allemaal in de onderstaande tabel ziet. Je ziet Fugu winnen op 10 van de 11 benchmarks.

Benchmark	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* mini-swe-agent scaffolding. † door providers gerapporteerde baselines. Alle Fugu-scores zijn door Sakana gerapporteerd en nog niet onafhankelijk gereproduceerd.

Om Fable 5 in beeld te krijgen, heb ik de benchmarks gekruist die in zowel Anthropics als Sakana’s tabellen voorkomen, en gecontroleerd dat de gedeelde baselines overeenkomen. Op SWE-Bench Pro en Humanity's Last Exam (geen tools) zijn de cijfers voor Opus 4.8, GPT-5.5 en Gemini 3.1 Pro identiek in beide bronnen — dus die twee vergelijkingen zijn zuiver. Teruggebracht tot alleen de twee systemen ziet de head-to-head er zo uit:

Benchmark	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Leider
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6,6)
Humanity's Last Exam (geen tools)	47.2	50.0	59.0	Fable 5 (+9,0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5,9)

‡ De twee labs rapporteren verschillende baselines en gebruiken verschillende scaffolds voor TerminalBench, dus de omstandigheden zijn niet identiek.

Dit zijn de enige benchmarks die in de gepubliceerde tabellen van beide labs voorkomen met overeenkomende baselines, waardoor de rest van de vergelijking kwalitatief moet blijven. Fable 5 leidt op alle drie.

Dus, op elke benchmark waar een side-by-side überhaupt mogelijk is, ligt Fable 5 zo’n 6–9 punten voor op Fugu Ultra. Dat past bij waar Fable 5 voor is ontworpen: langetermijntaken die achteraf worden beoordeeld, waar één sterker model minder opeenstapelende fouten maakt.

Samengevat:

Alle Fugu-cijfers zijn zelf gerapporteerd en zijn nog niet op externe leaderboards verschenen.
Sakana typeert Fugu als "schouder aan schouder" met Fable 5 en Mythos Preview. Gezien de bovenstaande verschillen is dat verdedigbaar maar wel royaal. "Dichtbij, maar volgend" is nauwkeuriger.
De vergelijkingssets overlappen maar deels. Fable 5 loopt voor op visie (het kan de broncode van een webapp herbouwen op basis van screenshots), waar Fugu zich helemaal niet op richt; Fugu publiceert long-context- en bankbenchmarks die in Anthropics tabel niet voorkomen. Ze zijn dus geoptimaliseerd voor enigszins andere soorten werk.

Sakana Fugu vs. Claude Fable 5: beschikbaarheid en toegang

Claude Fable 5 is momenteel geschorst. Anthropic trok op 12 juni de toegang tot zowel Fable 5 als Mythos 5 in na een Amerikaanse exportcontroledirective, en zegt te werken aan zo snel mogelijke hersteltoegang. Anthropics andere modellen, zoals Opus 4.8, zijn nog steeds beschikbaar.

Sakana Fugu is nu beschikbaar via console.sakana.ai met een OpenAI-compatibele API — behalve in de EU en EER, waar Sakana de beschikbaarheid heeft gepauzeerd terwijl het aan AVG-naleving werkt. Ik kon daar geen exacte tijdlijn voor krijgen.

Op dit moment kan een Europees team mogelijk geen van beide modellen gebruiken.

Tot slot

Op papier is dit een echte, spannende strijd tussen twee filosofieën.

Anthropic denkt in termen van schaal — één Mythos-klasse model dat zó capabel is dat er een parallel classifiersysteem nodig is.

Sakana zet in op coördinatie — dat een getrainde orkestrator boven een verwisselbare pool binnen slagafstand kan blijven van elk afzonderlijk frontiermodel, terwijl het goedkoper, veerkrachtiger en provider-agnostisch is.

De benchmarks, letterlijk genomen, zeggen dat Anthropics weddenschap het sterkere artefact oplevert op de vergelijkbare tests, terwijl Sakana’s de meer beschikbare en goedkopere oplevert.

Author

Josef Waples

Is Sakana Fugu beter dan Claude Fable 5?

Waarom staat Fable 5 niet in Fugu's benchmarktabel?

Welke is goedkoper?

Komt Fable 5 terug?

Omzeilt Fugu de schorsing van Fable 5 eigenlijk?

Onderwerpen

Kunstmatige intelligentie

Leer AI met DataCamp

Leerpad

AI voor softwareontwikkeling

7 Hr

Schrijf code en bouw sneller dan ooit softwareapplicaties met de nieuwste AI-ontwikkelaarstools, zoals GitHub Copilot, Windsurf en Replit.

Bekijk details

Begin met de cursus

Cursus

Software Development with Claude Code

4 Hr

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

Bekijk details

Begin met de cursus

Cursus

Introduction to Agent Skills

2 Hr 30 Min

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

Bekijk details

Begin met de cursus

Meer zien

Gerelateerd