Lernpfad
Sakana bewirbt Fugu als ebenbürtig zu Fable 5, lässt Fable 5 aber in der eigenen Benchmark-Tabelle weg. Also vergleichen wir beide Modelle Seite an Seite – so weit das aktuell möglich ist.
Zur Vorgeschichte: Die US-Regierung hat den öffentlichen Zugang zu Claude Fable 5 kaum drei Tage nach dem Launch durch Anthropic ausgesetzt. Und Fable 5 wurde als das leistungsfähigste Modell angekündigt. Zwei Wochen später bringt Tokios Sakana AI Fugu mit großen Versprechen auf den Markt. Eines davon machte besonders die Runde: Sakana AI sagt, Fugu Ultra stehe „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“ bei den härtesten Engineering-, Wissenschafts- und Reasoning-Benchmarks der Branche – und das ohne Exportkontroll-Risiko. CEO David Ha sagte auf X, Fugu beweise, dass ein austauschbarer Pool orchestrierter Agenten mit eingeschränkten Spitzenmodellen wie Fable mithalten kann.
Die Aussagen sind schwer zu überprüfen, weil Fable 5 in Fugus Benchmark-Tabelle gar nicht vorkommt. Sakana schließt es mit der Begründung aus, es sei nicht öffentlich zugänglich. Wir tun, was möglich ist: Wir prüfen die wenigen Benchmarks, die in beiden publizierten Tabellen der Labs mit identischen Baselines auftauchen. Und zum Schluss sprechen wir über Preise und die Zugänglichkeit.
Wenn du Hintergrund zu den beiden Systemen einzeln suchst, haben wir Blogartikel dazu: Lies unsere Claude Fable 5 Analyse und den Sakana Fugu Überblick.
Was ist Sakana Fugu?
Sakana Fugu ist kein einzelnes trainiertes Modell im klassischen Sinn. Es ist ein Orchestrator: ein Modell, das deine Anfrage entgegennimmt, entscheidet, ob es direkt antwortet oder an Spezialisten im Pool delegiert, Verifikation und Synthese steuert und eine Antwort über eine einzige OpenAI-kompatible API zurückliefert. Von außen rufst du einen Endpunkt auf; unter der Haube arbeitet ein koordiniertes Set von Spitzenmodellen.
Es gibt zwei Varianten. Fugu balanciert Qualität mit niedriger Latenz und ist als Alltagsstandard für Coding, Reviews und interaktive Services positioniert. Fugu Ultra koordiniert einen größeren Pool von Expertenagenten und ist auf maximale Antwortqualität bei harten, mehrschrittigen Aufgaben getrimmt – Paper-Reproduction, Cybersicherheitsanalysen, Data Science im Kaggle-Stil, Patentrecherchen.
Die Idee sind eigentlich zwei Ideen.
- Erstens: gelerntes Orchestrieren – der Koordinator lernt, wann delegiert und wie Ausgaben kombiniert werden, statt eine handcodierte Pipeline auszuführen.
- Zweitens: ein austauschbarer Agentenpool – sobald ein neues Spitzenmodell öffentlich verfügbar wird, rechnet Sakana mit rund zwei Wochen, um es einzubinden. (Wichtig für den Rest des Artikels: Fable 5 ist nicht in diesem Pool, weil es nicht öffentlich zugänglich ist.)
Was ist Claude Fable 5?
Claude Fable 5 ist ein Mythos-Klassenmodell, eine Stufe, die Anthropic über der Opus-Klasse positioniert, für den allgemeinen Einsatz durch eine Reihe von Klassifikatoren abgesichert. Es ist dasselbe Grundmodell wie Claude Mythos 5; der Unterschied: Fable 5 läuft (lief) mit aktiven Sicherheitsklassifikatoren, während bei Mythos 5 einige davon aufgehoben sind und es Partnern von Project Glasswing sowie ausgewählten Biologieforschenden vorbehalten ist.
Anthropic behauptete, Fable 5 sei bei nahezu allen von Anthropic getrackten Benchmarks führend – mit wachsendem Vorsprung bei längeren, komplexeren Aufgaben. Das wichtigste Praxisdetail: Sobald eine Anfrage Cybersicherheit, Biologie/Chemie oder Modelldistillation berührt, leitet ein zweistufiger Klassifikator die Antwort zu Claude Opus 4.8 um und informiert die Nutzerin/den Nutzer darüber.
Sakana Fugu vs. Claude Fable 5: Benchmarks
Sakanas veröffentlichte Vergleichstabelle schließt Fable 5 und Mythos Preview aus, weil sie nicht öffentlich zugänglich sind und daher nicht in Fugus Pool aufgenommen werden können. Fugus offizielle Zahlen vergleichen sich mit Opus 4.8, GPT-5.5 und Gemini 3.1 Pro – alle siehst du in der Tabelle unten. Fugu liegt in 10 von 11 Benchmarks vorne.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent Scaffolding. † Anbieterreported Baselines. Alle Fugu-Werte sind von Sakana gemeldet und noch nicht unabhängig reproduziert.
Um Fable 5 ins Bild zu holen, habe ich die Benchmarks abgeglichen, die sowohl in Anthropics als auch in Sakanas Tabellen auftauchen, und geprüft, dass die gemeinsamen Baselines übereinstimmen. Bei SWE-Bench Pro und Humanity's Last Exam (ohne Tools) sind die Werte für Opus 4.8, GPT-5.5 und Gemini 3.1 Pro in beiden Quellen identisch – diese Vergleiche sind also sauber. Reduziert auf die beiden Systeme sieht das Kopf-an-Kopf-Rennen so aus:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Führend |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (ohne Tools) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ Die beiden Labs berichten unterschiedliche Baselines und nutzen unterschiedliche Scaffolds für TerminalBench, die Bedingungen sind also nicht identisch.
Das sind die einzigen Benchmarks, die in beiden veröffentlichten Tabellen mit passenden Baselines vorkommen – daher bleibt der Rest des Vergleichs qualitativ. Fable 5 führt alle drei an.
Auf jedem Benchmark, bei dem ein direkter Vergleich überhaupt möglich ist, liegt Fable 5 etwa 6–9 Punkte vor Fugu Ultra. Das passt dazu, wo Fable 5 seine Stärken hat: bei lang angelegten Aufgaben mit Endbewertung, bei denen ein einzelnes stärkeres Modell weniger Fehler kumuliert.
Kurz zusammengefasst:
- Alle Fugu-Werte sind Eigenangaben und tauchen bislang auf keinen Drittanbieter-Leaderboards auf.
- Sakana beschreibt Fugu als „Schulter an Schulter“ mit Fable 5 und Mythos Preview. Angesichts der Lücken oben ist das vertretbar, aber großzügig. „Nah dran, aber hinten“ trifft es besser.
- Die Vergleichssätze überschneiden sich nur teilweise. Fable 5 führt bei Vision (es kann den Quellcode einer Web-App aus Screenshots rekonstruieren), was Fugu gar nicht betont; Fugu veröffentlicht Long-Context- und Banking-Benchmarks, die Anthropics Tabelle nicht abdeckt. Beide sind also für etwas unterschiedliche Arbeitsprofile optimiert.
Sakana Fugu vs. Claude Fable 5: Verfügbarkeit und Zugang
Claude Fable 5 ist derzeit ausgesetzt. Anthropic hat am 12. Juni den Zugang zu Fable 5 und Mythos 5 nach einer US-Exportkontrollrichtlinie gestoppt und arbeitet nach eigenen Angaben daran, den Zugang so schnell wie möglich wiederherzustellen. Andere Modelle wie Opus 4.8 sind weiterhin verfügbar.
Sakana Fugu ist jetzt verfügbar über console.sakana.ai mit einer OpenAI-kompatiblen API – außer in der EU und dem EWR, wo Sakana die Verfügbarkeit pausiert hat, während es die DSGVO-Compliance umsetzt. Eine genaue Timeline konnte ich nicht bekommen.
Aktuell kann ein europäisches Team möglicherweise keines der beiden Modelle nutzen.
Fazit
Auf dem Papier ist das ein enger, echter Wettstreit zwischen zwei Philosophien.
Anthropic setzt auf Skalierung – ein Mythos-Klassenmodell, so leistungsfähig, dass es ein paralleles Klassifikatorsystem braucht.
Sakana setzt auf Koordination – dass ein trainierter Orchestrator über einem austauschbaren Pool in Schlagdistanz zu jedem einzelnen Spitzenmodell bleibt und dabei günstiger, robuster und anbieterunabhängiger ist.
Nimmt man die Benchmarks beim Wort, liefert Anthropics Wette das stärkere Ergebnis bei den vergleichbaren Tests, während Sakanas Ansatz das verfügbarere und günstigere liefert.

Sakana Fugu vs. Claude Fable FAQs
Ist Sakana Fugu besser als Claude Fable 5?
Bei den Benchmarks, bei denen ein direkter Vergleich möglich ist (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), liegt Fable 5 etwa 6–9 Punkte vor Fugu Ultra.
Warum ist Fable 5 nicht in Fugus Benchmark-Tabelle?
Sakana schließt Fable 5 und Mythos Preview aus, weil sie nicht öffentlich zugänglich sind und daher nicht Teil von Fugus Agentenpool sein können. Der offizielle Vergleich erfolgt mit Opus 4.8, GPT-5.5 und Gemini 3.1 Pro, von denen Fugu Ultra 10 von 11 Benchmarks schlägt.
Welches ist günstiger?
Fugu Ultra kostet mit $5/M Input und $30/M Output ungefähr die Hälfte von Fable 5 mit $10/M Input und $50/M Output. Beide bieten Monatsabos mit $20/$100/$200 an.
Kommt Fable 5 zurück?
Anthropic sagt, man arbeite daran, den Zugang zu Fable 5 und Mythos 5 so schnell wie möglich wiederherzustellen, hat aber keine Timeline veröffentlicht. Andere Modelle, darunter Opus 4.8, bleiben derweil verfügbar.
Umgeht Fugu die Aussetzung von Fable 5 tatsächlich?
Nicht direkt – Fable 5 war nie in Fugus Pool, daher kann Fugu dessen spezifische Fähigkeiten nicht „umgehen“ oder wiederherstellen.
