Sakana Fugu vs. Claude Fable 5: Benchmarks, Preise & mehr

Claude Fable 5 gewinnt in Benchmarks, ist aber derzeit ausgesetzt. Sakana Fugu ist jetzt verfügbar und kostet nur die Hälfte.

Aktualisiert 25. Juni 2026 · 6 Min. lesen

Sakana bewirbt Fugu als ebenbürtig zu Fable 5, lässt Fable 5 aber in der eigenen Benchmark-Tabelle weg. Also vergleichen wir beide Modelle Seite an Seite – so weit das aktuell möglich ist.

Zur Vorgeschichte: Die US-Regierung hat den öffentlichen Zugang zu Claude Fable 5 kaum drei Tage nach dem Launch durch Anthropic ausgesetzt. Und Fable 5 wurde als das leistungsfähigste Modell angekündigt. Zwei Wochen später bringt Tokios Sakana AI Fugu mit großen Versprechen auf den Markt. Eines davon machte besonders die Runde: Sakana AI sagt, Fugu Ultra stehe „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“ bei den härtesten Engineering-, Wissenschafts- und Reasoning-Benchmarks der Branche – und das ohne Exportkontroll-Risiko. CEO David Ha sagte auf X, Fugu beweise, dass ein austauschbarer Pool orchestrierter Agenten mit eingeschränkten Spitzenmodellen wie Fable mithalten kann.

Die Aussagen sind schwer zu überprüfen, weil Fable 5 in Fugus Benchmark-Tabelle gar nicht vorkommt. Sakana schließt es mit der Begründung aus, es sei nicht öffentlich zugänglich. Wir tun, was möglich ist: Wir prüfen die wenigen Benchmarks, die in beiden publizierten Tabellen der Labs mit identischen Baselines auftauchen. Und zum Schluss sprechen wir über Preise und die Zugänglichkeit.

Wenn du Hintergrund zu den beiden Systemen einzeln suchst, haben wir Blogartikel dazu: Lies unsere Claude Fable 5 Analyse und den Sakana Fugu Überblick.

Was ist Sakana Fugu?

Sakana Fugu ist kein einzelnes trainiertes Modell im klassischen Sinn. Es ist ein Orchestrator: ein Modell, das deine Anfrage entgegennimmt, entscheidet, ob es direkt antwortet oder an Spezialisten im Pool delegiert, Verifikation und Synthese steuert und eine Antwort über eine einzige OpenAI-kompatible API zurückliefert. Von außen rufst du einen Endpunkt auf; unter der Haube arbeitet ein koordiniertes Set von Spitzenmodellen.

Es gibt zwei Varianten. Fugu balanciert Qualität mit niedriger Latenz und ist als Alltagsstandard für Coding, Reviews und interaktive Services positioniert. Fugu Ultra koordiniert einen größeren Pool von Expertenagenten und ist auf maximale Antwortqualität bei harten, mehrschrittigen Aufgaben getrimmt – Paper-Reproduction, Cybersicherheitsanalysen, Data Science im Kaggle-Stil, Patentrecherchen.

Die Idee sind eigentlich zwei Ideen.

Erstens: gelerntes Orchestrieren – der Koordinator lernt, wann delegiert und wie Ausgaben kombiniert werden, statt eine handcodierte Pipeline auszuführen.
Zweitens: ein austauschbarer Agentenpool – sobald ein neues Spitzenmodell öffentlich verfügbar wird, rechnet Sakana mit rund zwei Wochen, um es einzubinden. (Wichtig für den Rest des Artikels: Fable 5 ist nicht in diesem Pool, weil es nicht öffentlich zugänglich ist.)

Was ist Claude Fable 5?

Claude Fable 5 ist ein Mythos-Klassenmodell, eine Stufe, die Anthropic über der Opus-Klasse positioniert, für den allgemeinen Einsatz durch eine Reihe von Klassifikatoren abgesichert. Es ist dasselbe Grundmodell wie Claude Mythos 5; der Unterschied: Fable 5 läuft (lief) mit aktiven Sicherheitsklassifikatoren, während bei Mythos 5 einige davon aufgehoben sind und es Partnern von Project Glasswing sowie ausgewählten Biologieforschenden vorbehalten ist.

Anthropic behauptete, Fable 5 sei bei nahezu allen von Anthropic getrackten Benchmarks führend – mit wachsendem Vorsprung bei längeren, komplexeren Aufgaben. Das wichtigste Praxisdetail: Sobald eine Anfrage Cybersicherheit, Biologie/Chemie oder Modelldistillation berührt, leitet ein zweistufiger Klassifikator die Antwort zu Claude Opus 4.8 um und informiert die Nutzerin/den Nutzer darüber.

Sakana Fugu vs. Claude Fable 5: Benchmarks

Sakanas veröffentlichte Vergleichstabelle schließt Fable 5 und Mythos Preview aus, weil sie nicht öffentlich zugänglich sind und daher nicht in Fugus Pool aufgenommen werden können. Fugus offizielle Zahlen vergleichen sich mit Opus 4.8, GPT-5.5 und Gemini 3.1 Pro – alle siehst du in der Tabelle unten. Fugu liegt in 10 von 11 Benchmarks vorne.

Benchmark	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* mini-swe-agent Scaffolding. † Anbieterreported Baselines. Alle Fugu-Werte sind von Sakana gemeldet und noch nicht unabhängig reproduziert.

Um Fable 5 ins Bild zu holen, habe ich die Benchmarks abgeglichen, die sowohl in Anthropics als auch in Sakanas Tabellen auftauchen, und geprüft, dass die gemeinsamen Baselines übereinstimmen. Bei SWE-Bench Pro und Humanity's Last Exam (ohne Tools) sind die Werte für Opus 4.8, GPT-5.5 und Gemini 3.1 Pro in beiden Quellen identisch – diese Vergleiche sind also sauber. Reduziert auf die beiden Systeme sieht das Kopf-an-Kopf-Rennen so aus:

Benchmark	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Führend
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6.6)
Humanity's Last Exam (ohne Tools)	47.2	50.0	59.0	Fable 5 (+9.0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5.9)

‡ Die beiden Labs berichten unterschiedliche Baselines und nutzen unterschiedliche Scaffolds für TerminalBench, die Bedingungen sind also nicht identisch.

Das sind die einzigen Benchmarks, die in beiden veröffentlichten Tabellen mit passenden Baselines vorkommen – daher bleibt der Rest des Vergleichs qualitativ. Fable 5 führt alle drei an.

Auf jedem Benchmark, bei dem ein direkter Vergleich überhaupt möglich ist, liegt Fable 5 etwa 6–9 Punkte vor Fugu Ultra. Das passt dazu, wo Fable 5 seine Stärken hat: bei lang angelegten Aufgaben mit Endbewertung, bei denen ein einzelnes stärkeres Modell weniger Fehler kumuliert.

Kurz zusammengefasst:

Alle Fugu-Werte sind Eigenangaben und tauchen bislang auf keinen Drittanbieter-Leaderboards auf.
Sakana beschreibt Fugu als „Schulter an Schulter“ mit Fable 5 und Mythos Preview. Angesichts der Lücken oben ist das vertretbar, aber großzügig. „Nah dran, aber hinten“ trifft es besser.
Die Vergleichssätze überschneiden sich nur teilweise. Fable 5 führt bei Vision (es kann den Quellcode einer Web-App aus Screenshots rekonstruieren), was Fugu gar nicht betont; Fugu veröffentlicht Long-Context- und Banking-Benchmarks, die Anthropics Tabelle nicht abdeckt. Beide sind also für etwas unterschiedliche Arbeitsprofile optimiert.

Sakana Fugu vs. Claude Fable 5: Verfügbarkeit und Zugang

Claude Fable 5 ist derzeit ausgesetzt. Anthropic hat am 12. Juni den Zugang zu Fable 5 und Mythos 5 nach einer US-Exportkontrollrichtlinie gestoppt und arbeitet nach eigenen Angaben daran, den Zugang so schnell wie möglich wiederherzustellen. Andere Modelle wie Opus 4.8 sind weiterhin verfügbar.

Sakana Fugu ist jetzt verfügbar über console.sakana.ai mit einer OpenAI-kompatiblen API – außer in der EU und dem EWR, wo Sakana die Verfügbarkeit pausiert hat, während es die DSGVO-Compliance umsetzt. Eine genaue Timeline konnte ich nicht bekommen.

Aktuell kann ein europäisches Team möglicherweise keines der beiden Modelle nutzen.

Fazit

Auf dem Papier ist das ein enger, echter Wettstreit zwischen zwei Philosophien.

Anthropic setzt auf Skalierung – ein Mythos-Klassenmodell, so leistungsfähig, dass es ein paralleles Klassifikatorsystem braucht.

Sakana setzt auf Koordination – dass ein trainierter Orchestrator über einem austauschbaren Pool in Schlagdistanz zu jedem einzelnen Spitzenmodell bleibt und dabei günstiger, robuster und anbieterunabhängiger ist.

Nimmt man die Benchmarks beim Wort, liefert Anthropics Wette das stärkere Ergebnis bei den vergleichbaren Tests, während Sakanas Ansatz das verfügbarere und günstigere liefert.

Author

Josef Waples

Ist Sakana Fugu besser als Claude Fable 5?

Warum ist Fable 5 nicht in Fugus Benchmark-Tabelle?

Welches ist günstiger?

Kommt Fable 5 zurück?

Umgeht Fugu die Aussetzung von Fable 5 tatsächlich?

Themen

Künstliche Intelligenz

Lerne KI mit DataCamp

Lernpfad

KI für Softwareentwicklung

7 Std.

Schreib Code und entwickle Software-Apps schneller als je zuvor mit den neuesten KI-Entwicklertools wie GitHub Copilot, Windsurf und Replit.

Details anzeigen

Kurs starten

Kurs

Software Development with Claude Code

4 Std.

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

Details anzeigen

Kurs starten

Kurs

Introduction to Agent Skills

2 Std. 30 Min.

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

Details anzeigen

Kurs starten

Verwandt

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.

Hesam Sheikh Hassani

15 Min.

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Finde raus, wie viel du als Business Analyst verdienen kannst und wie du dein jetziges Gehalt aufbessern kannst.

Matt Crabtree

14 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.

Matt Crabtree