Weiter zum Inhalt

Sakana Fugu vs. Claude Fable 5: Benchmarks, Preise & mehr

Claude Fable 5 gewinnt in Benchmarks, ist aber derzeit ausgesetzt. Sakana Fugu ist jetzt verfügbar und kostet nur die Hälfte.
Aktualisiert 25. Juni 2026  · 6 Min. lesen

Sakana bewirbt Fugu als ebenbürtig zu Fable 5, lässt Fable 5 aber in der eigenen Benchmark-Tabelle weg. Also vergleichen wir beide Modelle Seite an Seite – so weit das aktuell möglich ist.

Zur Vorgeschichte: Die US-Regierung hat den öffentlichen Zugang zu Claude Fable 5 kaum drei Tage nach dem Launch durch Anthropic ausgesetzt. Und Fable 5 wurde als das leistungsfähigste Modell angekündigt. Zwei Wochen später bringt Tokios Sakana AI Fugu mit großen Versprechen auf den Markt. Eines davon machte besonders die Runde: Sakana AI sagt, Fugu Ultra stehe „Schulter an Schulter mit führenden Modellen wie Fable 5 und Mythos Preview“ bei den härtesten Engineering-, Wissenschafts- und Reasoning-Benchmarks der Branche – und das ohne Exportkontroll-Risiko. CEO David Ha sagte auf X, Fugu beweise, dass ein austauschbarer Pool orchestrierter Agenten mit eingeschränkten Spitzenmodellen wie Fable mithalten kann.

Die Aussagen sind schwer zu überprüfen, weil Fable 5 in Fugus Benchmark-Tabelle gar nicht vorkommt. Sakana schließt es mit der Begründung aus, es sei nicht öffentlich zugänglich. Wir tun, was möglich ist: Wir prüfen die wenigen Benchmarks, die in beiden publizierten Tabellen der Labs mit identischen Baselines auftauchen. Und zum Schluss sprechen wir über Preise und die Zugänglichkeit.

Wenn du Hintergrund zu den beiden Systemen einzeln suchst, haben wir Blogartikel dazu: Lies unsere Claude Fable 5 Analyse und den Sakana Fugu Überblick.

Was ist Sakana Fugu?

Sakana Fugu ist kein einzelnes trainiertes Modell im klassischen Sinn. Es ist ein Orchestrator: ein Modell, das deine Anfrage entgegennimmt, entscheidet, ob es direkt antwortet oder an Spezialisten im Pool delegiert, Verifikation und Synthese steuert und eine Antwort über eine einzige OpenAI-kompatible API zurückliefert. Von außen rufst du einen Endpunkt auf; unter der Haube arbeitet ein koordiniertes Set von Spitzenmodellen.

Es gibt zwei Varianten. Fugu balanciert Qualität mit niedriger Latenz und ist als Alltagsstandard für Coding, Reviews und interaktive Services positioniert. Fugu Ultra koordiniert einen größeren Pool von Expertenagenten und ist auf maximale Antwortqualität bei harten, mehrschrittigen Aufgaben getrimmt – Paper-Reproduction, Cybersicherheitsanalysen, Data Science im Kaggle-Stil, Patentrecherchen.

Die Idee sind eigentlich zwei Ideen.

  • Erstens: gelerntes Orchestrieren – der Koordinator lernt, wann delegiert und wie Ausgaben kombiniert werden, statt eine handcodierte Pipeline auszuführen.
  • Zweitens: ein austauschbarer Agentenpool – sobald ein neues Spitzenmodell öffentlich verfügbar wird, rechnet Sakana mit rund zwei Wochen, um es einzubinden. (Wichtig für den Rest des Artikels: Fable 5 ist nicht in diesem Pool, weil es nicht öffentlich zugänglich ist.)

Was ist Claude Fable 5?

Claude Fable 5 ist ein Mythos-Klassenmodell, eine Stufe, die Anthropic über der Opus-Klasse positioniert, für den allgemeinen Einsatz durch eine Reihe von Klassifikatoren abgesichert. Es ist dasselbe Grundmodell wie Claude Mythos 5; der Unterschied: Fable 5 läuft (lief) mit aktiven Sicherheitsklassifikatoren, während bei Mythos 5 einige davon aufgehoben sind und es Partnern von Project Glasswing sowie ausgewählten Biologieforschenden vorbehalten ist.

Anthropic behauptete, Fable 5 sei bei nahezu allen von Anthropic getrackten Benchmarks führend – mit wachsendem Vorsprung bei längeren, komplexeren Aufgaben. Das wichtigste Praxisdetail: Sobald eine Anfrage Cybersicherheit, Biologie/Chemie oder Modelldistillation berührt, leitet ein zweistufiger Klassifikator die Antwort zu Claude Opus 4.8 um und informiert die Nutzerin/den Nutzer darüber. 

Sakana Fugu vs. Claude Fable 5: Benchmarks

Sakanas veröffentlichte Vergleichstabelle schließt Fable 5 und Mythos Preview aus, weil sie nicht öffentlich zugänglich sind und daher nicht in Fugus Pool aufgenommen werden können. Fugus offizielle Zahlen vergleichen sich mit Opus 4.8, GPT-5.5 und Gemini 3.1 Pro – alle siehst du in der Tabelle unten. Fugu liegt in 10 von 11 Benchmarks vorne. 

Benchmark Fugu Fugu Ultra Opus 4.8 † Gemini 3.1 Pro † GPT-5.5 †
SWE-Bench Pro * 59.0 73.7 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 49.8 44.4 41.4
CharXiv Reasoning 85.1 86.6 84.2 83.3 84.1
GPQA-D 95.5 95.5 92.0 94.3 93.6
SciCode 60.1 58.7 53.5 58.9 56.1
τ³ Banking 21.7 20.6 20.6 8.4 20.6
Long Context Reasoning 74.7 73.3 67.7 72.7 74.3
MRCRv2 86.6 93.6 87.9 84.9 94.8

* mini-swe-agent Scaffolding. † Anbieterreported Baselines. Alle Fugu-Werte sind von Sakana gemeldet und noch nicht unabhängig reproduziert.

Um Fable 5 ins Bild zu holen, habe ich die Benchmarks abgeglichen, die sowohl in Anthropics als auch in Sakanas Tabellen auftauchen, und geprüft, dass die gemeinsamen Baselines übereinstimmen. Bei SWE-Bench Pro und Humanity's Last Exam (ohne Tools) sind die Werte für Opus 4.8, GPT-5.5 und Gemini 3.1 Pro in beiden Quellen identisch – diese Vergleiche sind also sauber. Reduziert auf die beiden Systeme sieht das Kopf-an-Kopf-Rennen so aus:

Benchmark Sakana Fugu Sakana Fugu Ultra Claude Fable 5 Führend
SWE-Bench Pro 59.0 73.7 80.3 Fable 5 (+6.6)
Humanity's Last Exam (ohne Tools) 47.2 50.0 59.0 Fable 5 (+9.0)
Terminal-Bench 2.1 ‡ 80.2 82.1 88.0 Fable 5 (+5.9)

‡ Die beiden Labs berichten unterschiedliche Baselines und nutzen unterschiedliche Scaffolds für TerminalBench, die Bedingungen sind also nicht identisch.

Das sind die einzigen Benchmarks, die in beiden veröffentlichten Tabellen mit passenden Baselines vorkommen – daher bleibt der Rest des Vergleichs qualitativ. Fable 5 führt alle drei an.

Auf jedem Benchmark, bei dem ein direkter Vergleich überhaupt möglich ist, liegt Fable 5 etwa 6–9 Punkte vor Fugu Ultra. Das passt dazu, wo Fable 5 seine Stärken hat: bei lang angelegten Aufgaben mit Endbewertung, bei denen ein einzelnes stärkeres Modell weniger Fehler kumuliert.

Kurz zusammengefasst:

  1. Alle Fugu-Werte sind Eigenangaben und tauchen bislang auf keinen Drittanbieter-Leaderboards auf.
  2. Sakana beschreibt Fugu als „Schulter an Schulter“ mit Fable 5 und Mythos Preview. Angesichts der Lücken oben ist das vertretbar, aber großzügig. „Nah dran, aber hinten“ trifft es besser.
  3. Die Vergleichssätze überschneiden sich nur teilweise. Fable 5 führt bei Vision (es kann den Quellcode einer Web-App aus Screenshots rekonstruieren), was Fugu gar nicht betont; Fugu veröffentlicht Long-Context- und Banking-Benchmarks, die Anthropics Tabelle nicht abdeckt. Beide sind also für etwas unterschiedliche Arbeitsprofile optimiert.

Sakana Fugu vs. Claude Fable 5: Verfügbarkeit und Zugang

Claude Fable 5 ist derzeit ausgesetzt. Anthropic hat am 12. Juni den Zugang zu Fable 5 und Mythos 5 nach einer US-Exportkontrollrichtlinie gestoppt und arbeitet nach eigenen Angaben daran, den Zugang so schnell wie möglich wiederherzustellen. Andere Modelle wie Opus 4.8 sind weiterhin verfügbar.

Sakana Fugu ist jetzt verfügbar über console.sakana.ai mit einer OpenAI-kompatiblen API – außer in der EU und dem EWR, wo Sakana die Verfügbarkeit pausiert hat, während es die DSGVO-Compliance umsetzt. Eine genaue Timeline konnte ich nicht bekommen.

Aktuell kann ein europäisches Team möglicherweise keines der beiden Modelle nutzen.

Fazit

Auf dem Papier ist das ein enger, echter Wettstreit zwischen zwei Philosophien.

Anthropic setzt auf Skalierung – ein Mythos-Klassenmodell, so leistungsfähig, dass es ein paralleles Klassifikatorsystem braucht.

Sakana setzt auf Koordination – dass ein trainierter Orchestrator über einem austauschbaren Pool in Schlagdistanz zu jedem einzelnen Spitzenmodell bleibt und dabei günstiger, robuster und anbieterunabhängiger ist.

Nimmt man die Benchmarks beim Wort, liefert Anthropics Wette das stärkere Ergebnis bei den vergleichbaren Tests, während Sakanas Ansatz das verfügbarere und günstigere liefert.


Josef Waples's photo
Author
Josef Waples

Sakana Fugu vs. Claude Fable FAQs

Ist Sakana Fugu besser als Claude Fable 5?

Bei den Benchmarks, bei denen ein direkter Vergleich möglich ist (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), liegt Fable 5 etwa 6–9 Punkte vor Fugu Ultra. 

Warum ist Fable 5 nicht in Fugus Benchmark-Tabelle?

Sakana schließt Fable 5 und Mythos Preview aus, weil sie nicht öffentlich zugänglich sind und daher nicht Teil von Fugus Agentenpool sein können. Der offizielle Vergleich erfolgt mit Opus 4.8, GPT-5.5 und Gemini 3.1 Pro, von denen Fugu Ultra 10 von 11 Benchmarks schlägt.

Welches ist günstiger?

Fugu Ultra kostet mit $5/M Input und $30/M Output ungefähr die Hälfte von Fable 5 mit $10/M Input und $50/M Output. Beide bieten Monatsabos mit $20/$100/$200 an.

Kommt Fable 5 zurück?

Anthropic sagt, man arbeite daran, den Zugang zu Fable 5 und Mythos 5 so schnell wie möglich wiederherzustellen, hat aber keine Timeline veröffentlicht. Andere Modelle, darunter Opus 4.8, bleiben derweil verfügbar.

Umgeht Fugu die Aussetzung von Fable 5 tatsächlich?

Nicht direkt – Fable 5 war nie in Fugus Pool, daher kann Fugu dessen spezifische Fähigkeiten nicht „umgehen“ oder wiederherstellen.

Themen

Lerne KI mit DataCamp

Lernpfad

KI für Softwareentwicklung

7 Std.
Schreib Code und entwickle Software-Apps schneller als je zuvor mit den neuesten KI-Entwicklertools wie GitHub Copilot, Windsurf und Replit.
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Ein kompletter Leitfaden zu den Gehältern von Business-Analysten im Jahr 2026

Finde raus, wie viel du als Business Analyst verdienen kannst und wie du dein jetziges Gehalt aufbessern kannst.
Matt Crabtree's photo

Matt Crabtree

14 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Tutorial

Fibonacci-Folge in Python: Lerne und entdecke Programmiertechniken

Finde raus, wie die Fibonacci-Folge funktioniert. Schau dir die mathematischen Eigenschaften und die Anwendungen in der echten Welt an.
Laiba Siddiqui's photo

Laiba Siddiqui

Tutorial

Python-Anweisungen IF, ELIF und ELSE

In diesem Tutorial lernst du ausschließlich Python if else-Anweisungen kennen.
Sejal Jaiswal's photo

Sejal Jaiswal

Mehr anzeigenMehr anzeigen