Sakana Fugu vs. Claude Fable 5: benchmarki, ceny i więcej

Claude Fable 5 wygrywa w benchmarkach, ale jest obecnie zawieszony. Sakana Fugu jest dostępne już teraz i kosztuje połowę mniej.

Zaktualizowano 25 cze 2026 · 6 min Czytać

Sakana promuje Fugu jako dorównujące Fable 5, ale wyklucza Fable 5 z własnej tabeli benchmarków. Dlatego porównamy oba modele obok siebie, na tyle, na ile to faktycznie możliwe.

Oto tło. Rząd USA zawiesił publiczny dostęp do Claude Fable 5 zaledwie trzy dni po premierze Anthropic. A Fable 5 było przedstawiane jako jego najbardziej zaawansowany model. Teraz, dwa tygodnie później, tokijskie Sakana AI wypuściło Fugu z mocnymi deklaracjami. Jedna z nich szczególnie krąży po sieci: Sakana AI twierdzi, że Fugu Ultra „stoi ramię w ramię z wiodącymi modelami jak Fable 5 i Mythos Preview” na najtrudniejszych branżowych benchmarkach inżynierskich, naukowych i rozumowania — i to bez ryzyka związanego z kontrolą eksportu. CEO David Ha napisał na X, że Fugu dowodzi, iż wymienialna pula orkiestrujących agentów może dorównać ograniczonym modelom z czołówki, takim jak Fable.

Te twierdzenia trudno zweryfikować, bo Fable 5 w ogóle nie ma w tabeli benchmarków Fugu. Sakana wyklucza go, argumentując, że nie jest publicznie dostępny. Robimy więc, co możemy: sprawdzamy garść benchmarków, które pojawiają się w opublikowanych tabelach obu laboratoriów z dopasowanymi punktami odniesienia. Na koniec porozmawiamy o cenach i dostępie.

Jeśli chcesz tła dla każdego z systemów osobno, mamy o tym wpisy: przeczytaj nasze omówienie Claude Fable 5 i tekst o Sakana Fugu.

Czym jest Sakana Fugu?

Sakana Fugu nie jest pojedynczym wytrenowanym modelem w zwykłym sensie. To orkiestrator: model, który przyjmuje twoją prośbę, decyduje, czy odpowiedzieć bezpośrednio, czy przekazać ją wyspecjalizowanym modelom w puli, zarządza weryfikacją i syntezą, a na końcu zwraca jedną odpowiedź przez kompatybilne z OpenAI API. Z zewnątrz wywołujesz jeden endpoint; wewnątrz skoordynowany zestaw modeli z czołówki wykonuje pracę.

Są dwie wersje. Fugu łączy jakość z niskimi opóźnieniami i jest pozycjonowane jako codzienny domyślny wybór do kodowania, review i usług interaktywnych. Fugu Ultra koordynuje głębszą pulę ekspertów-agentów i jest dostrojone pod maksymalną jakość odpowiedzi w trudnych, wieloetapowych zadaniach — od replikacji prac naukowych, przez analizy cyberbezpieczeństwa, po data science w stylu Kaggle i badania patentowe.

Pomysł jest w gruncie rzeczy podwójny.

Po pierwsze, nauczona orkiestracja: koordynator jest trenowany, by decydować, kiedy delegować i jak łączyć wyniki, zamiast uruchamiać ręcznie zakodowany pipeline.
Po drugie, wymienialna pula agentów: gdy nowy model z czołówki staje się publicznie dostępny, Sakana zakłada około dwa tygodnie na jego włączenie. (Ważne dla reszty artykułu: Fable 5 nie jest w tej puli, bo nie jest publicznie dostępny.)

Czym jest Claude Fable 5?

Claude Fable 5 to model klasy Mythos, czyli poziom, który Anthropic stawia ponad klasą Opus, uczyniony bezpiecznym do powszechnego użytku dzięki zestawowi klasyfikatorów. To ten sam bazowy model co Claude Mythos 5; różnica polega na tym, że Fable 5 działał z aktywnymi klasyfikatorami bezpieczeństwa, podczas gdy w Mythos 5 część z nich jest zniesiona i model jest ograniczony do partnerów Project Glasswing oraz wybranych badaczy biologii.

Anthropic twierdził, że Fable 5 jest stanem sztuki na niemal każdym benchmarku, który śledzi, a przewaga rośnie przy dłuższych, bardziej złożonych zadaniach. Najważniejszy praktyczny szczegół: gdy zapytanie dotyczy cyberbezpieczeństwa, biologii/chemii lub destylacji modeli, dwustopniowy klasyfikator przekierowuje odpowiedź do Claude Opus 4.8 i informuje o tym użytkownika.

Sakana Fugu vs. Claude Fable 5: benchmarki

Opublikowana przez Sakanę tabela porównań wyklucza Fable 5 i Mythos Preview, ponieważ nie są publicznie dostępne, a więc nie mogą znaleźć się w puli Fugu. Oficjalne wyniki Fugu są więc mierzone na tle Opus 4.8, GPT-5.5 i Gemini 3.1 Pro, które zobaczysz w tabeli poniżej. Widać w niej wygraną w 10 z 11 benchmarków.

Benchmark	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* scaffolding mini-swe-agent. † wartości bazowe zgłaszane przez dostawców. Wszystkie wyniki Fugu pochodzą z raportów Sakany i nie zostały jeszcze niezależnie odtworzone.

Aby włączyć Fable 5 do porównania, zestawiłem benchmarki, które pojawiają się w tabelach zarówno Anthropic, jak i Sakany, i sprawdziłem, czy wspólne wartości bazowe się zgadzają. W SWE-Bench Pro i Humanity's Last Exam (bez narzędzi) liczby dla Opus 4.8, GPT-5.5 i Gemini 3.1 Pro są identyczne w obu źródłach — więc te dwa porównania są czyste. Sprowadzając to do samych dwóch systemów, bezpośrednie starcie wygląda tak:

Benchmark	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Lider
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6,6)
Humanity's Last Exam (bez narzędzi)	47.2	50.0	59.0	Fable 5 (+9,0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5,9)

‡ Oba laboratoria podają różne wartości bazowe i stosują inne scaffolding dla TerminalBench, więc warunki nie są identyczne.

To jedyne benchmarki, które pojawiają się w opublikowanych tabelach obu laboratoriów z dopasowanymi wartościami bazowymi, dlatego reszta porównania musi pozostać jakościowa. Fable 5 prowadzi we wszystkich trzech.

Zatem na każdym benchmarku, gdzie w ogóle możliwe jest porównanie bezpośrednie, Fable 5 wyprzedza Fugu Ultra o około 6–9 punktów. To spójne z tym, na co Fable 5 jest zbudowane: długie zadania z oceną na końcu, gdzie pojedynczy silniejszy model kumuluje mniej błędów.

Podsumowując:

Wszystkie liczby Fugu są samozgłoszeniami i jeszcze nie pojawiły się na zewnętrznych listach rankingowych.
Sakana opisuje Fugu jako „ramię w ramię” z Fable 5 i Mythos Preview. Biorąc pod uwagę powyższe różnice, to obrona możliwa, ale hojna. „Blisko, ale z tyłu” jest trafniejsze.
Zbiory porównań tylko częściowo się pokrywają. Fable 5 prowadzi w wizji (potrafi odtworzyć źródła aplikacji webowej ze zrzutów ekranu), czego Fugu w ogóle nie akcentuje; Fugu publikuje benchmarki długiego kontekstu i bankowości, których tabela Anthropic nie obejmuje. Są więc zoptymalizowane pod nieco inne typy pracy.

Sakana Fugu vs. Claude Fable 5: dostępność i dostęp

Claude Fable 5 jest obecnie zawieszony. Anthropic wycofał dostęp do Fable 5 i Mythos 5 12 czerwca po dyrektywie kontroli eksportu rządu USA i deklaruje, że pracuje nad jak najszybszym przywróceniem dostępu. Inne modele Anthropic, jak Opus 4.8, pozostają dostępne.

Sakana Fugu jest dostępne już teraz przez console.sakana.ai z API kompatybilnym z OpenAI — z wyjątkiem UE i EOG, gdzie Sakana wstrzymała dostępność na czas prac nad zgodnością z RODO. Nie udało mi się uzyskać dokładnej osi czasu.

W tej chwili europejski zespół może nie mieć dostępu do żadnego z tych modeli.

Na koniec

Na papierze to wyrównany, realny pojedynek dwóch filozofii.

Anthropic myśli w kategoriach skali — jeden model klasy Mythos, tak zdolny, że wymaga równoległego systemu klasyfikatorów.

Sakana stawia na koordynację — że wytrenowany orkiestrator nad wymienialną pulą może pozostawać w zasięgu każdego pojedynczego modelu z czołówki, będąc jednocześnie tańszym, bardziej odpornym i niezależnym od dostawcy.

Benchmarki, traktowane dosłownie, mówią, że zakład Anthropic daje silniejszy artefakt w porównywalnych testach, a zakład Sakany — bardziej dostępny i tańszy.

Czy Sakana Fugu jest lepsze niż Claude Fable 5?

Dlaczego Fable 5 nie ma w tabeli benchmarków Fugu?

Które jest tańsze?

Czy Fable 5 wróci?

Czy Fugu faktycznie omija zawieszenie Fable 5?

Tematy

Sztuczna inteligencja

Ucz się AI z DataCamp

Track

AI dla inżynierii oprogramowania

7 godz.

Pisz kod i twórz aplikacje szybciej niż kiedykolwiek dzięki najnowszym narzędziom AI dla deweloperów, w tym GitHub Copilot, Windsurf i Replit.

Zobacz szczegóły

Rozpocznij kurs

course

Software Development with Claude Code

4 godz.

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

Zobacz szczegóły

Rozpocznij kurs

course

Introduction to Agent Skills

2 godz. 30 min

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

Zobacz szczegóły

Rozpocznij kurs

Zobacz więcej

Czym jest Sakana Fugu?

Czym jest Claude Fable 5?

Sakana Fugu vs. Claude Fable 5: benchmarki

Sakana Fugu vs. Claude Fable 5: dostępność i dostęp

Na koniec

Sakana Fugu vs. Claude Fable — FAQ

Które jest tańsze?

Czy Fable 5 wróci?

Czy Fugu faktycznie omija zawieszenie Fable 5?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}AI dla inżynierii oprogramowania

Software Development with Claude Code

Introduction to Agent Skills

AI dla inżynierii oprogramowania