Przejdź do głównej treści

Sakana Fugu vs. Claude Fable 5: benchmarki, ceny i więcej

Claude Fable 5 wygrywa w benchmarkach, ale jest obecnie zawieszony. Sakana Fugu jest dostępne już teraz i kosztuje połowę mniej.
Zaktualizowano 25 cze 2026  · 6 min Czytać

Sakana promuje Fugu jako dorównujące Fable 5, ale wyklucza Fable 5 z własnej tabeli benchmarków. Dlatego porównamy oba modele obok siebie, na tyle, na ile to faktycznie możliwe.

Oto tło. Rząd USA zawiesił publiczny dostęp do Claude Fable 5 zaledwie trzy dni po premierze Anthropic. A Fable 5 było przedstawiane jako jego najbardziej zaawansowany model. Teraz, dwa tygodnie później, tokijskie Sakana AI wypuściło Fugu z mocnymi deklaracjami. Jedna z nich szczególnie krąży po sieci: Sakana AI twierdzi, że Fugu Ultra „stoi ramię w ramię z wiodącymi modelami jak Fable 5 i Mythos Preview” na najtrudniejszych branżowych benchmarkach inżynierskich, naukowych i rozumowania — i to bez ryzyka związanego z kontrolą eksportu. CEO David Ha napisał na X, że Fugu dowodzi, iż wymienialna pula orkiestrujących agentów może dorównać ograniczonym modelom z czołówki, takim jak Fable.

Te twierdzenia trudno zweryfikować, bo Fable 5 w ogóle nie ma w tabeli benchmarków Fugu. Sakana wyklucza go, argumentując, że nie jest publicznie dostępny. Robimy więc, co możemy: sprawdzamy garść benchmarków, które pojawiają się w opublikowanych tabelach obu laboratoriów z dopasowanymi punktami odniesienia. Na koniec porozmawiamy o cenach i dostępie.

Jeśli chcesz tła dla każdego z systemów osobno, mamy o tym wpisy: przeczytaj nasze omówienie Claude Fable 5 i tekst o Sakana Fugu.

Czym jest Sakana Fugu?

Sakana Fugu nie jest pojedynczym wytrenowanym modelem w zwykłym sensie. To orkiestrator: model, który przyjmuje twoją prośbę, decyduje, czy odpowiedzieć bezpośrednio, czy przekazać ją wyspecjalizowanym modelom w puli, zarządza weryfikacją i syntezą, a na końcu zwraca jedną odpowiedź przez kompatybilne z OpenAI API. Z zewnątrz wywołujesz jeden endpoint; wewnątrz skoordynowany zestaw modeli z czołówki wykonuje pracę.

Są dwie wersje. Fugu łączy jakość z niskimi opóźnieniami i jest pozycjonowane jako codzienny domyślny wybór do kodowania, review i usług interaktywnych. Fugu Ultra koordynuje głębszą pulę ekspertów-agentów i jest dostrojone pod maksymalną jakość odpowiedzi w trudnych, wieloetapowych zadaniach — od replikacji prac naukowych, przez analizy cyberbezpieczeństwa, po data science w stylu Kaggle i badania patentowe.

Pomysł jest w gruncie rzeczy podwójny.

  • Po pierwsze, nauczona orkiestracja: koordynator jest trenowany, by decydować, kiedy delegować i jak łączyć wyniki, zamiast uruchamiać ręcznie zakodowany pipeline.
  • Po drugie, wymienialna pula agentów: gdy nowy model z czołówki staje się publicznie dostępny, Sakana zakłada około dwa tygodnie na jego włączenie. (Ważne dla reszty artykułu: Fable 5 nie jest w tej puli, bo nie jest publicznie dostępny.)

Czym jest Claude Fable 5?

Claude Fable 5 to model klasy Mythos, czyli poziom, który Anthropic stawia ponad klasą Opus, uczyniony bezpiecznym do powszechnego użytku dzięki zestawowi klasyfikatorów. To ten sam bazowy model co Claude Mythos 5; różnica polega na tym, że Fable 5 działał z aktywnymi klasyfikatorami bezpieczeństwa, podczas gdy w Mythos 5 część z nich jest zniesiona i model jest ograniczony do partnerów Project Glasswing oraz wybranych badaczy biologii.

Anthropic twierdził, że Fable 5 jest stanem sztuki na niemal każdym benchmarku, który śledzi, a przewaga rośnie przy dłuższych, bardziej złożonych zadaniach. Najważniejszy praktyczny szczegół: gdy zapytanie dotyczy cyberbezpieczeństwa, biologii/chemii lub destylacji modeli, dwustopniowy klasyfikator przekierowuje odpowiedź do Claude Opus 4.8 i informuje o tym użytkownika. 

Sakana Fugu vs. Claude Fable 5: benchmarki

Opublikowana przez Sakanę tabela porównań wyklucza Fable 5 i Mythos Preview, ponieważ nie są publicznie dostępne, a więc nie mogą znaleźć się w puli Fugu. Oficjalne wyniki Fugu są więc mierzone na tle Opus 4.8, GPT-5.5 i Gemini 3.1 Pro, które zobaczysz w tabeli poniżej. Widać w niej wygraną w 10 z 11 benchmarków. 

Benchmark Fugu Fugu Ultra Opus 4.8 † Gemini 3.1 Pro † GPT-5.5 †
SWE-Bench Pro * 59.0 73.7 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 49.8 44.4 41.4
CharXiv Reasoning 85.1 86.6 84.2 83.3 84.1
GPQA-D 95.5 95.5 92.0 94.3 93.6
SciCode 60.1 58.7 53.5 58.9 56.1
τ³ Banking 21.7 20.6 20.6 8.4 20.6
Long Context Reasoning 74.7 73.3 67.7 72.7 74.3
MRCRv2 86.6 93.6 87.9 84.9 94.8

* scaffolding mini-swe-agent. † wartości bazowe zgłaszane przez dostawców. Wszystkie wyniki Fugu pochodzą z raportów Sakany i nie zostały jeszcze niezależnie odtworzone.

Aby włączyć Fable 5 do porównania, zestawiłem benchmarki, które pojawiają się w tabelach zarówno Anthropic, jak i Sakany, i sprawdziłem, czy wspólne wartości bazowe się zgadzają. W SWE-Bench Pro i Humanity's Last Exam (bez narzędzi) liczby dla Opus 4.8, GPT-5.5 i Gemini 3.1 Pro są identyczne w obu źródłach — więc te dwa porównania są czyste. Sprowadzając to do samych dwóch systemów, bezpośrednie starcie wygląda tak:

Benchmark Sakana Fugu Sakana Fugu Ultra Claude Fable 5 Lider
SWE-Bench Pro 59.0 73.7 80.3 Fable 5 (+6,6)
Humanity's Last Exam (bez narzędzi) 47.2 50.0 59.0 Fable 5 (+9,0)
Terminal-Bench 2.1 ‡ 80.2 82.1 88.0 Fable 5 (+5,9)

‡ Oba laboratoria podają różne wartości bazowe i stosują inne scaffolding dla TerminalBench, więc warunki nie są identyczne.

To jedyne benchmarki, które pojawiają się w opublikowanych tabelach obu laboratoriów z dopasowanymi wartościami bazowymi, dlatego reszta porównania musi pozostać jakościowa. Fable 5 prowadzi we wszystkich trzech.

Zatem na każdym benchmarku, gdzie w ogóle możliwe jest porównanie bezpośrednie, Fable 5 wyprzedza Fugu Ultra o około 6–9 punktów. To spójne z tym, na co Fable 5 jest zbudowane: długie zadania z oceną na końcu, gdzie pojedynczy silniejszy model kumuluje mniej błędów.

Podsumowując:

  1. Wszystkie liczby Fugu są samozgłoszeniami i jeszcze nie pojawiły się na zewnętrznych listach rankingowych.
  2. Sakana opisuje Fugu jako „ramię w ramię” z Fable 5 i Mythos Preview. Biorąc pod uwagę powyższe różnice, to obrona możliwa, ale hojna. „Blisko, ale z tyłu” jest trafniejsze.
  3. Zbiory porównań tylko częściowo się pokrywają. Fable 5 prowadzi w wizji (potrafi odtworzyć źródła aplikacji webowej ze zrzutów ekranu), czego Fugu w ogóle nie akcentuje; Fugu publikuje benchmarki długiego kontekstu i bankowości, których tabela Anthropic nie obejmuje. Są więc zoptymalizowane pod nieco inne typy pracy.

Sakana Fugu vs. Claude Fable 5: dostępność i dostęp

Claude Fable 5 jest obecnie zawieszony. Anthropic wycofał dostęp do Fable 5 i Mythos 5 12 czerwca po dyrektywie kontroli eksportu rządu USA i deklaruje, że pracuje nad jak najszybszym przywróceniem dostępu. Inne modele Anthropic, jak Opus 4.8, pozostają dostępne.

Sakana Fugu jest dostępne już teraz przez console.sakana.ai z API kompatybilnym z OpenAI — z wyjątkiem UE i EOG, gdzie Sakana wstrzymała dostępność na czas prac nad zgodnością z RODO. Nie udało mi się uzyskać dokładnej osi czasu.

W tej chwili europejski zespół może nie mieć dostępu do żadnego z tych modeli.

Na koniec

Na papierze to wyrównany, realny pojedynek dwóch filozofii.

Anthropic myśli w kategoriach skali — jeden model klasy Mythos, tak zdolny, że wymaga równoległego systemu klasyfikatorów.

Sakana stawia na koordynację — że wytrenowany orkiestrator nad wymienialną pulą może pozostawać w zasięgu każdego pojedynczego modelu z czołówki, będąc jednocześnie tańszym, bardziej odpornym i niezależnym od dostawcy.

Benchmarki, traktowane dosłownie, mówią, że zakład Anthropic daje silniejszy artefakt w porównywalnych testach, a zakład Sakany — bardziej dostępny i tańszy.

Sakana Fugu vs. Claude Fable — FAQ

Czy Sakana Fugu jest lepsze niż Claude Fable 5?

Na benchmarkach, gdzie możliwe jest zestawienie bezpośrednie (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 prowadzi nad Fugu Ultra o około 6–9 punktów. 

Dlaczego Fable 5 nie ma w tabeli benchmarków Fugu?

Sakana wyklucza Fable 5 i Mythos Preview, ponieważ nie są publicznie dostępne i dlatego nie mogą być częścią puli agentów Fugu. Oficjalne porównanie obejmuje Opus 4.8, GPT-5.5 i Gemini 3.1 Pro — Fugu Ultra wygrywa z nimi w 10 z 11 benchmarków.

Które jest tańsze?

Fugu Ultra, w cenie 5 USD/M wejścia i 30 USD/M wyjścia, kosztuje mniej więcej połowę ceny Fable 5 (10 USD/M wejścia i 50 USD/M wyjścia). Oba oferują miesięczne plany 20/100/200 USD.

Czy Fable 5 wróci?

Anthropic deklaruje, że pracuje nad jak najszybszym przywróceniem dostępu do Fable 5 i Mythos 5, ale nie opublikował harmonogramu. Jego inne modele, w tym Opus 4.8, pozostają w międzyczasie dostępne.

Czy Fugu faktycznie omija zawieszenie Fable 5?

Nie bezpośrednio — Fable 5 nigdy nie był w puli Fugu, więc Fugu nie może odzyskać jego konkretnych możliwości.

Tematy

Ucz się AI z DataCamp

Track

AI dla inżynierii oprogramowania

7 godz.
Pisz kod i twórz aplikacje szybciej niż kiedykolwiek dzięki najnowszym narzędziom AI dla deweloperów, w tym GitHub Copilot, Windsurf i Replit.
Zobacz szczegółyRight Arrow
Rozpocznij kurs
Zobacz więcejRight Arrow