Track
Sakana promuje Fugu jako dorównujące Fable 5, ale wyklucza Fable 5 z własnej tabeli benchmarków. Dlatego porównamy oba modele obok siebie, na tyle, na ile to faktycznie możliwe.
Oto tło. Rząd USA zawiesił publiczny dostęp do Claude Fable 5 zaledwie trzy dni po premierze Anthropic. A Fable 5 było przedstawiane jako jego najbardziej zaawansowany model. Teraz, dwa tygodnie później, tokijskie Sakana AI wypuściło Fugu z mocnymi deklaracjami. Jedna z nich szczególnie krąży po sieci: Sakana AI twierdzi, że Fugu Ultra „stoi ramię w ramię z wiodącymi modelami jak Fable 5 i Mythos Preview” na najtrudniejszych branżowych benchmarkach inżynierskich, naukowych i rozumowania — i to bez ryzyka związanego z kontrolą eksportu. CEO David Ha napisał na X, że Fugu dowodzi, iż wymienialna pula orkiestrujących agentów może dorównać ograniczonym modelom z czołówki, takim jak Fable.
Te twierdzenia trudno zweryfikować, bo Fable 5 w ogóle nie ma w tabeli benchmarków Fugu. Sakana wyklucza go, argumentując, że nie jest publicznie dostępny. Robimy więc, co możemy: sprawdzamy garść benchmarków, które pojawiają się w opublikowanych tabelach obu laboratoriów z dopasowanymi punktami odniesienia. Na koniec porozmawiamy o cenach i dostępie.
Jeśli chcesz tła dla każdego z systemów osobno, mamy o tym wpisy: przeczytaj nasze omówienie Claude Fable 5 i tekst o Sakana Fugu.
Czym jest Sakana Fugu?
Sakana Fugu nie jest pojedynczym wytrenowanym modelem w zwykłym sensie. To orkiestrator: model, który przyjmuje twoją prośbę, decyduje, czy odpowiedzieć bezpośrednio, czy przekazać ją wyspecjalizowanym modelom w puli, zarządza weryfikacją i syntezą, a na końcu zwraca jedną odpowiedź przez kompatybilne z OpenAI API. Z zewnątrz wywołujesz jeden endpoint; wewnątrz skoordynowany zestaw modeli z czołówki wykonuje pracę.
Są dwie wersje. Fugu łączy jakość z niskimi opóźnieniami i jest pozycjonowane jako codzienny domyślny wybór do kodowania, review i usług interaktywnych. Fugu Ultra koordynuje głębszą pulę ekspertów-agentów i jest dostrojone pod maksymalną jakość odpowiedzi w trudnych, wieloetapowych zadaniach — od replikacji prac naukowych, przez analizy cyberbezpieczeństwa, po data science w stylu Kaggle i badania patentowe.
Pomysł jest w gruncie rzeczy podwójny.
- Po pierwsze, nauczona orkiestracja: koordynator jest trenowany, by decydować, kiedy delegować i jak łączyć wyniki, zamiast uruchamiać ręcznie zakodowany pipeline.
- Po drugie, wymienialna pula agentów: gdy nowy model z czołówki staje się publicznie dostępny, Sakana zakłada około dwa tygodnie na jego włączenie. (Ważne dla reszty artykułu: Fable 5 nie jest w tej puli, bo nie jest publicznie dostępny.)
Czym jest Claude Fable 5?
Claude Fable 5 to model klasy Mythos, czyli poziom, który Anthropic stawia ponad klasą Opus, uczyniony bezpiecznym do powszechnego użytku dzięki zestawowi klasyfikatorów. To ten sam bazowy model co Claude Mythos 5; różnica polega na tym, że Fable 5 działał z aktywnymi klasyfikatorami bezpieczeństwa, podczas gdy w Mythos 5 część z nich jest zniesiona i model jest ograniczony do partnerów Project Glasswing oraz wybranych badaczy biologii.
Anthropic twierdził, że Fable 5 jest stanem sztuki na niemal każdym benchmarku, który śledzi, a przewaga rośnie przy dłuższych, bardziej złożonych zadaniach. Najważniejszy praktyczny szczegół: gdy zapytanie dotyczy cyberbezpieczeństwa, biologii/chemii lub destylacji modeli, dwustopniowy klasyfikator przekierowuje odpowiedź do Claude Opus 4.8 i informuje o tym użytkownika.
Sakana Fugu vs. Claude Fable 5: benchmarki
Opublikowana przez Sakanę tabela porównań wyklucza Fable 5 i Mythos Preview, ponieważ nie są publicznie dostępne, a więc nie mogą znaleźć się w puli Fugu. Oficjalne wyniki Fugu są więc mierzone na tle Opus 4.8, GPT-5.5 i Gemini 3.1 Pro, które zobaczysz w tabeli poniżej. Widać w niej wygraną w 10 z 11 benchmarków.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* scaffolding mini-swe-agent. † wartości bazowe zgłaszane przez dostawców. Wszystkie wyniki Fugu pochodzą z raportów Sakany i nie zostały jeszcze niezależnie odtworzone.
Aby włączyć Fable 5 do porównania, zestawiłem benchmarki, które pojawiają się w tabelach zarówno Anthropic, jak i Sakany, i sprawdziłem, czy wspólne wartości bazowe się zgadzają. W SWE-Bench Pro i Humanity's Last Exam (bez narzędzi) liczby dla Opus 4.8, GPT-5.5 i Gemini 3.1 Pro są identyczne w obu źródłach — więc te dwa porównania są czyste. Sprowadzając to do samych dwóch systemów, bezpośrednie starcie wygląda tak:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Lider |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6,6) |
| Humanity's Last Exam (bez narzędzi) | 47.2 | 50.0 | 59.0 | Fable 5 (+9,0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5,9) |
‡ Oba laboratoria podają różne wartości bazowe i stosują inne scaffolding dla TerminalBench, więc warunki nie są identyczne.
To jedyne benchmarki, które pojawiają się w opublikowanych tabelach obu laboratoriów z dopasowanymi wartościami bazowymi, dlatego reszta porównania musi pozostać jakościowa. Fable 5 prowadzi we wszystkich trzech.
Zatem na każdym benchmarku, gdzie w ogóle możliwe jest porównanie bezpośrednie, Fable 5 wyprzedza Fugu Ultra o około 6–9 punktów. To spójne z tym, na co Fable 5 jest zbudowane: długie zadania z oceną na końcu, gdzie pojedynczy silniejszy model kumuluje mniej błędów.
Podsumowując:
- Wszystkie liczby Fugu są samozgłoszeniami i jeszcze nie pojawiły się na zewnętrznych listach rankingowych.
- Sakana opisuje Fugu jako „ramię w ramię” z Fable 5 i Mythos Preview. Biorąc pod uwagę powyższe różnice, to obrona możliwa, ale hojna. „Blisko, ale z tyłu” jest trafniejsze.
- Zbiory porównań tylko częściowo się pokrywają. Fable 5 prowadzi w wizji (potrafi odtworzyć źródła aplikacji webowej ze zrzutów ekranu), czego Fugu w ogóle nie akcentuje; Fugu publikuje benchmarki długiego kontekstu i bankowości, których tabela Anthropic nie obejmuje. Są więc zoptymalizowane pod nieco inne typy pracy.
Sakana Fugu vs. Claude Fable 5: dostępność i dostęp
Claude Fable 5 jest obecnie zawieszony. Anthropic wycofał dostęp do Fable 5 i Mythos 5 12 czerwca po dyrektywie kontroli eksportu rządu USA i deklaruje, że pracuje nad jak najszybszym przywróceniem dostępu. Inne modele Anthropic, jak Opus 4.8, pozostają dostępne.
Sakana Fugu jest dostępne już teraz przez console.sakana.ai z API kompatybilnym z OpenAI — z wyjątkiem UE i EOG, gdzie Sakana wstrzymała dostępność na czas prac nad zgodnością z RODO. Nie udało mi się uzyskać dokładnej osi czasu.
W tej chwili europejski zespół może nie mieć dostępu do żadnego z tych modeli.
Na koniec
Na papierze to wyrównany, realny pojedynek dwóch filozofii.
Anthropic myśli w kategoriach skali — jeden model klasy Mythos, tak zdolny, że wymaga równoległego systemu klasyfikatorów.
Sakana stawia na koordynację — że wytrenowany orkiestrator nad wymienialną pulą może pozostawać w zasięgu każdego pojedynczego modelu z czołówki, będąc jednocześnie tańszym, bardziej odpornym i niezależnym od dostawcy.
Benchmarki, traktowane dosłownie, mówią, że zakład Anthropic daje silniejszy artefakt w porównywalnych testach, a zakład Sakany — bardziej dostępny i tańszy.
Sakana Fugu vs. Claude Fable — FAQ
Czy Sakana Fugu jest lepsze niż Claude Fable 5?
Na benchmarkach, gdzie możliwe jest zestawienie bezpośrednie (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 prowadzi nad Fugu Ultra o około 6–9 punktów.
Dlaczego Fable 5 nie ma w tabeli benchmarków Fugu?
Sakana wyklucza Fable 5 i Mythos Preview, ponieważ nie są publicznie dostępne i dlatego nie mogą być częścią puli agentów Fugu. Oficjalne porównanie obejmuje Opus 4.8, GPT-5.5 i Gemini 3.1 Pro — Fugu Ultra wygrywa z nimi w 10 z 11 benchmarków.
Które jest tańsze?
Fugu Ultra, w cenie 5 USD/M wejścia i 30 USD/M wyjścia, kosztuje mniej więcej połowę ceny Fable 5 (10 USD/M wejścia i 50 USD/M wyjścia). Oba oferują miesięczne plany 20/100/200 USD.
Czy Fable 5 wróci?
Anthropic deklaruje, że pracuje nad jak najszybszym przywróceniem dostępu do Fable 5 i Mythos 5, ale nie opublikował harmonogramu. Jego inne modele, w tym Opus 4.8, pozostają w międzyczasie dostępne.
Czy Fugu faktycznie omija zawieszenie Fable 5?
Nie bezpośrednio — Fable 5 nigdy nie był w puli Fugu, więc Fugu nie może odzyskać jego konkretnych możliwości.