track
Sakana marknadsför Fugu som i nivå med Fable 5, men utesluter Fable 5 från sin egen benchmarktabell. Så vi kommer att jämföra de två modellerna sida vid sida så långt det faktiskt går.
Här är bakgrunden. USA:s regering stängde den offentliga åtkomsten till Claude Fable 5 knappt tre dagar efter att Anthropic lanserade den. Och Fable 5 beskrevs som deras mest kapabla modell. Nu, två veckor senare, har Tokyobaserade Sakana AI släppt Fugu med stora anspråk. Ett påstående i synnerhet har fått spridning: Sakana AI säger att Fugu Ultra "står axel mot axel med ledande modeller som Fable 5 och Mythos Preview" på branschens svåraste prestandatester för ingenjörsarbete, vetenskap och resonemang, och utan några exportkontrollrisker. Vd David Ha sa på X att Fugu bevisar att en utbytbar pool av orkestrerade agenter kan matcha begränsade frontlinjemodeller som Fable.
Påståendena är lite svåra att kontrollera eftersom Fable 5 inte alls finns med i Fugus benchmarktabell. Sakana utesluter den med motiveringen att den inte är offentligt tillgänglig. Vi gör vad vi kan: Vi kontrollerar de få prestandatester som finns i båda labbens publicerade tabeller med matchande baslinjer. Och för att knyta ihop det pratar vi om prissättning och åtkomstläget
Om du vill ha bakgrund om de två systemen var för sig har vi bloggar om det: läs vår genomgång av Claude Fable 5 och skrivupplägg om Sakana Fugu.
Vad är Sakana Fugu?
Sakana Fugu är inte en enskild tränad modell i vanlig bemärkelse. Det är en orkestrerare: en modell som tar emot din förfrågan, avgör om den ska svara direkt eller delegera till specialiserade modeller i en pool, hanterar verifiering och syntes, och returnerar ett svar via ett enda OpenAI-kompatibelt API. Utifrån anropar du en endpoint; på insidan gör en koordinerad uppsättning frontlinjemodeller jobbet.
Den levereras i två varianter. Fugu balanserar kvalitet med låg latens och positioneras som vardagsstandard för kodning, granskning och interaktiva tjänster. Fugu Ultra koordinerar en djupare pool av expertagenter och är trimmad för maximal svarskvalitet på svåra problem i flera steg — reproduktion av artiklar, cybersäkerhetsanalys, data science i Kaggle-stil, patentutredningar.
Idén är egentligen två idéer.
- För det första, lärd orkestrering: koordinatorn tränas för att avgöra när den ska delegera och hur den ska kombinera utdata, i stället för att köra en hårdkodad pipeline.
- För det andra, en utbytbar agentpool: när en ny frontlinjemodell blir offentligt tillgänglig räknar Sakana med att lägga ungefär två veckor på att vika in den. (Viktigt för resten av artikeln: Fable 5 är inte i den poolen eftersom den inte är offentligt tillgänglig.
Vad är Claude Fable 5?
Claude Fable 5 är en Mythos-klassad modell, vilket är en nivå som Anthropic placerar över sin Opus-klass, gjord säker för allmän användning genom en uppsättning klassificerare. Det är samma underliggande modell som Claude Mythos 5; skillnaden är att Fable 5 kör (körde) med säkerhetsklassificerare aktiva, medan Mythos 5 har vissa av dem lyfta och är begränsad till Project Glasswing-partners och utvalda biologiforskare.
Anthropics påstående var att Fable 5 var toppmodern på nästan varje benchmark Anthropic följer, med större ledning på längre, mer komplexa uppgifter. Den praktiska huvuddetaljen: när en fråga rör cybersäkerhet, biologi/kemi eller modelldestillering omdirigerar en tvåstegsklassificerare svaret till Claude Opus 4.8 och informerar användaren om att det skedde.
Sakana Fugu vs. Claude Fable 5: Prestandatester
Sakanas publicerade jämförelsetabell utesluter Fable 5 och Mythos Preview, med motiveringen att de inte är offentligt tillgängliga och därför inte kan ingå i Fugus pool. Så Fugus officiella siffror mäts mot Opus 4.8, GPT-5.5 och Gemini 3.1 Pro, som du alla kan se i tabellen nedan. Du kan se att den vinner på 10 av 11 benchmarks.
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent-ställning. † baslinjer rapporterade av leverantörer. Alla Fugu-poäng är rapporterade av Sakana och har ännu inte reproducerats oberoende.
För att få in Fable 5 i bilden korsrefererade jag de benchmarks som förekommer i både Anthropics och Sakanas tabeller, och kontrollerade att de delade baslinjerna stämde. På SWE-Bench Pro och Humanity's Last Exam (inga verktyg) är siffrorna för Opus 4.8, GPT-5.5 och Gemini 3.1 Pro identiska mellan båda källorna — så de två jämförelserna är rena. Nerskalat till bara de två systemen ser head-to-head ut så här:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Ledare |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6,6) |
| Humanity's Last Exam (inga verktyg) | 47.2 | 50.0 | 59.0 | Fable 5 (+9,0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5,9) |
‡ De två labben rapporterar olika baslinjer och använder olika ställningar för TerminalBench, så förutsättningarna är inte identiska.
Dessa tre är de enda benchmarks som finns i båda labbens publicerade tabeller med matchande baslinjer, vilket är varför resten av jämförelsen måste förbli kvalitativ. Fable 5 leder på alla tre.
Så, på varje benchmark där en sida-vid-sida ens är möjlig, ligger Fable 5 före Fugu Ultra med ungefär 6–9 poäng. Det stämmer med där Fable 5 är byggd för att vinna, nämligen på långsiktiga uppgifter som bedöms i slutet, där en enskilt starkare modell ackumulerar färre fel som förstoras över tid.
Sammanfattningsvis:
- Alla Fugu-siffror är självrapporterade och har ännu inte dykt upp på oberoende topplistor.
- Sakana beskriver Fugu som "axel mot axel" med Fable 5 och Mythos Preview. Givet gapen ovan är det en försvarbar men generös tolkning. "Nära, men efter" är mer träffande.
- Jämförelseseten överlappar bara delvis. Fable 5 leder på vision (den kan återskapa en webbapps källkod från skärmdumpar), vilket Fugu inte alls betonar; Fugu publicerar long-context- och bank-benchmarks som Anthropics tabell inte täcker. Så de är optimerade för något olika typer av arbete.
Sakana Fugu vs. Claude Fable 5: Tillgänglighet och åtkomst
Claude Fable 5 är för närvarande avstängd. Anthropic drog tillbaka åtkomsten till både Fable 5 och Mythos 5 den 12 juni efter ett amerikanskt direktiv om exportkontroller, och säger att de arbetar för att återställa åtkomsten så snart som möjligt. Anthropics andra modeller, som Opus 4.8, finns fortfarande tillgängliga.
Sakana Fugu finns tillgänglig nu via console.sakana.ai med ett OpenAI-kompatibelt API — utom i EU och EES, där Sakana har pausat tillgängligheten medan de arbetar igenom GDPR-efterlevnad. Jag kunde inte få en exakt tidslinje för det.
Just nu kanske ett europeiskt team inte kan använda någon av modellerna.
Avslutande tankar
På papperet är detta en jämn, genuin kamp mellan två filosofier.
Anthropic tänker i termer av skala — en Mythos-klassad modell så kapabel att den behöver ett parallellt klassificeringssystem.
Sakana satsar på koordinering — att en tränad orkestrerare ovanpå en utbytbar pool kan hålla sig inom räckhåll för vilken enskild frontlinjemodell som helst samtidigt som den är billigare, mer motståndskraftig och leverantörsoberoende.
Prestandatesterna, tagna för vad de är, säger att Anthropics satsning ger det starkare artefaktet på de jämförbara testen, medan Sakanas ger det mer tillgängliga och billigare.
Sakana Fugu vs. Claude Fable vanliga frågor
Är Sakana Fugu bättre än Claude Fable 5?
På de prestandatester där en sida-vid-sida är möjlig (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench) leder Fable 5 Fugu Ultra med ungefär 6–9 poäng.
Varför finns inte Fable 5 med i Fugus benchmarktabell?
Sakana utesluter Fable 5 och Mythos Preview eftersom de inte är offentligt tillgängliga och därför inte kan vara en del av Fugus agentpool. Dess officiella jämförelse är mot Opus 4.8, GPT-5.5 och Gemini 3.1 Pro, som Fugu Ultra slår på 10 av 11 benchmarks.
Vilken är billigare?
Fugu Ultra, på $5/M indata och $30/M utdata, kostar ungefär hälften av Fable 5:s $10/M indata och $50/M utdata. Båda erbjuder månatliga abonnemangsplaner på $20/$100/$200.
Kommer Fable 5 tillbaka?
Anthropic säger att de arbetar för att återställa åtkomsten till Fable 5 och Mythos 5 så snabbt som möjligt, men har inte publicerat en tidslinje. Deras andra modeller, inklusive Opus 4.8, är fortsatt tillgängliga under tiden.
Rundar Fugu faktiskt förbi Fable 5:s avstängning?
Inte direkt — Fable 5 var aldrig i Fugus pool, så Fugu kan inte återfå dess specifika kapabiliteter.