Tracks
Sakana は Fugu が Fable 5 に匹敵すると宣伝していますが、自社のベンチマーク表からは Fable 5 を除外しています。そこで、可能な範囲で両モデルを並べて比較していきます。
背景から説明します。Anthropic が Claude Fable 5 を発表してから、米政府の指示により一般向けアクセスはわずか 3 日で停止されました。Fable 5 は同社で最も高性能なモデルとして位置づけられていました。その 2 週間後、東京の Sakana AI が Fugu をリリースし、大きな主張を掲げています。中でも注目を集めたのが次の点です。Sakana AI は、Fugu Ultra が業界で最も難易度の高いエンジニアリング、科学、推論系ベンチマークにおいて「Fable 5 や Mythos Preview のような最先端モデルと肩を並べる」とし、しかも輸出規制リスクはないと述べています。CEO の David Ha 氏は X 上で、Fugu は入れ替え可能なエージェント群をオーケストレーションすることで、Fable のような制限付きフロンティアモデルに匹敵できる証拠だと述べました。
ただし、これらの主張は検証がやや難しいのも事実です。というのも、Fable 5 は Fugu のベンチマーク表にまったく載っていないからです。Sakana は、Fable 5 は一般にアクセスできないため除外したとしています。そこで私たちはできる限りの比較を行います。両社が公開している表でベースラインが一致する少数のベンチマークを確認します。最後に、料金とアクセス状況についても触れます。
各システムの個別の背景については、以下のブログをご覧ください。Claude Fable 5 の解説とSakana Fugu のレビューを用意しています。
Sakana Fugu とは?
Sakana Fugu は、一般的な意味での単一の学習済みモデルではありません。オーケストレーターです。リクエストを受け取り、直接回答するか、プール内の専門モデルに委譲するかを判断し、検証と統合を管理し、OpenAI 互換の単一 API を通じて一つの応答を返します。外からは単一のエンドポイントを呼び出すだけで、内部では連携するフロンティアモデル群が処理を担います。
バリアントは 2 種類あります。Fugu は品質と低レイテンシのバランスを取り、コーディング、レビュー、インタラクティブなサービスのデフォルトとして位置づけられています。Fugu Ultra はより深い専門エージェントのプールを調整し、難度の高いマルチステップ課題で最大限の回答品質を狙ってチューニングされています。たとえば論文再現、サイバーセキュリティ解析、Kaggle 風のデータサイエンス、特許調査といった用途です。
このアイデアは、厳密には 2 つのアイデアの組み合わせです。
- 第一に、学習されたオーケストレーション。手書きのパイプラインではなく、いつ委譲するか、どのように出力を統合するかを判断できるようにコーディネーター自体を学習させます。
- 第二に、入れ替え可能なエージェント・プール。新たなフロンティアモデルが一般公開されれば、Sakana はおおよそ 2 週間で統合できるとしています。(この記事の要点として重要なのは、Fable 5 は一般にアクセスできないため、このプールには含まれていないことです。)
Claude Fable 5 とは?
Claude Fable 5 は Mythos クラスのモデルで、これは Anthropic が Opus クラスより上位に位置づける階層です。複数の分類器によって一般利用向けに安全性が確保されています。基盤となるモデルは Claude Mythos 5 と同一で、違いは Fable 5 が(していた)安全性分類器を有効にして動作するのに対し、Mythos 5 は一部の分類器が解除され、Project Glasswing のパートナーと一部の生物学研究者に限定されている点です。
Anthropic は、Fable 5 が同社の追跡するほぼすべてのベンチマークで最先端の成績を示し、課題が長く複雑になるほどリードが広がると主張していました。実務上の重要点として、問い合わせがサイバーセキュリティ、生物学/化学、モデル蒸留に関わる場合、2 段階の分類器が応答を Claude Opus 4.8 にリルートし、その旨をユーザーに通知します。
Sakana Fugu と Claude Fable 5 の比較:ベンチマーク
Sakana が公開した比較表では、Fable 5 と Mythos Preview は除外されています。一般にアクセスできず、Fugu のプールに含められないためです。したがって Fugu の公式数値は、Opus 4.8、GPT-5.5、Gemini 3.1 Pro を比較対象としています。以下の表のとおり、11 のベンチマーク中 10 で勝っています。
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent のスキャフォールディング。† プロバイダー報告のベースライン。Fugu のスコアはすべて Sakana による報告で、第三者による再現は未了。
Fable 5 を比較に含めるため、Anthropic と Sakana の両方の表に掲載されており、かつ共通のベースラインが一致しているベンチマークを相互参照しました。SWE-Bench Pro とHumanity's Last Exam(ツールなし)では、Opus 4.8、GPT-5.5、Gemini 3.1 Pro の数値が両資料で完全一致しており、この 2 つの比較はクリーンです。2 つのシステムに絞ると、直接対決は次のようになります。
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Leader |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (no tools) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ 両社は TerminalBench で異なるベースラインを報告し、異なるスキャフォールドを使用しているため、条件は同一ではありません。
ベースラインが一致するかたちで両社の表に掲載されているのは、この 3 つのみです。そのため、残りの比較は定性的にとどめる必要があります。Fable 5 は 3 つすべてでリードしています。
並べて比較可能なベンチマークではすべて、Fable 5 は Fugu Ultra をおおむね 6〜9 ポイント上回っています。これは、Fable 5 が長いホライゾンの課題(最終的な成果で評価されるタイプ)で強みを発揮し、単一の強力なモデルほど誤差の累積が少ないという設計思想と整合的です。
まとめると、
- Fugu の数値はすべて自社報告であり、第三者のリーダーボードにはまだ現れていません。
- Sakana は Fugu を「Fable 5 や Mythos Preview と肩を並べる」と表現しています。上記の差を踏まえると、その評価は擁護可能ではあるものの寛大です。「近いが後塵を拝する」というのがより正確でしょう。
- 比較セットは部分的にしか重なっていません。Fable 5 はビジョン分野でリードしています(スクリーンショットから Web アプリのソースを再構築できる)が、Fugu はそこを重視していません。一方で Fugu は長文コンテキストやバンキングのベンチマークを公開していますが、Anthropic の表ではカバーされていません。つまり、両者はやや異なる仕事の形に最適化されています。
Sakana Fugu と Claude Fable 5:提供状況とアクセス
Claude Fable 5 は現在提供停止中です。Anthropic は米国の輸出管理に関する指示を受け、6 月 12 日に Fable 5 と Mythos 5 へのアクセスを停止しました。現在、可能な限り早期の復旧に取り組んでいるとしています。Opus 4.8 など他のモデルは引き続き利用可能です。
Sakana Fugu は現在利用可能で、console.sakana.ai から OpenAI 互換 API でアクセスできます。ただし、EU および EEA では GDPR への適合対応中のため提供を一時停止しています。再開時期は明確ではありませんでした。
現時点では、欧州のチームはいずれのモデルも利用できない可能性があります。
総括
紙面上は、2 つの哲学のあいだで拮抗する真正面の勝負です。
Anthropic はスケールを志向しています。すなわち、並行する分類器システムを要するほど強力な Mythos クラスの単一モデルです。
Sakana は協調に賭けています。入れ替え可能なプール上で訓練されたオーケストレーターにより、どの単独フロンティアモデルにも肉薄しつつ、より安価で堅牢、かつプロバイダー非依存でいられるという発想です。
ベンチマークを額面どおり受け取れば、比較可能なテストでは Anthropic の賭けのほうが強い成果物を生み、Sakana の賭けはより入手しやすく安価な成果物を生み出している、という結果になります。
Sakana Fugu vs. Claude Fable FAQs
Sakana Fugu は Claude Fable 5 より優れていますか?
並べて比較できるベンチマーク(SWE-Bench Pro、Humanity's Last Exam、Terminal-Bench)では、Fable 5 が Fugu Ultra をおおむね 6〜9 ポイント上回っています。
なぜ Fable 5 は Fugu のベンチマーク表に載っていないのですか?
Sakana は、一般にアクセスできず Fugu のエージェント・プールの一部になり得ないという理由で、Fable 5 と Mythos Preview を除外しています。公式の比較対象は Opus 4.8、GPT-5.5、Gemini 3.1 Pro で、Fugu Ultra は 11 のうち 10 のベンチマークでこれらを上回っています。
どちらが安いですか?
Fugu Ultra は入力 $5/M、出力 $30/M と、Fable 5 の入力 $10/M、出力 $50/M のおよそ半額です。どちらも $20/$100/$200 の月額サブスクリプション階層を提供しています。
Fable 5 は再開されますか?
Anthropic は、Fable 5 と Mythos 5 のアクセスをできるだけ早く復旧するよう取り組んでいると述べていますが、時期は公表していません。その間も Opus 4.8 を含む他のモデルは利用可能です。
Fugu は実際に Fable 5 の提供停止を回避できていますか?
直接的にはありません — Fable 5 はもともと Fugu のプールに含まれていないため、Fugu が Fable 5 固有の能力を取り戻すことはできません。