Sakana Fugu と Claude Fable 5 の比較：ベンチマーク、料金など

Claude Fable 5 はベンチマークで優位だが現在は提供停止中。Sakana Fugu は今すぐ使えて価格は半額。

更新 2026年6月25日 · 6 分読む

Sakana は Fugu が Fable 5 に匹敵すると宣伝していますが、自社のベンチマーク表からは Fable 5 を除外しています。そこで、可能な範囲で両モデルを並べて比較していきます。

背景から説明します。Anthropic が Claude Fable 5 を発表してから、米政府の指示により一般向けアクセスはわずか 3 日で停止されました。Fable 5 は同社で最も高性能なモデルとして位置づけられていました。その 2 週間後、東京の Sakana AI が Fugu をリリースし、大きな主張を掲げています。中でも注目を集めたのが次の点です。Sakana AI は、Fugu Ultra が業界で最も難易度の高いエンジニアリング、科学、推論系ベンチマークにおいて「Fable 5 や Mythos Preview のような最先端モデルと肩を並べる」とし、しかも輸出規制リスクはないと述べています。CEO の David Ha 氏は X 上で、Fugu は入れ替え可能なエージェント群をオーケストレーションすることで、Fable のような制限付きフロンティアモデルに匹敵できる証拠だと述べました。

ただし、これらの主張は検証がやや難しいのも事実です。というのも、Fable 5 は Fugu のベンチマーク表にまったく載っていないからです。Sakana は、Fable 5 は一般にアクセスできないため除外したとしています。そこで私たちはできる限りの比較を行います。両社が公開している表でベースラインが一致する少数のベンチマークを確認します。最後に、料金とアクセス状況についても触れます。

各システムの個別の背景については、以下のブログをご覧ください。Claude Fable 5 の解説とSakana Fugu のレビューを用意しています。

Sakana Fugu とは？

Sakana Fugu は、一般的な意味での単一の学習済みモデルではありません。オーケストレーターです。リクエストを受け取り、直接回答するか、プール内の専門モデルに委譲するかを判断し、検証と統合を管理し、OpenAI 互換の単一 API を通じて一つの応答を返します。外からは単一のエンドポイントを呼び出すだけで、内部では連携するフロンティアモデル群が処理を担います。

バリアントは 2 種類あります。Fugu は品質と低レイテンシのバランスを取り、コーディング、レビュー、インタラクティブなサービスのデフォルトとして位置づけられています。Fugu Ultra はより深い専門エージェントのプールを調整し、難度の高いマルチステップ課題で最大限の回答品質を狙ってチューニングされています。たとえば論文再現、サイバーセキュリティ解析、Kaggle 風のデータサイエンス、特許調査といった用途です。

このアイデアは、厳密には 2 つのアイデアの組み合わせです。

第一に、学習されたオーケストレーション。手書きのパイプラインではなく、いつ委譲するか、どのように出力を統合するかを判断できるようにコーディネーター自体を学習させます。
第二に、入れ替え可能なエージェント・プール。新たなフロンティアモデルが一般公開されれば、Sakana はおおよそ 2 週間で統合できるとしています。（この記事の要点として重要なのは、Fable 5 は一般にアクセスできないため、このプールには含まれていないことです。）

Claude Fable 5 とは？

Claude Fable 5 は Mythos クラスのモデルで、これは Anthropic が Opus クラスより上位に位置づける階層です。複数の分類器によって一般利用向けに安全性が確保されています。基盤となるモデルは Claude Mythos 5 と同一で、違いは Fable 5 が（していた）安全性分類器を有効にして動作するのに対し、Mythos 5 は一部の分類器が解除され、Project Glasswing のパートナーと一部の生物学研究者に限定されている点です。

Anthropic は、Fable 5 が同社の追跡するほぼすべてのベンチマークで最先端の成績を示し、課題が長く複雑になるほどリードが広がると主張していました。実務上の重要点として、問い合わせがサイバーセキュリティ、生物学／化学、モデル蒸留に関わる場合、2 段階の分類器が応答を Claude Opus 4.8 にリルートし、その旨をユーザーに通知します。

Sakana Fugu と Claude Fable 5 の比較：ベンチマーク

Sakana が公開した比較表では、Fable 5 と Mythos Preview は除外されています。一般にアクセスできず、Fugu のプールに含められないためです。したがって Fugu の公式数値は、Opus 4.8、GPT-5.5、Gemini 3.1 Pro を比較対象としています。以下の表のとおり、11 のベンチマーク中 10 で勝っています。

Benchmark	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* mini-swe-agent のスキャフォールディング。† プロバイダー報告のベースライン。Fugu のスコアはすべて Sakana による報告で、第三者による再現は未了。

Fable 5 を比較に含めるため、Anthropic と Sakana の両方の表に掲載されており、かつ共通のベースラインが一致しているベンチマークを相互参照しました。SWE-Bench Pro とHumanity's Last Exam（ツールなし）では、Opus 4.8、GPT-5.5、Gemini 3.1 Pro の数値が両資料で完全一致しており、この 2 つの比較はクリーンです。2 つのシステムに絞ると、直接対決は次のようになります。

Benchmark	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Leader
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6.6)
Humanity's Last Exam (no tools)	47.2	50.0	59.0	Fable 5 (+9.0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5.9)

‡ 両社は TerminalBench で異なるベースラインを報告し、異なるスキャフォールドを使用しているため、条件は同一ではありません。

ベースラインが一致するかたちで両社の表に掲載されているのは、この 3 つのみです。そのため、残りの比較は定性的にとどめる必要があります。Fable 5 は 3 つすべてでリードしています。

並べて比較可能なベンチマークではすべて、Fable 5 は Fugu Ultra をおおむね 6〜9 ポイント上回っています。これは、Fable 5 が長いホライゾンの課題（最終的な成果で評価されるタイプ）で強みを発揮し、単一の強力なモデルほど誤差の累積が少ないという設計思想と整合的です。

まとめると、

Fugu の数値はすべて自社報告であり、第三者のリーダーボードにはまだ現れていません。
Sakana は Fugu を「Fable 5 や Mythos Preview と肩を並べる」と表現しています。上記の差を踏まえると、その評価は擁護可能ではあるものの寛大です。「近いが後塵を拝する」というのがより正確でしょう。
比較セットは部分的にしか重なっていません。Fable 5 はビジョン分野でリードしています（スクリーンショットから Web アプリのソースを再構築できる）が、Fugu はそこを重視していません。一方で Fugu は長文コンテキストやバンキングのベンチマークを公開していますが、Anthropic の表ではカバーされていません。つまり、両者はやや異なる仕事の形に最適化されています。

Sakana Fugu と Claude Fable 5：提供状況とアクセス

Claude Fable 5 は現在提供停止中です。Anthropic は米国の輸出管理に関する指示を受け、6 月 12 日に Fable 5 と Mythos 5 へのアクセスを停止しました。現在、可能な限り早期の復旧に取り組んでいるとしています。Opus 4.8 など他のモデルは引き続き利用可能です。

Sakana Fugu は現在利用可能で、console.sakana.ai から OpenAI 互換 API でアクセスできます。ただし、EU および EEA では GDPR への適合対応中のため提供を一時停止しています。再開時期は明確ではありませんでした。

現時点では、欧州のチームはいずれのモデルも利用できない可能性があります。

総括

紙面上は、2 つの哲学のあいだで拮抗する真正面の勝負です。

Anthropic はスケールを志向しています。すなわち、並行する分類器システムを要するほど強力な Mythos クラスの単一モデルです。

Sakana は協調に賭けています。入れ替え可能なプール上で訓練されたオーケストレーターにより、どの単独フロンティアモデルにも肉薄しつつ、より安価で堅牢、かつプロバイダー非依存でいられるという発想です。

ベンチマークを額面どおり受け取れば、比較可能なテストでは Anthropic の賭けのほうが強い成果物を生み、Sakana の賭けはより入手しやすく安価な成果物を生み出している、という結果になります。

Sakana Fugu は Claude Fable 5 より優れていますか？

なぜ Fable 5 は Fugu のベンチマーク表に載っていないのですか？

どちらが安いですか？

Fable 5 は再開されますか？

Fugu は実際に Fable 5 の提供停止を回避できていますか？

トピック

人工知能

DataCamp で AI を学ぶ

Tracks

ソフトウェアエンジニアリングのためのAI

7時間

最新のAI開発ツール、GitHub Copilot、Windsurf、Replitを使って、これまで以上に速くコードを書き、ソフトウェアアプリケーションを構築しましょう。

詳細を見る

コースを開始

Courses

Software Development with Claude Code

4時間

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

詳細を見る

コースを開始

Courses

Introduction to Agent Skills

2時間30分

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

詳細を見る

コースを開始

Sakana Fugu とは？

Claude Fable 5 とは？

Sakana Fugu と Claude Fable 5 の比較：ベンチマーク

Sakana Fugu と Claude Fable 5：提供状況とアクセス

総括

Sakana Fugu vs. Claude Fable FAQs

どちらが安いですか？

Fable 5 は再開されますか？

Fugu は実際に Fable 5 の提供停止を回避できていますか？

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}ソフトウェアエンジニアリングのためのAI

Software Development with Claude Code

Introduction to Agent Skills

ソフトウェアエンジニアリングのためのAI