メインコンテンツへスキップ

Claude Fable 5 と Gemini 3.5 Flash の比較:ベンチマーク、価格、その他

生の能力では Claude Fable 5 が圧倒。しかし Gemini 3.5 Flash は、コストを大幅に抑え、速度も数倍で、フロンティア級に近い性能を提供します。詳しく見ていきましょう。
更新 2026年6月11日  · 9 分 読む

Claude Fable 5(ちなみにリリースはつい2日前)とGemini 3.5 Flashのどちらにするか迷っているなら、実は「フロンティアモデルをどう位置づけるか」という二つの哲学のどちらを選ぶかという話になります。

Claude Fable 5は Anthropic の能力面での上限を示すモデルです。多くのベンチマークで最強クラスの公開モデルであり、価格は 100 万トークンあたり $10/$50。さらに、セッション中にセンシティブな問い合わせを別モデルへ迂回できる分類器システムを備えています。

Gemini 3.5 Flashは、Google が掲げる「速度・コスト・知能」の最適点を狙ったモデルです。Google 自身の大型モデルである Gemini 3.1 Pro をコーディングやエージェント系のベンチマークで上回りつつ、同クラスのフロンティアモデルよりおおよそ 4 倍高速に動作します。価格は 100 万トークンあたり $1.50/$9 と、かなり低価格です。

本記事では、次の5つの観点で両モデルを比較します。

  • コーディング性能とエージェント性能
  • 速度とレイテンシ
  • 長文脈での作業
  • 価格

もし Fable 5 を OpenAI の旗艦モデルと比較したい場合は、別記事をご覧ください:Claude Fable 5 vs GPT-5.5

最新の AI 情報は、毎週金曜に配信する無料ニュースレター「The Median」でお届けしています。1 週間の主要トピックを短時間でキャッチアップできます。上のリンクからぜひ購読してください。

Claude Fable 5 とは?

Claude Fable 5 は、一般利用可能になった Anthropic 初のMythos クラスのモデルです。Fable 5 は Claude Mythos 5 と同一の基盤モデルを共有しますが、安全性の分類器が有効化された状態で提供されます。プローブがすべてのトラフィックで内部アクティベーションを監視し、フラグが立ったリクエストは学習済み LLM の分類器にエスカレーションされます。ブロックされたリクエストは Claude Opus 4.8 に迂回されます。

Fable 5 はほぼすべてのテスト済みベンチマークで最先端の成績を示し、ソフトウェアエンジニアリング、ナレッジワーク、ビジョン、そして長期的なエージェントタスクにおいて非常に強力です。さらに、タスクが長く複雑になるほど、従来の Claude モデルに対するリードは拡大します。

Gemini 3.5 Flash とは?

Gemini 3.5 Flash は Google DeepMind が 5 月に発表したモデルで、Google I/O 2026 で新しい Gemini 3.5 ファミリーの最初のモデルとして公表されました。「Flash」という名前からの印象に反して、いわゆる廉価版ではありません。Google のより大きいGemini 3.1 Proをコーディングおよびエージェント系のスイートで上回りつつ、同等のフロンティアモデルより約 4 倍高速です。

Gemini 3.5 Flash は推論モデルで、思考の工数を示すパラメータ(minimallowmediumhigh)を設定できます。(デフォルトはmediumです。)1M トークンのコンテキストウィンドウ、マルチモーダル入力(テキスト、画像、音声、動画、PDF)に対応し、出力はおよそ毎秒 280 トークン以上。リリース当日から Gemini アプリと検索の AI モードでデフォルトモデルとなりました。Gemini 3.5 Pro も間もなく登場すると見込まれています。

一点注意したいのは、3.5 Flash のトークン単価は先代のGemini 3 Flash($0.50/$3.00)と比べて約 3 倍だということです。つまり、旗艦級と比べれば安いものの、同系統の中では相対的に高めです。さらに、思考トークンは出力レートで課金されるため、高負荷の推論を高い工数で行うと、想定よりもコストがかさむ可能性があります。この点は認識しておくべきでしょう。

Claude Fable 5 vs. Gemini 3.5 Flash:項目別の比較

詳細に入る前に、要点を簡単にまとめます。ベンチマークの結果と、価格・速度・アクセス面の実務的な比較をそれぞれ表にしました。

ベンチマーク結果

ベンチマーク Claude Fable 5 Gemini 3.5 Flash
SWE-Bench Pro 80.3% 55.1% (Public)
Terminal-Bench 2.1 88.0%* 76.2%
Humanity's Last Exam (with tools) 64.5% Gemini 3.1 Pro に劣後(直接比較不可)
OSWorld-Verified 85.0% 未公開
MCP Atlas(マルチツール協調) 未公開 83.6%

ご覧のとおり、直接比較しやすい公開データがある範囲では、すべてのベンチマークで Claude Fable 5 が優勢です。

価格・速度・アクセス

先ほども触れましたが、価格面は Gemini 3.5 Flash のほうが(かなり)有利です。

項目 Claude Fable 5 Gemini 3.5 Flash
API 入力価格(100万トークンあたり) $10 $1.50
API 出力価格(100万トークンあたり) $50 $9.00
キャッシュ済み入力の価格 100万あたり $0.15(90% 割引)
出力速度 標準的なフロンティアモデルのレイテンシ 約 280+ トークン/秒、同クラス比で約 4 倍高速
コンテキストウィンドウ 数百万トークン規模の長期エージェントタスクに対応と主張;512K+ の MRCR は未公開 100万トークン(入力上限 1,048,576)
一般提供状況 限定的(6 月 22 日以降は使用クレジットが必要) 提供中(Gemini アプリ、AI Studio、Antigravity、API、検索の AI モード)

コーディングとエージェント性能

コーディングやエージェント作業の性能は、能力差が最も大きく出る領域なので、別立てで考える価値があります。

最初の表にある SWE-Bench Pro では、Fable 5 が 80.3%、Gemini 3.5 Flash(公開セット)は 55.1% でした。25 ポイントの差です。複雑なコードベースでのリポジトリ単位のエンジニアリングでは、これは現実的に効いてきます。おそらく Fable 5 は、多くのケースで GitHub の実際の issue を自律的に解決できますが、Gemini 3.5 Flash については同じことを断言しにくいでしょう。

一方で Gemini 3.5 Flash が押し返すのは、エージェントのスループットのほうです。Flash は明示的に、並列の実行ループ、サブエージェントの展開、迅速な反復に最適化されています。MCP Atlas での 83.6%(GPT-5.5 の 75.3% を上回る)という結果は、長く深い推論チェーンを 1 本維持するというよりも、多数の高速なツール呼び出しをオーケストレーションする用途に向けて設計されていることを示唆します。実運用のエージェントシナリオでも、先行の Flash 系と比べトークン効率が大きく改善したと報告されています。

適切な捉え方としては、エージェントが少数の難しいステップ(大規模リファクタ、アーキテクチャ変更、厄介なデバッグなど)で深く思考する必要があるなら Fable 5。多数の中程度に難しいステップを並列で高速実行(スクレイピングと要約のパイプライン、マルチツールのオーケストレーション、大量のトリアージ)するなら、Flash の速度とコスト特性が理にかないます。

速度とレイテンシ

Gemini 3.5 Flash は毎秒およそ 280 トークン以上を出力し、一般的なフロンティア旗艦モデルより数倍高速です。

一方の Fable 5 は高速モデルとしてのポジショニングではありません。「難易度が高いので、待ってでも正解がほしい」タスク向けのモデルです。

長文脈での性能

Gemini 3.5 Flash は約 100 万トークンの入力コンテキストに対応し、Gemini 系は歴史的に長文脈のリトリーバルが得意です。ただし、MRCR v2 では Google 自身の Gemini 3.1 Pro に劣後すると報告されています。

Anthropic は、Fable 5 が数百万トークン規模の長時間タスクでも集中を保ち、自身のノートを使って出力を改善すると主張しています。しかし 512K〜1M の MRCR スコアは公開しておらず、厳密な同条件比較はできません。

100 万トークン級の文書レビューに関しては、公開情報ベースでどちらが明確に優位とは言えません。長文脈の信頼性が最重要なら、512K〜1M における GPT-5.5 の MRCR v2 公開値 74.0% は注目に値します。

価格と提供状況

価格差は大きいです。Fable 5 は 100 万入力トークンあたり $10、出力あたり $50。一方、Gemini 3.5 Flash はそれぞれ $1.50 と $9.00 に加え、キャッシュ済み入力は 100 万あたり $0.15(90% 割引)。入力で約 6〜7 倍、出力で約 5〜6 倍、Flash が安価です。

とはいえ、価格は単純ではありません。まず、Flash は推論モデルであり、思考トークンは出力レートで課金されます。高工数の推論ワークロードでは、プロンプトから想像する以上に出力トークンを消費する可能性があります。自分のワークロードでの実測をおすすめします。また、Fable 5 の分類器によって問い合わせが迂回された場合、請求は Fable 5 ではなく Opus 4.8($5/$25)のレートで行われます。これはコスト面でわずかな軽減要因にはなるでしょう。

提供状況にも非対称性があります。Gemini 3.5 Flash は初日から Gemini アプリ、Google AI Studio、Antigravity、Gemini API、検索の AI モードで一般提供されました。Fable 5 のサブスクリプション提供には区切りがあり、Pro/Max/Team/Enterprise の各購読者が無料で使えるのは 2026 年 6 月 22 日までで、それ以降は既存のサブスクリプションに加えて使用クレジットが必要になります。

Claude Fable 5 と Gemini 3.5 Flash の使い分け

判断のポイントは次の 2 つです。

  • タスクの難易度が Fable 5 の上限性能を必要とするか
  • 速度とコール当たりのコストが経済性を左右するか
ユースケース 推奨 理由
複雑なコードベースでのリポジトリ単位のソフトウェアエンジニアリング Claude Fable 5 SWE-Bench Pro で 80.3% vs 55.1% の 25 ポイント差が、実力差を反映
大量・低レイテンシが求められるエージェント系パイプライン Gemini 3.5 Flash 約 280+ トークン/秒、サブエージェントの並列実行、5〜7 倍の低トークン単価が数千回の呼び出しで効いてくる
対話型コンシューマープロダクトやチャット UX Gemini 3.5 Flash 4 倍の速度は製品価値。Fable 5 はレイテンシと価格の面で高頻度の消費者用途に合わない
複雑なファイナンス業務やナレッジワーク Claude Fable 5 Hebbia の Finance Benchmark と Humanity's Last Exam(ツールあり)で先行(64.5%)
多数のサービスにまたがるマルチツールのオーケストレーション Gemini 3.5 Flash MCP Atlas で 83.6% はフロンティアモデル中で最強クラスの公表スコア
マルチモーダルのパイプライン(動画・音声・PDF 入力) Gemini 3.5 Flash テキスト・画像・音声・動画・PDF にネイティブ対応
データ非保持が必須の規制業界 Gemini 3.5 Flash Fable 5 の必須 30 日保持は一部エンタープライズでは致命的な制約

こんな場合は Claude Fable 5 を

  • 主な用途がリポジトリ単位のソフトウェアエンジニアリングである
  • ファイナンス、学際的推論、長期エージェントタスクなど、複雑な分析業務で最高水準の上限性能が必要で、レイテンシは二の次
  • サイバーセキュリティ、生物学、化学に隣接しない業務で、分類器による迂回の影響が出にくい

こんな場合は Gemini 3.5 Flash を

  • 経済性がボリュームに依存し、1 日に数千回の呼び出しでコスト差が累積的に効いてくる
  • 速度が製品要件(インタラクティブな UX、リアルタイムエージェント、多数のツール呼び出しで全体の壁時計時間が重要)
  • 単一モデルで幅広いマルチモーダル入力(動画・音声・PDF)が必要
  • 企業のデータポリシーが Fable 5 の必須 30 日保持に対応できない、またはパイプライン途中でのサイレントなモデル切替を避けたい

まとめ

これは厳密には同種比較ではありません。Fable 5 と Gemini 3.5 Flash は市場で異なるポジションにあります。前者はある程度の摩擦を伴う「能力上限」、後者は上限は低めなものの「効率の最前線」です。

難易度の高いタスクでの生の能力だけを評価軸にするなら、Fable 5 が明確に優位です。しかし Flash の価値は「ほぼ同等を安く」ではありません。控えめに言っても、フロンティアに近い知能を、Fable 5 では経済的に成立しなかった場面でも使えるだけの速度と価格で提供しているのです。

トピック

DataCamp で学ぶ

Courses

大規模言語モデル(LLM)の基本

2時間
99.1K
LLMの活用例、学習手法、倫理的な考慮事項、最新の研究動向を網羅したコースです。LLMの可能性をフルに理解することができます。
詳細を見るRight Arrow
コースを開始
もっと見るRight Arrow