Tracks
本番ワークフローで Claude Fable 5 と GPT-5.5 のどちらを選ぶべきか迷っているなら、ベンチマーク表が明快な示唆を与えてくれます。数値上は、Fable 5 はコーディングと推論で大きく優位です。ですが、出力トークン単価が2倍、要求をより弱いモデルへ静かに迂回させるクラス分類システム、そして一部のエンタープライズ顧客を完全に阻む30日間のデータ保持要件という制約があります。
本記事では、Fable 5 と GPT-5.5 を以下の5つの観点で比較します:コーディングとエージェント性能、長文脈タスク、安全クラス分類とアクセス面の摩擦、知識労働と推論、そして価格。各モデルの詳細は、個別ガイド「Claude Fable 5」および「GPT-5.5」も参照してください。
AI の最新動向をキャッチアップしましょう。毎週金曜配信の無料ニュースレター The Median に登録すると、その週の重要トピックを簡潔に解説します。週に数分で鋭さを保てます。
Claude Fable 5 とは?
Claude Fable 5 は Anthropic による一般提供向け初の Mythos クラスモデルで、2026年6月9日にリリースされました。Mythos は Anthropic のモデル階層で Opus の上位に位置する新しい能力レベルです。Fable 5 は Claude Mythos 5 と同一の基盤モデルですが、安全クラス分類が有効で、特定のセンシティブな問い合わせは Claude Opus 4.8 にリルートされます。この名称の違いは重要です。Fable は一般公開版、Mythos は Project Glasswing パートナーのみが利用できる非制限版です。
Anthropic は、Fable 5 がほぼすべての検証済みベンチマークで最先端と位置づけており、とくにソフトウェアエンジニアリング、知識労働、ビジョン、長時間のエージェントタスクに強みがあります。タスクが長大かつ複雑になるほど、従来の Claude モデルに対するリードは拡大します。Stripe は、5,000万行の Ruby コードベース移行において、Fable 5 が数か月分のエンジニアリング作業を数日に圧縮したと報告しています。
Fable 5 の能力やベンチマークの内訳については、Claude Fable 5 ガイドを参照してください。制限付きの Mythos 5 については、Claude Mythos 5 の記事でも解説しています。
GPT-5.5 とは?
GPT-5.5 は OpenAI が2026年4月に公開したモデルで、同社史上最も強力なエージェント型コーディングモデルとされています。より高精度な作業向けに GPT-5.5 Pro も提供されました。モデルは NVIDIA GB200 および GB300 NVL72 システム向けに共同設計・提供され、実運用でのトークン単位レイテンシは GPT-5.4 に匹敵しつつ、知能レベルは有意に向上していると説明されています。
GPT-5.5 のアーキテクチャ面での目玉は、長文脈での信頼性です。GPT-5.4 は MRCR ベンチマークで約128Kトークンを超えると崩れましたが、GPT-5.5 は崩れません。512K〜100万トークンの範囲で GPT-5.5 は MRCR v2 において74.0%(同範囲で GPT-5.4 は36.6%)を記録。これは単なる小幅な改善ではなく、モデルの利用可能性が質的に変わるレベルです。
GPT-5.5 のベンチマーク詳細や実地検証は、GPT-5.5 ガイドを参照ください。Claude Opus 4.8 と GPT-5.5 の比較記事も用意しています。
Claude Fable 5 vs GPT-5.5:徹底比較
詳細に入る前に、まずは両モデルの立ち位置を手早く整理します。
| 項目 | Claude Fable 5 | GPT-5.5 |
|---|---|---|
| SWE-Bench Pro | 80.3% | 58.6% |
| Terminal-Bench 2.1 | 88.0%* | 83.4%(Codex CLI) |
| Humanity's Last Exam(ツール使用) | 64.5% | 52.2% |
| MRCR v2(512K〜100万トークン) | 未公開 | 74.0% |
| OSWorld-Verified | 85.0% | 78.7% |
| API 入力価格(100万トークンあたり) | $10 | $5 |
| API 出力価格(100万トークンあたり) | $50 | $30 |
| 安全クラス分類のフォールバック | あり(Opus 4.8 にルート) | サイレントなフォールバックなし |
| データ保持要件 | 30日間が必須 | 標準ポリシー |
| 一般提供状況 | 限定的(6月22日以降は追加クレジットが必要) | あり(ChatGPT + API) |
コーディングとエージェント性能
両モデルの差が最も大きく、意思決定に直結する領域です。実世界の GitHub 課題解決を測る SWE-Bench Pro で、Fable 5 は80.3%、GPT-5.5 は58.6%。その差は22ポイント。参考までに、Claude Opus 4.7 はすでにこのベンチマークで64.3%を記録し GPT-5.5 を上回っていたため、Fable 5 登場前から GPT-5.5 はリポジトリ単位のコーディングで後れを取っていました。
プロダクション水準のコードベース要件を満たしつつ難度の高い課題を解けるかを測る Cognition の FrontierCode 評価では、Fable 5 は中程度の労力でも最前線モデルの中で最高スコア。Cursor の CEO、Michael Truell 氏は、Fable 5 を FrontierBench の最高スコアモデルと述べ、長期的な推論や未知のツールへの即時適応に優れると評しています。
Terminal-Bench 2.1 でも、Fable 5 は88.0%* と報告され、GPT-5.5 の83.4%を上回るようです。アスタリスクは、Fable 5 と Mythos 5 間の数値差に起因する留意点です。この種の齟齬がある場合、Fable のほうが低い値になるため、Fable 5 は GPT-5.5 と同等か、わずかにリードと見るのが妥当でしょう。
ターミナル中心の DevOps やシェル自動化では依然として GPT-5.5 が好適ですが、SWE-Bench Pro の差は無視できません。リポジトリレベルのエンジニアリングが主用途なら、能力面だけで見れば Fable 5 が明確な選択肢です。あとは、出力トークン単価2倍とクラス分類の摩擦が、用途に見合うかどうかです。
長文脈での性能
ここは GPT-5.5 の真の差別化要因で、真剣に考慮すべき点です。GPT-5.4 は MRCR v2 で約128Kトークンを超えると破綻しましたが、GPT-5.5 はそうなりません。512K〜100万トークンで GPT-5.5 は74.0%を記録し、同範囲の GPT-5.4 は36.6%。これは小さな改善ではなく、能力クラスが変わったと言ってよいレベルです。
Anthropic は、Fable 5 が数百万トークンに及ぶ長時間タスクでも集中を保ち、自身のノートを使って出力を改善すると主張しています。Slay the Spire のメモリテストでも、ファイルベースの永続メモリは Opus 4.8 に比べて Fable 5 の性能を3倍強化したとされています。ただし、512K〜100万トークン帯での MRCR 形式のスコアは Fable 5 では公開されていないため、厳密な比較はできません。
法務文書レビュー、大規模コードベース分析、学術文献の統合など、100万トークン級の文脈で運用する場合は、GPT-5.5 の公開された長文脈スコアがより強い根拠になります。弊社の GPT-5.5 検証でも、30万トークンのニードルテストを通過し、GPT-5.4 が崩れた256K超でも MRCR スコアが維持されることを確認しました。Fable 5 も同等に強い可能性はありますが、同等形式の公開データがありません。
安全クラス分類とアクセス面の摩擦
ここは Fable 5 の実務上の課題として過小評価されがちですが、脚注では済まない重要点です。Fable 5 は二段構えのクラス分類を実行します。まず全トラフィックで内部アクティベーションを監視するプローブが動作し、フラグが立つと最終判断を下す独立の学習済み LLM クラシファイアにエスカレーションされます。リクエストがブロックされると、Claude Opus 4.8 へルートされ、どのモデルが応答したかがユーザーに通知されます。
Anthropic によれば、クラス分類の発火は平均で5%未満。対象領域は3つです。
- サイバーセキュリティ: エクスプロイト開発、攻撃的タスク、エージェント型ハッキングはブロック。クラス分類有効時、Fable 5 はサイバー関連4ベンチマークでいずれも0.0%となり、基盤の Mythos モデルが Firefox エクスプロイト開発で88.4%だったのと対照的です。
- 生物学・化学: 多くのリクエストが Opus 4.8 にフォールバック。基盤モデルはアデノ随伴ウイルス設計で専門家水準に迫ったため、カバレッジが広いとされています。
- 蒸留(ディスティレーション): 競合モデルの学習目的で Claude の能力抽出を試みるリクエストはリルート。
このフォールバックは能力だけでなく、エージェント型パイプラインの信頼性にも影響します。Fable 5 から Opus 4.8 へルートされると課金は Opus 4.8 レートですが、タスク途中で別の(非常に優秀ではある)モデルに切り替わることになります。パイプラインが一貫して Fable 5 の推論深度を前提にしている場合、セッション中に静かに Opus 4.8 へ切り替わると、出力品質の前提が崩れる恐れがあります。
GPT-5.5 にもサイバー向けの安全策があり、潜在的リスクに対するより厳格なクラス分類が説明されています。ただし、より弱いモデルへのサイレントフォールバックはありません。OpenAI は段階的な信頼済みアクセスを採用しており、検証済みの防御側は chatgpt.com/cyber で申請することで制限緩和されたアクセスが可能です。これは、依然として限られたパートナーに留まる Anthropic の Project Glasswing よりも間口が広いアプローチです。
もう一つ、直接的なブロッカーがあります。Fable 5 と Mythos 5 は Covered Model に分類され、すべてのトラフィックに対して30日間のデータ保持が必須です。これは、以前に保持ゼロのプランにいたエンタープライズ顧客にも適用されます。Anthropic は学習には用いないと明言していますが、保持要件そのものが規制産業にとってハードな障壁です。このため、Fable 5 をまったく使えない企業もあります。
知識労働と推論
この領域では両モデルとも強力で、差はコーディングほど広くありません。Fable 5 は Hebbia の Finance Benchmark におけるシニア級の推論で首位を獲得し、文書ベースの推論、チャート解釈、問題解決のいずれでも最高スコア。IMC も、根本原因分析や期待値分析を含むトレーディング分析評価で Fable 5 が全面的に基準を上回ったと報告しています。
GPT-5.5 は FrontierMath Tier 4 で35.4%と、Fable 5 の公開スコアを上回っています。44の職種でエージェントを評価する GDPval では GPT-5.5 が84.9%。一方、ツール使用時の Humanity's Last Exam では Fable 5 が64.5%で、GPT-5.5(52.2%)に有意差をつけています。学際的な推論タスクでは意味のある差です。
価格と提供状況
価格差は現実的で、規模が大きくなるほど効いてきます。Fable 5 は入力100万トークンあたり$10、出力100万トークンあたり$50。GPT-5.5 は入力$5、出力$30。高トラフィックのワークロードでは、この100%/67%の差がすぐに積み上がります。
サブスクリプションでの提供も Fable 5 にはひと癖あります。Pro、Max、Team、Enterprise の各プランでは6月22日まで無料で利用可能でしたが、それ以降は既存のサブスクリプションに加えて使用クレジットが必要になります。Anthropic は、容量が許せば Fable 5 を標準機能として戻す意向を示していますが、明確な時期は未定です。GPT-5.5 はリリース初日から ChatGPT と Codex で Plus、Pro、Business、Enterprise に展開され、間もなく API でも利用可能になりました。
価格面の補足:クラス分類により Fable 5 のクエリが Opus 4.8 へフォールバックした場合、課金は Opus 4.8 のレート(入力$5/出力$25)になります。
Claude Fable 5 と GPT-5.5、どちらを選ぶべきか
判断は、SWE-Bench Pro の差が業務にどれほど重要か、Fable 5 のクラス分類に該当する領域か、そして256Kトークン超でも安定した性能が必要か――この3点に集約されます。
| ユースケース | 推奨 | 理由 |
|---|---|---|
| リポジトリ単位のソフトウェアエンジニアリング | Claude Fable 5 | SWE-Bench Pro で 80.3% 対 58.6%。22ポイントの差は複雑なコードベースでの実力差を反映 |
| セキュリティツール、ペネトレーションテスト、攻撃的セキュリティ研究 | GPT-5.5 | Fable 5 のクラス分類が大半をブロック/リルート。GPT-5.5 の段階的な信頼アクセスのほうが利用しやすい |
| 50万トークン超での法務文書レビューや学術文献統合 | いずれも可 | 512K〜100万トークンでの MRCR 公開スコア(74.0%)により GPT-5.5 は持続性を示す。Fable 5 は同等データ未公開だが高性能を主張 |
| 複雑文書を扱う金融・知識労働 | Claude Fable 5 | Hebbia の Finance Benchmark と Humanity's Last Exam(ツールあり)でリード(64.5% 対 52.2%) |
| コスト重視の大規模 API ワークロード | GPT-5.5 | 出力100万トークン $30 対 $50。規模が大きいほど差が拡大 |
| バイオメディカル研究パイプライン | GPT-5.5(または Fable 5 の信頼アクセス待ち) | Fable 5 の生物学クラス分類により多くの問い合わせが Opus 4.8 にリルート。信頼アクセスが開くまで待機 |
| ゼロ保持が必須の規制産業 | GPT-5.5 | Fable 5 の30日間必須保持は一部企業にとって絶対的な障壁 |
Claude Fable 5 を選ぶべき条件
- 主用途がリポジトリ単位の開発で、SWE-Bench Pro の22ポイント差が出力トークン単価2倍を正当化できる。
- 業務がサイバーセキュリティ、生物学、化学に隣接せず、セッションでクラス分類が発火しにくい。
- 金融系ベンチマークや学際的推論など、最難度の分析タスクで最高水準を求める。
- API 利用で、出力100万トークン$50を能力向上の対価として許容できる。
GPT-5.5 を選ぶべき条件
- セキュリティ隣接領域で開発しており、パイプライン途中でリクエストが静かにルート変更されないモデルが必要。
- 企業のデータポリシーでゼロ保持が必須であり、Fable 5 の Covered Model ステータスでは満たせない。
- サブスクの崖や追加クレジットなしに、予測可能な API アクセスが必要。
- コスト効率が重要で、$30 対 $50 の出力トークン差が使用量に対して大きい。
まとめ
ベンチマークで最重要の指標では、Fable 5 がより高性能です。SWE-Bench Pro(80.3% 対 58.6%)は明確な差であり、Humanity's Last Exam(ツールあり)でのリード(64.5% 対 52.2%)も推論の深さに実質的な差があることを示します。能力だけで選ぶなら、Fable 5 に軍配が上がります。
しかし、Fable 5 のスコアには注意書きがつきます。数値は基盤の Mythos モデルを反映しており、Fable 5 はその上にクラス分類が載ったものです。サイバー、バイオメディカル、デュアルユース性のある問い合わせでは Opus 4.8 へ切り替わる可能性があります。エージェント型パイプラインでは、これは能力だけでなく信頼性の問題です。Fable 5 の推論深度を前提にしたパイプラインが、途中で静かにモデル切替が起きると破綻しかねません。さらに30日間のデータ保持が必須という要件が加わると、Fable 5 は一部のエンタープライズにとって現時点では選択肢になりません。
第三の選択肢も挙げておきます。Fable 5 の価格が重く、GPT-5.5 の長文脈性能が用途に響かないなら、Claude Opus 4.8 は「次善」ではありません。SWE-Bench Pro で GPT-5.5 をすでに上回る 69.2% 対 58.6% を記録し、価格は $5/$25、かつ Fable 5 のクラス分類による摩擦もありません。Opus 4.8 と GPT-5.5 の選択については、Claude Opus 4.8 の記事で詳しく解説しています。
最前線モデルを本番運用で使いこなすための基礎を身につけるなら、まずは AI Fundamentals スキルトラックから始めることをおすすめします。