2026年はここまで「エージェント型AI」の年といえます。モデルの進化により、パーソナルAIアシスタントからコーディングエージェントまで、エージェントワーク向けのツールが数多く登場しました。中でも、Google の Gemini、OpenAI の GPT シリーズ、そして開発者から高い支持を得ている Anthropic のモデルが大きな存在感を示しています。
本記事では、Claude Opus 4.7 と Gemini 3.1 Pro を、ベンチマークや価格を含めて比較します。最後に、ワークフローに最適なモデルを選ぶための判断基準も提示します。
Claude Opus 4.7 とは?
当社のOpus 4.7 の記事で解説しているとおり、Claude Opus 4.7 は Anthropic の最新フラッグシップモデルで、先代のClaude Opus 4.6のアップデート版です。複雑なエージェント型ワークフローやマルチステップ推論に最適化されており、エージェントによるコーディング、視覚的推論、ツール使用で高い性能を発揮します。
Claude Opus 4.7 の主な機能と特長
Opus 4.7 の中心的な機能のひとつがタスク予算です。これにより、エージェントがタスクあたりに消費できるトークン量に金銭的な上限を設定できます。エージェントが自律実行する際でも最適化を促し、予算内に収めることで、想定外のコスト発生を防ぎます。
Claude Opus 4.7 は 100万トークンのコンテキストウィンドウと 128K の出力トークンを備えています。つまり、タスクの文脈を保持したまま長時間の処理を走らせることができます。これは大規模なコードベースを探索する際に特に有用です。
また、ビジョン機能も強化され、最大 3.75 メガピクセルの画像に対応。これにより視覚的推論は Opus 4.6 より向上し、高解像度チャートからのデータ抽出などに最適なモデルとなりました。
さらに、high と max の中間に位置する新たな推論強度 xhigh が追加され、コーディングやエージェントタスクで最良の結果を狙えます。もう少し軽めにしたい場合は high を使用できます。Anthropic はまた、コード変更に対するコードレビューを実行しバグを検出するため、Claude Code に /ultrareview を導入しました。

意外に感じるかもしれませんが、Adaptive Thinking は既定で思考過程の表示を省略するようになりました。thinking.display を summarized に設定すると、要約版の推論表示を復元できます。
ベンチマークの結果は次のとおりです。
- SWE-bench Verified:87.6%
- より難度の高い SWE-bench Pro:64.3%
- 自律的なコンピュータ操作を測る OSWorld:78%
- マルチツールのワークフローオーケストレーションを測る MCP Atlas:77.3%
リリース当初、Claude Opus 4.7 は Artificial Analysis Intelligence Index でスコア 57 を獲得し、トップに立ちました。実務に近いエージェント作業を測る GDPval-AA でも Elo 1,753 を記録して首位に立ちましたが、その後は GPT-5.5 が両指標で追い抜いています。
Opus 4.7 の自己批評メモリが、high、xhigh、max の各思考強度でコーディング性能を実際に改善するかどうかを検証する Streamlit ベンチマークアプリの作り方は、当社のClaude Opus 4.7 実践ベンチマークチュートリアルをご覧ください。
Claude Opus 4.7 の長所・短所
Anthropic のモデルはコーディングに最適という評価があり、Opus 4.7 のベンチマークもそれを裏づけています。一方で、Opus 系列は安価ではないため、特に長時間のエージェントワークフローを走らせるユーザーにとって、タスク予算機能は有用な追加点です。
このモデルは Amazon Bedrock、Google Vertex AI、Microsoft Foundry など各種クラウドプロバイダ経由でも利用可能で、既存プロバイダに容易に統合できます。
Opus 4.7 には新しいトークナイザも搭載されており、実コストを従来モデルと厳密に比較しづらい側面があります。ただし Artificial Analysis Intelligence によれば、同インデックスの実行において、Opus 4.7 は Opus 4.6 より出力トークンを約 35% 少なく使用しています。

Anthropic の一般提供モデルの中で最強の Claude Opus 4.7 の実力を学び、高解像度チャートを生データに変換できるデータサイエンスツールを構築する方法は、当社のClaude Opus 4.7 API チュートリアルをご覧ください。
Gemini 3.1 Pro とは?
Gemini 3.1 Pro は Google DeepMind の現行フラッグシップ推論モデルで、Transformer ベースの Mixture-of-Experts を採用しています。リリース当初は Artificial Analysis Intelligence Index で Opus 4.6 に 4 ポイント差をつけて首位に立ち、現在は Opus 4.7 と同スコアの 57 で並んでいます。
Gemini 3.1 Pro の詳細は、Building with Gemini 3.1 Pro の記事で、Gemini 3.1 Pro を用いた本番運用レベルのアプリの構築方法とともに解説しています。
Gemini 3.1 Pro の主な機能と特長
2 段階だったGemini 3 Proと異なり、Gemini 3.1 Pro は3 つの思考レベル low、medium、high を備えます。low は速度とトークン最適化に最適、medium はバランス型、high は思考トークンが増えて応答は最も遅くなるため、複雑な推論が必要なタスクに適しています。
Gemini 3.1 Pro も 100万トークンの入力コンテキストを備えますが、出力は約 65K と小さめです。マルチモーダル対応で、音声、PDF、テキスト、画像を扱えます。
ベンチマークについて見ていきましょう。Gemini 3.1 Pro が光る分野は次の 2 つです。
- ARC-AGI-2 で 77.1% と業界トップ。
- マルチツールのワークフロー調整を測る MCP Atlas で 73.9%。

Artificial Analysis Intelligence によれば、Gemini 3.1 Pro Preview はトークン効率に優れ、同社のインデックス実行で Opus 4.6 と比べて約 5,700 万トークンを使用しました。
Gemini 3.1 Pro は Artificial Analysis のCoding Index では Opus 4.7 を上回る一方、Agentic Index では後塵を拝しています。
Gemini 3.1 Pro の長所・短所
Gemini 3.1 Pro の価格は、特に大量のトークンを要するジョブにとって魅力的です。Google はバッチ料金モデルで 50% の割引も提供しており、リアルタイム性を必要としない用途には理想的です。
一方の難点は、Gemini 3.1 Pro の 65K という出力上限が、Opus 4.7(128K)の半分にとどまることです。
Claude Opus 4.7 と Gemini 3.1 Pro の徹底比較
各カテゴリを見る前のクイックリファレンスです。
|
Claude Opus 4.7 |
Gemini 3.1 Pro |
|
|
リリース日 |
2026年4月16日 |
2026年2月19日 |
|
コンテキストウィンドウ |
100万トークン |
100万トークン |
|
最大出力 |
128K トークン |
65K トークン |
|
SWE-bench Verified |
87.6% |
80.6% |
|
SWE-bench Pro |
64.3% |
54.2% |
|
ARC-AGI-2 |
68.8% |
77.1% |
|
GPQA Diamond |
94.2%(同率) |
94.3%(同率) |
|
MCP Atlas |
77.3% |
73.9% |
|
OSWorld |
78.0% |
公開スコアなし |
|
ビジョン |
2576px / 3.75MP |
マルチモーダル(動画・音声・PDF) |
|
入力価格 |
$5/100万トークン |
$2/100万トークン |
|
出力価格 |
$25/100万トークン |
$12/100万トークン |
エージェント性とコンピュータ操作の性能
Opus 4.7 はエージェント作業に非常に強力で、特にエージェントが使用できるトークン数を制御できる点が有用です。Gemini 3.1 Pro にはこの仕組みはなく、トークン使用量の調整は思考レベルで行う必要があります。
Opus 4.7 は OSWorld(自律的なコンピュータ操作)で 78% を記録し、GPT 5.5 の78.7% に匹敵します。一方、Gemini 3.1 Pro には OSWorld の公開スコアがありません。MCP Atlas では、Opus 4.7 が 77.3% で、Gemini の 73.9% を上回ります。これらの数値から、Opus 4.7 は本番のエージェントシステムに理想的な選択肢だといえます。
コーディングベンチマーク
次に、実際の GitHub 課題をテストする SWE-bench Verified をはじめ、公開ベンチマークにおけるプログラミング性能を比較します。
Opus 4.7 は 87.6%、Gemini 3.1 Pro は 80.6%。より難度の高い SWE-bench Pro では、Opus 4.7 が 64.3%、Gemini は 54.2%(参考:GPT 5.5 は 58.6%)。これらの数値から、Opus 4.7 は現時点で世界最強のコーディングモデルといえます。
ターミナル上でのコーディング能力を測る Terminal-Bench 2.0 では、Opus 4.7 が 69.4%、Gemini Pro が 68.5%、新しい GPT 5.5 が 82.7% でした。本ベンチマークでは GPT-5.5 が明確な勝者で、今回の 2 モデルはほぼ互角です。
推論・科学タスク
推論や科学タスクで最適なモデルはどれでしょうか。GPQA Diamond は各モデルが非常に高得点のため採用せず、未知の抽象推論課題への適応力(流動性知能)を測る ARC-AGI-2 を見ます。
Gemini 3.1 Pro は 77.1%、Opus 4.7 は 75.8%、GPT 5.5 は 85.0%。この分野では GPT 5.5 が明確な勝者で、次点が Gemini 3.1 Pro です。
科学、数学、人文の大学院レベル推論を測るHumanity's Last Examでは、ツールの有無にかかわらず Opus 4.7 が Gemini 3.1 Pro を上回ります。
- ツールなし:Opus 4.7 が 46.9% で首位、次いで Gemini 3.1 Pro(44.4%)、GPT 5.5 Pro(43.1%)。
- ツールあり:GPT 5.5 Pro が 57.2% で首位、続いて Opus 4.7(54.7%)、Gemini 3.1 Pro(51.4%)。
コストとトークン効率
Opus 4.7 は入力 100万トークンあたり $5、出力 100万トークンあたり $25。Gemini 3.1 Pro は入力 $2、出力 $12。Gemini は大幅に安価で、さらに 50% のバッチ割引により、大量トークンを要するタスクに非常に適した価格帯になります。
なお、Opus 4.7 の新トークナイザにより、従来の Opus との厳密なコスト比較はやや難しくなっています。
コンテキストウィンドウと出力容量
両モデルとも入力は 100万トークンを受け付け、コードベース全体や長大な研究文書を 1 回のプロンプトで取り込めます。
出力トークンは、Opus 4.7 が 128K、Gemini 3.1 Pro が 65,536。大量の出力生成が必要なワークフローでは、Opus の方が適しています。

Opus 4.7 と GPT 5.4 の比較は、当社のOpus 4.7 vs. GPT-5.4 チュートリアルで、コーディング、エージェント型ワークフロー、長文脈タスクの観点からベンチマークを分析しています。
Claude Opus 4.7 は Gemini 3.1 Pro より優れている?
では結論として、どちらを選ぶべきでしょうか。
次のような場合は Claude Opus 4.7 を選んでください
- 本番のエージェント型コーディング基盤を構築しており、SWE-bench Pro の 10 ポイント差が失敗実行の減少に直結する。
- 外部モニタリングロジックを追加せずに、自律ループのコスト予測可能性を高めるタスク予算が必要。
- パイプラインの出力が長く、128K の出力上限が重要(Gemini 3.1 Pro の約 2 倍)。
- 複雑なエージェントワークフローのため、MCP Atlas のマルチツールオーケストレーションで最高スコアを求める。
- Claude Code、Amazon Bedrock、Claude API など既に Anthropic エコシステムを利用しており、スイッチングコストが価格差を上回る。
次のような場合は Gemini 3.1 Pro を選んでください
- トークン量が多く、入力コスト 2.5 倍の差が無視できない(例えば月 5 億トークンで毎月 $1,500 の差)。
- 前処理なしで、1 回の API 呼び出しで動画・音声・PDF をネイティブ入力したい。
- Google のインフラ上で構築し、Vertex AI による単一ベンダー体制にしたい。
- 抽象的な視覚推論が主用途。ARC-AGI-2 では Opus が 75.8%、Gemini が 77.1% と Opus が後塵を拝する。
まとめ
Claude Opus 4.7 と Gemini 3.1 Pro はいずれも強力なモデルです。選択は、予算と達成したいタスクによって決まります。エージェント系タスクでは Opus に分がありますが、予算に合わない場合は、低コストのトークンと 50% のバッチ割引がある Gemini 3.1 Pro も有力候補です。
Anthropic は最良のコーディングモデルの地位を維持しており、複雑な推論とプログラミングを要するエージェントタスクに適しています。Google は Anthropic と比べて大幅に低価格で先端的な推論モデルを提供しています。各社や OpenAI などの大手は、汎用モデルとしても優れる最良のエージェントモデルの提供を競っています。
高価な Opus 系列において、タスク予算の導入は朗報です。他のプロバイダも今後のリリースで追随してくるかもしれません。長時間実行のエージェントタスクのコストをより予測しやすくする有益な追加になるでしょう。
AI ツールの活用についてさらに学ぶには、当社の無料の優良 AI ツール ガイドをご覧ください。より広範な AI コーディングスキルには、開発ワークフローで AI アシスタントをより信頼できる相棒にするためのスキルを身につけられるAI-Assisted Coding for Developers コースもおすすめです。
最後に、LLM、プロンプト、チェーン、エージェントを用いて LangChain で AI 駆動アプリケーションを構築する方法は、当社のDeveloping LLM Applications with LangChain コースで学べます。