Gemini 3.5 Flash vs Claude Opus 4.7：短距離走者と外科医

Google の速度最適化モデルが、Anthropic の深いコーディング能力を持つ旗艦と、エージェント型ワークフロー、推論、マルチモーダル機能、価格で対決します。

更新 2026年5月25日 · 12 分読む

エージェント型ワークフローを構築する場合やコーディングアシスタントを選ぶ場合、今まさに Gemini 3.5 Flash と Claude Opus 4.7 を比較検討しているはずです。どちらも 2026 年に登場し、長期的なエージェント型タスクをターゲットに、実運用で重要なベンチマークで前世代を上回ると主張しています。選択は容易ではありません。

Gemini 3.5 Flash は、速度最適化モデルでもフロンティアモデルたり得るのかという問いに対する Google の回答です。Claude Opus 4.7 は Anthropic の現行プロダクション最上位で、Opus 4.6 の直接的な改良版。エージェント的コーディングとセッション横断メモリで大幅に向上しています。

本記事では、Gemini 3.5 Flash と Claude Opus 4.7 を、コーディングとエージェント型ワークフロー、推論・知識タスク、マルチモーダル機能、エコシステムと提供状況、価格の 5 つの観点で比較します。各モデル単体の詳しい解説は、Gemini 3.5 Flash と Claude Opus 4.7 の個別ガイドも参照してください。

Gemini 3.5 Flash とは？

Gemini 3.5 Flash は Google の最新の速度最適化モデルで、2026 年 5 月 19 日の Google I/O で発表されました。Gemini 3.5 ファミリーの Flash ティアに属し、単なる高速推論ではなくエージェント実行を中核に据えた新シリーズとして位置づけられています。見出しの主張は、3.5 Flash が他のフロンティアモデルの 4 倍の出力トークンスループットでフロンティア級の知性を発揮するというものです。

Flash ティアのモデルとして特異なのは、Terminal-Bench 2.1（76.2%）、MCP Atlas（83.6%）、Finance Agent v2（57.9%）など、複数のエージェント型・コーディング系ベンチマークで直近の Pro 版である Gemini 3.1 Pro を上回っている点です。

マルチエージェント展開向けに Google の Antigravity ハーネスと連携するよう設計されています。Anthropic と Google のエージェントハーネスのアプローチ比較は、Claude Code vs Antigravity の記事をぜひご覧ください。

Flash 3.5 は現在、Gemini アプリと検索の AI モードにおけるデフォルトモデルです。Gemini 3.5 Pro は開発中で、来月のリリースが見込まれています。

Claude Opus 4.7 とは？

Claude Opus 4.7 は Anthropic の現行プロダクションの旗艦モデルで、2026 年 4 月 16 日にリリースされました。Opus 4.6 の直接的アップグレードで、特に以下が大きく向上しています。

エージェント的コーディング（SWE-bench Pro が 53.4% から 64.3% に上昇）
高解像度ビジョン（長辺最大 2,576 ピクセル、従来比 3 倍超）
ファイルシステムベースのストレージによるセッション横断メモリ

Anthropic は、難しいコーディング作業を Opus 4.6 より少ない監督で任せられるモデルだと説明しています。

念頭に置きたい視点として、Opus 4.7 は Anthropic の最も高性能なモデルではありません。最上位は Mythos Preview で、SWE-bench Pro で 77.8%（Opus 4.7 は 64.3%）を記録しています。Mythos は広くは提供されていないため、多くの開発者にとって現実的な上限は Opus 4.7 です。Opus 4.7 には、推論の深さをより細かく制御できる xhigh という新しいエフォートレベルも追加されています（high と max の中間）。

実地テストと完全なベンチマーク内訳は、Claude Opus 4.7 ガイドを参照してください。

Gemini 3.5 Flash と Claude Opus 4.7：徹底比較

実務者にとって重要な観点で、両モデルの比較を手短にまとめます。

機能	Gemini 3.5 Flash	Claude Opus 4.7
ティア	速度最適化（Flash）	フラッグシップ
SWE-bench Pro	55.1%	64.3%
Terminal-bench 2.1	76.2%	66.1%
MCP Atlas（ツール使用）	83.6%	77.3%
CharXiv Reasoning（マルチモーダル）	84.2%	82.1%
Finance Agent v2	57.9%	51.5%
OSWorld（コンピュータ操作）	78.4%	78.0%
Humanity's Last Exam	40.2%	46.9%
ARC-AGI-2（抽象推論）	72.1%	75.8%
コンテキストウィンドウ	100 万トークン	100 万トークン
ビジョン解像度	非公開	最大 2,576px / 3.75MP
Computer Use 対応	未対応	対応（OSWorld：78.0%）
API 入力単価	$1.50 / 100 万トークン	$5.00 / 100 万トークン
API 出力単価	$9.00 / 100 万トークン	$25.00 / 100 万トークン
マルチエージェント基盤	Antigravity ハーネス	タスク予算 + エフォートパラメータ

コーディングとエージェント型ワークフロー

この領域が両者の違いが最も明確に出るポイントですが、全体としての絶対的勝者はありません。

代表的なコーディングベンチマークである SWE-bench Pro では、Opus 4.7 が 64.3%、Gemini 3.5 Flash は 55.1% と、リポジトリ単位のエンジニアリング作業では Claude に分があります。一方で、Terminal-Bench 2.1 になると状況は逆転し、Gemini 3.5 Flash が 76.2% と、Opus 4.7 の 66.1% をほぼ同程度の差で上回ります。ターミナル中心の作業では Gemini 3.5 Flash のほうが適しています。

ベンチマーク	Gemini 3.5 Flash	Claude Opus 4.7	注記
SWE-bench Pro	55.1%	64.3%	ベンダー公表値；Opus 4.7 が約 9pt リード
Terminal-Bench 2.1 / 2.0	76.2%（v2.1）	69.4%（v2.0）	ベンチマークのバージョンが異なるため方向性の参考
MCP Atlas	83.6%	77.3%	Gemini 3.5 Flash がツールオーケストレーションで優位

両モデルは長期的なエージェント型タスクを想定していますが、アプローチは異なります。Gemini 3.5 Flash は Antigravity ハーネスを中心に設計され、協調するサブエージェントを並列展開します。Google 自身の例では、2 体のエージェントが 6 時間かけて AlphaZero 論文を要約し、完全にプレイ可能なゲームを実装しています。Opus 4.7 はタスク予算と新しい xhigh エフォートレベルで長時間の実行における性能を維持し、難問で途中停止せずに粘り強く解く傾向を Anthropic は報告しています。

MCP Atlas では Gemini 3.5 Flash が 83.6%、Opus 4.7 が 77.3% と、複雑なマルチツールのワークフロー性能で差をつけています。深いコード理解よりもツールのオーケストレーションに大きく依存するエージェントシステムなら、3.5 Flash に実力差があります。

純粋なソフトウェアエンジニアリングの深さでは Opus 4.7 が有力。一方、ツール中心のエージェント型パイプラインでスループットやサブエージェントの並列実行が重要なら、Gemini 3.5 Flash は競争力が高く、コストも大幅に低い選択肢です。

推論と知識タスク

プログラミング能力以外では、一般的な推論の深さが Opus 4.7 の強みで、Gemini 3.5 Flash に対する優位点です。科学・数学・人文の大学院レベルの設問を集めた Humanity's Last Exam では、ツールなしで Opus 4.7 が 46.9%、Gemini 3.5 Flash は 40.2% でした。抽象推論では差は縮まり、ARC-AGI-2 では Flash が 72.1%、Opus 4.7 が 75.8% です。

より興味深いシグナルは Finance Agent v2 で、Gemini 3.5 Flash が 57.9%、Opus 4.7 が 51.5% でした。これは比較全体を見直すきっかけになりました。当初は、複雑な文書に対する多段推論が必要な課題では Opus 4.7 が優位だと想定していました。速度最適化の Flash ティアが金融ワークフロー自動化で 6 ポイント上回るのは、偶然の誤差ではありません。

これは、企業が実際に導入するツール呼び出しやドキュメント処理型のパイプラインに向けて、Google が 3.5 Flash を特別に最適化していることを示唆します。

マルチモーダル機能とコンピュータ操作

科学チャートに対する視覚推論を測る CharXiv Reasoning では、Gemini 3.5 Flash が 84.2%、Opus 4.7 が 82.1%。差は小さいものの、視覚推論を強みとするフラッグシップを Flash ティアのモデルが上回っている点は注目に値します。

コンピュータのインターフェース操作を評価する OSWorld は、実質同点（78.4% 対 78.0%）です。重要な留意点として、Gemini 3.5 Flash は OSWorld のスコアがあるにもかかわらず機能としての Computer Use をサポートしていません。これは研究評価における測定であり、ベンチマーク条件下での「できること」を示すのみで、このモデルバージョンでは Computer Use API ツールが（まだ？）公開・提供されていないという意味です。

Opus 4.7 は Computer Use をサポートしており、OSWorld-Verified で 78.0% として文書化されています。エージェントが自律的にクリック・入力・アプリ操作を行うワークフローでは、ここは Opus 4.7 一択です。

また Opus 4.7 は長辺最大 2,576 ピクセルまでの画像を扱える大幅なビジョン強化を導入しました。これは過去の Claude モデルの 3 倍超の解像度で、密なスクリーンショットの読解、複雑な図のデータ抽出、ピクセル精度が必要なコンピュータ操作エージェントなどの用途が開けます。XBOW は視覚精度ベンチマークで、Opus 4.7 へ切り替え後に 54.5% から 98.5% へと大幅な向上を報告しており、解像度の効果の大きさが実務でも分かります。

エコシステムと提供状況

Gemini 3.5 Flash は Google AI Studio、Gemini API、Android Studio、Gemini Enterprise Agent Platform、Gemini Enterprise、Google Antigravity を通じて利用できます。Gemini アプリと検索の AI モードでもデフォルトモデルであり、すでに数十億人のユーザーが利用中です。Google Cloud エコシステムにいる開発者にとっては、統合パスがシンプルです。

Opus 4.7 は Anthropic API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry、そして Claude の Web・モバイルアプリから利用可能です。モデル ID は claude-opus-4-7。また Anthropic は Opus 4.7 と併せてタスク予算のパブリックベータも開始し、長時間のエージェント実行でトークン消費を上限管理できるようにしました。Claude Code の新しい /ultrareview スラッシュコマンドは、バグや設計上の問題を指摘する専用のレビューセッションを生成します。

実務的な違いとして、Gemini 3.5 Flash はマルチエージェント作業で Antigravity ハーネスと強く結び付いている一方、Opus 4.7 のタスク予算とエフォートパラメータは、どのオーケストレーションにも適用できます。Antigravity 以外のフレームワークで構築する場合、長時間稼働するエージェントの管理方法において Opus 4.7 のほうが柔軟です。

価格

ここが比較として面白い点です。Gemini 3.5 Flash は入力 100 万トークンあたり $1.50、出力 100 万トークンあたり $9.00。Claude Opus 4.7 は入力 $5.00、出力 $25.00 です。これらの料金では、Gemini 3.5 Flash は入力で約 3.3 倍、出力で約 2.8 倍割安です。

Opus 4.7 側には注意点があります。Anthropic は Opus 4.7 で新しいトークナイザーを導入し、同一入力に対して Opus 4.6 比で 1.0〜1.35 倍のトークンを使用します。英語中心のワークロードでは独立検証で約 12〜18% のトークン増加が見られました。表面の価格は変わっていないものの、実効的なプロンプト当たりのコストは上がっています。Anthropic は、エフォートパラメータ、タスク予算、簡潔さの明示指示を用いた管理を推奨しています。

高ボリュームや低レイテンシ重視のワークロードでは、コスト面で Gemini 3.5 Flash が明確に有利です。Opus 4.7 のコーディングの深さや Computer Use 対応が本当に必要なワークロードでは、価格プレミアムの回避は難しいでしょう。Anthropic はコスト管理策としてプロンプトキャッシュ（キャッシュ済み入力トークンで最大 90% 節約）とバッチ処理（最大 50% 節約）も提供しており、適したパターンでは差を詰められます。

Gemini 3.5 Flash と Claude Opus 4.7 の使い分け

ベンチマークと機能差から、用途ごとの棲み分けは比較的明確です。判断の枠組みは次のとおりです。

ユースケース	推奨	理由
コスト制約のある高ボリュームのエージェント型パイプライン	Gemini 3.5 Flash	出力トークンが約 3 倍安く、スループットは 4 倍高速
リポジトリ単位のソフトウェアエンジニアリング	Claude Opus 4.7	SWE-bench Pro で 64.3% 対 55.1%；複雑な多ファイル作業に強い
マルチツールのエージェントオーケストレーション	Gemini 3.5 Flash	MCP Atlas で 83.6% と Opus 4.7（77.3%）を上回る
コンピュータ操作エージェント（クリック、入力、アプリのナビゲーション）	Claude Opus 4.7	Computer Use に対応；Gemini 3.5 Flash は未対応
金融文書の分析とワークフロー自動化	Gemini 3.5 Flash	Finance Agent v2 で 57.9% 対 51.5%；Macquarie Bank のパイロットが実運用適合を裏付け
高解像度画像や複雑な図の分析	Claude Opus 4.7	最大 2,576px / 3.75MP に対応；XBOW は視覚精度ベンチで 98.5% を報告
Google Cloud や Gemini アプリとの統合	Gemini 3.5 Flash	Google AI Studio、Android Studio、Gemini Enterprise、検索とネイティブ統合
セッション横断メモリを伴う長期コーディング	Claude Opus 4.7	ファイルシステム型メモリが重要メモをマルチセッションで保持

こんなときは Gemini 3.5 Flash を

コストとスループットが主な制約の高ボリュームなエージェント型パイプラインを運用している。入力 $1.50／出力 $9.00（各 100 万トークン）で、同等のワークロードに対して Opus 4.7 より大幅に割安です。
ワークフローがコード中心というよりツール中心である。83.6% の MCP Atlas スコアは比較対象中で最高で、Antigravity ハーネスはサブエージェントの並列展開に特化しています。
すでに Google のエコシステムにいる。モデルは Google AI Studio、Android Studio、Gemini Enterprise、Antigravity にネイティブ対応し、追加の統合作業が不要です。
金融文書の推論やマルチモーダルなチャート分析がユースケースに含まれる。Gemini 3.5 Flash は Finance Agent v2 と CharXiv Reasoning でリードしており、Flash ティアとしては意外な強みです。

こんなときは Claude Opus 4.7 を

主目的がリポジトリ単位のソフトウェアエンジニアリングである。64.3% の SWE-bench Pro は Gemini 3.5 Flash に 9 ポイント差。Cursor（CursorBench で 70% 対 58%）や楽天（本番タスク解決が 3 倍）などのアーリーアクセス事例でも実運用での大幅な改善が報告されています。
Computer Use が必要である。Gemini 3.5 Flash は未対応。Opus 4.7 は OSWorld-Verified で 78.0% を記録し、デスクトップ UI を操作するエージェントには唯一の選択肢です。
高解像度画像や密な技術図を扱う必要がある。長辺 2,576px への対応はモデルレベルの変更で自動的に効き、OCR、チャート抽出、密なスクリーンショットを読むコンピュータ操作エージェントで効いてきます。
長期プロジェクトでセッション横断メモリが必要である。Opus 4.7 のファイルシステム型メモリにより、毎回ゼロから文脈を再構築せずにコンテキストを引き継げます。

まとめ

率直に言えば、両モデルは同じワークロードを本質的には争っていません。Gemini 3.5 Flash は Flash ティアでありながら、いくつかのエージェント系ベンチマークで前世代の Pro モデルを上回り、高ボリューム展開を現実的にする価格帯を実現しています。Claude Opus 4.7 は、より深いコーディング能力、Computer Use 対応、より高い生の推論力を備えたフラッグシップです。選択の基準は概ね、SWE-bench 級のコーディング性能と Computer Use が必要か、それともスループット・コスト効率・強力なツールオーケストレーションが重要か、という点に収れんします。

この比較で特に興味深いのは Finance Agent v2 の結果です。速度最適化のモデルであるはずの Gemini 3.5 Flash が、金融ワークフロー自動化で 57.9% と Opus 4.7 の 51.5% を上回ったのは意外でした。MCP Atlas のリードとも相まって、Google が 3.5 Flash を、生のベンチマーク性能だけでなく、企業が実際に稼働させる多段・ツール呼び出し・文書推論型のワークフロー向けに特別にチューニングしていることを示唆します。

注目すべき点がもう一つ。Gemini 3.5 Pro は来月の登場が予想されています。3.5 Flash の流れを汲み、Gemini 3.1 Pro を有意に上回るなら、Opus 4.7 との比較はだいぶ様変わりするでしょう。Pro ティアの価格はコスト差を縮める可能性がありますが、性能上限は引き上がるはずです。現時点では、コストに敏感なエージェント型ワークには Gemini 3.5 Flash、深いコーディングとコンピュータ操作には Opus 4.7 が適しています。

エージェント型 AI システムの実践的スキルを身につけ、こうしたモデルを本番運用で使いこなす方法を学ぶには、DataCamp の AI Agent Fundamentals スキルトラックをチェックしてみてください。

トピック

人工知能

大規模言語モデル