Courses
2026年上期を象徴したのは、特にコーディング分野でのエージェント型ワークフローです。単一のプロンプトからタスク完了まで自走するモデルが主役となりました。競争軸は今や「性能・速度・価格」の三本立て。Anthropic と Google は明確に異なる賭けに出ています。
本記事では直近の2モデルを比べます。Google I/O で発表された Google の Gemini 3.5 Flash と、5月28日にリリースされた Anthropic の Claude Opus 4.8。同じクラスではありません。ひとつは高速・低価格のワークホース、もうひとつはプレミアムなフラッグシップ。この差が比較に値する理由です。生の性能に、どこまでコストを払う価値があるのかを突きつけるからです。
この記事では、ベンチマーク・コスト・速度で両者を比較し、どの仕事にどちらが適するかを整理します。より詳しい解説は Gemini 3.5 Flash の概要記事と Claude Opus 4.8 のレビューをご覧ください。
要点まとめ
- Opus 4.8 は総合的により高性能。Artificial Analysis Intelligence Index(61.4)、GDPval-AA(Elo 1,890)、Humanity's Last Exam でトップ。
- Gemini 3.5 Flash ははるかに安価で高速:Opus 4.8 の $5/$25 に対し $1.50/$9、出力速度は 66.8 に対し 192.2 トークン/秒。
- Gemini 3.5 Flash はマルチモーダル入力(動画・音声・PDF)対応。Opus 4.8 はテキストと画像のみ。
- タスク品質や幻覚のリスクに実コストが伴うなら Opus 4.8。大量処理・マルチモーダル・コスト重視のパイプラインには Gemini 3.5 Flash。
Claude Opus 4.8 とは?
Claude Opus 4.8 は Anthropic のフラッグシップモデルで、Opus 4.7 の後継。複雑な推論と長期的なエージェント型コーディングに特化しています。現在、Artificial Analysis Intelligence Index で 61.4 点の首位です。
現実の職種にわたるタスクでモデルを評価する GDPval-AA のリーダーボードや、新設の ITBench-AA(保存されたインシデントスナップショットから Kubernetes インシデントの根本原因を診断する能力を測る)でもトップです。
主な機能と特長
注目のスペック:
- 100万トークンのコンテキストウィンドウと最大 128K の出力トークン
- 思考モードはアダプティブのみをサポート
- エフォートパラメータは既定で高に設定(Claude Code を含むあらゆる環境)
Opus 4.8 には高速モードも追加されました(現時点では研究プレビュー)。出力トークン/秒が最大 2.5 倍になり、価格は入力/出力それぞれ 100万トークンあたり $10/$50。標準の Opus 4.8 の2倍ですが、Opus 4.7 の高速モードの約3分の1です。
Messages API は messages 配列内で system エントリを受け付けるようになり、会話を再開せずにタスク途中で Claude の指示を更新できます。権限・トークン予算・環境コンテキストを、プロンプトキャッシュを壊さずにプッシュできます。
キャッシュ可能な最小プロンプト長も 4,096(Opus 4.7)から 1,024 トークンに短縮。より短いプロンプトでもキャッシュできます。
Artificial Analysis によれば、Opus 4.7 に対する改善は複数のベンチマークで確認できます。
- Terminal-Bench Hard:+6.6 ポイント
- τ²-Bench Telecom(テクニカルサポートの状況を模擬):+5.8 ポイント
- IFBench(厳密な指示遵守を測定):+3.6 ポイント
Humanity's Last Exam でもトップで、ツールなし 49.8%、ツールあり 57.9% を記録しています。
長所と短所
エージェント型の作業では、Opus 4.8 がこの比較の中で最有力です。プログラミングなどのタスクを含む Artificial Analysis Agentic Index で首位に立っています。
ネックはコストです。価格は Opus 4.7 から据え置きで、入力/出力それぞれ 100万トークンあたり $5/$25。大量運用では割高です。サンプリング制御も未対応のまま。temperature・top_p・top_k を設定するとエラーになります。
Gemini 3.5 Flash とは?
Gemini 3.5 Flash は Google の最新モデルで、フロンティア級に近い品質を保ちながら速度を追求しています。詳細は Gemini 3.5 Flash の概要でも解説しています。Terminal-Bench 2.1 で 76.2%、GDPval-AA で Elo 1,656 を記録しました。
主な機能と特長
Flash はテキスト、画像、動画、音声、PDF を入力として受け付け、思考レベルにもフル対応。コア機能は以下の通りです。
- 約100万トークンの入力コンテキスト(1,048,576 トークン)と 65,536 トークンの出力上限
- バッチ API とプロンプトキャッシング
- コード実行と関数呼び出し
- 検索グラウンディングと構造化出力
ベンチマークでは、マルチツールのエージェント協調を測る MCP Atlas で 83.6%、マルチモーダル理解の CharXiv Reasoning で 84.2% を達成。Artificial Analysis Intelligence Index では 7 位(Flash クラスとしては健闘)で、Agentic Index では 6 位と Opus 4.7 に迫ります。
Gemini 3.5 Flash は Antigravity のマルチエージェントハーネスにもネイティブ対応。今回のリリースでインターフェースは OpenAI Codex や Cursor アプリに近い形へ刷新されました。
長所と短所
Flash の売りは「コスト当たりの知性」。Artificial Analysis Intelligence Index で 55 点ながら、入力 100万トークンあたり $1.50、出力 100万トークンあたり $9 と、価格に対して異例の実力です。
もう一つの強みはネイティブなマルチモーダル入力(動画・音声を含む)。思考レベルが4段階(minimal/low/medium/high)あるため、単一のエフォート設定しかない Opus 4.8 よりコストと性能を細かく制御できます。
中でも際立つのはエージェントのツール活用。Flash は MCP Atlas で 83.6% と、この比較で最良のマルチツール協調スコアを記録し、Opus 4.8(82.2%)すら上回りました。Flash クラスのモデルが、このベンチマークで Anthropic の最新フラッグシップを凌ぐのは、ふつうクラス分けの常識に反する結果です。
注意点は2つ。Intelligence Index の実行では Flash の生成トークン数が 7,300万(平均は 3,500万)で冗長気味。出力課金に響きます。初回トークンまでの時間も 18.88 秒と、このクラスでは高め(同等モデルは約2秒)。
OpenAI のフラッグシップとの比較は、Gemini 3.5 Flash と GPT-5.5 の比較 記事をご覧ください。
Claude Opus 4.8 と Gemini 3.5 Flash の直接比較
各項目の詳細に入る前に、クイックリファレンスを示します。
| 項目 | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| リリース日 | 2026年5月28日 | 2026年5月19日 |
| コンテキストウィンドウ | 100万トークン | 100万トークン |
| 最大出力トークン | 128K | 65,536 |
| Intelligence Index(AA) | 61.4 | 55 |
| GDPval-AA Elo | 1,890 | 1,656 |
| 出力速度 | 66.8 トークン/秒 | 192.2 トークン/秒 |
| 入力モダリティ | テキスト、画像 | テキスト、画像、動画、音声、PDF |
| 入力価格 | $5 / 100万トークン | $1.50 / 100万トークン |
| 出力価格 | $25 / 100万トークン | $9 / 100万トークン |
| 思考モード | アダプティブのみ | Minimal / Low / Medium / High |
エージェント性とコーディング性能
エージェントとしては Opus 4.8 が上ですが、Flash はクラス差ほど離れてはいません。GDPval-AA では Opus 4.8 が Elo 1,890、Flash が 1,656 で、知的労働には Opus が優位です。
意外なのは MCP Atlas。マルチツール協調のこのベンチマークで、Flash は 83.6% と、Opus 4.8 の 82.2% を上回りました。Anthropic の最新フラッグシップを Flash モデルがエージェントのツール活用で凌ぐのは予想外で、本比較における Flash 最大の論拠です。
一方で SWE-bench Pro は逆の結果。実在のソフトウェア開発チケットの解決能力を測るベンチマークで、Opus 4.8 は 69.2% と、Anthropic の内部モデル Mythos Preview に次ぐ成績。Flash は 55.0% と、クラス差相応に Opus に劣るものの、Gemini 3.1 Pro の 54.2% を上回っており、前世代の Pro クラスに Flash が追いついたことは注目に値します。
Terminal-Bench Hard では、Opus 4.8 が 58.3%、Flash が 40.9%。ターミナル中心のソフトウェア開発、システム管理、データ処理には Opus が有利です。Flash は並列のコーディングループを回す場面で、速度とコストを優先したいときに選ぶ価値があります。
推論と科学タスク
学術的な推論では Opus 4.8 が明確に優位。Humanity's Last Exam で 57.9%(Flash は 40.25%)と、数学・科学・人文系の作業に向いています。
マルチモーダル入力対応
ここは Flash の完勝。Opus 4.8 はテキストと画像のみですが、Flash は動画・音声・PDF にも対応。これらの形式を扱うパイプラインなら、対応できるのは Flash のみです。
速度とレイテンシ
出力は Flash が約3倍高速。Artificial Analysis の計測で、Flash は 192.2 トークン/秒、Opus 4.8 は 66.8 トークン/秒です。
コストとトークン効率
差が効いてくるのは出力トークン:Opus 4.8 は 100万あたり $25、Flash は $9。Opus は約 2.8 倍高価です。大量処理のパイプラインでは、この差が急速に積み上がります。
コンテキストウィンドウと出力量
入力はいずれも 100万トークン対応なので、違いは出力側。Opus 4.8 は 1 回で最大 128K トークン、Flash は 65,536 トークン。ほぼ倍です。長文のコード合成、ドキュメント生成、大量の単発出力を伴うエージェントループでは、この余裕が効いてきます。
どちらのモデルを選ぶべきか?
要は、支払う対象が「能力」か「スループット」かです。選び方は次の通り。
Claude Opus 4.8 を選ぶなら…
- タスク完了の品質が直接的な影響を持つ場合。GDPval-AA の Elo 1,890 と、AA-Omniscience における Google・OpenAI のモデルより低い幻覚率から、高精度の知的労働にはより安全です。
- 単発で大規模生成が必要(128K 出力トークンは Flash の 65,536 のほぼ倍)。
- すでに Claude Code や API を通じて Anthropic エコシステムで構築しており、乗り換えが負担。
- エージェントループが長く、会話途中の system メッセージ更新が重要(Messages API で、権限・トークン予算・コンテキストをキャッシュを壊さず更新可能)。
Gemini 3.5 Flash を選ぶなら…
- パイプラインが動画・音声・PDF を取り込む。
- 出力量が重要で、100万トークンあたり $9 と $25 の差が試算を変える。
- 最強のマルチツール協調スコアが欲しい(Flash は MCP Atlas で 83.6% と、Opus 4.8 の 82.2% すら上回る)。
- Antigravity や Vertex AI など Google 基盤で構築し、ベンダーを一本化したい。
- コストのきめ細かな制御が重要(4段階の思考レベルは、Opus 4.8 の単一エフォート設定に勝る)。
Flash とフラッグシップの今後
今回の Flash は、従来の Flash リリースよりかなり高価で、Google は批判も受けました。Flash と Opus のクラス間の実力差はいまだ大きく、フラッグシップに近い価格を Flash に払う根拠を弱めています。 より面白いのは、小型でもコーディングとエージェント作業に本当に強く、かつ Cursor の Composer 2.5 並みに安いモデルの競争です。
Anthropic の高速モードはエージェント型コーディングで注目ですが、価格が足かせ。$10/$50 では長いループを回す開発者には提案しづらく、普及は価格の見直し次第です。
Anthropic はコーディングに注力しており、当面は動画・音声入力で Google を追うことはないでしょう。これは Google にチャンスですが、Opus をエージェントタスクで上回る Flash もしくはフラッグシップを出せた場合に限ります。現状はまだ達していません。
まとめ
たとえば金融や医療など、タスク品質や幻覚リスクに実コストが伴う場面では Opus 4.8 が適任です。スループット・コスト・マルチモーダル入力を最適化するなら Gemini 3.5 Flash が適しています。
個人的な見立てでは、この2つは同じ仕事を取り合ってはいません。チームの大半は、自分たちのワークロードを一文説明すればどちら側か即座に分かるはず。より難しいのは、Google が価格優位を維持したまま性能差を詰められるかどうか。Google はすでに社内で Gemini 3.5 Pro を運用しており、圧力を本当に Opus 4.8 にかけるのは Flash ではなく、その Pro リリースでしょう。
自身のワークフローで AI アシスタントの信頼性を高めるスキルを磨くなら、まずは AI-Assisted Coding for Developers コースから。プロンプト、チェーン、エージェントで LLM アプリを構築するなら、Developing LLM Applications with LangChain が次の一歩として有力です。
Claude Opus 4.8 と Gemini 3.5 Flash に関するよくある質問
Claude Opus 4.8 は、総合的に見て Gemini 3.5 Flash より優れていますか?
総合的な知性ベンチマークでは、はい。Opus 4.8 は Artificial Analysis Intelligence Index で 61.4、Flash は 55 です。ただし、どちらが良いかは用途次第。Flash は高速・低コストで、Opus 4.8 が未対応の動画・音声・PDF 入力もサポートします。
Gemini 3.5 Flash はどの入力形式をサポートしていますか?
Gemini 3.5 Flash はテキスト、画像、動画、音声、PDF の入力に対応。Claude Opus 4.8 はテキストと画像のみ対応です。
両モデルの価格はどのように比較できますか?
Claude Opus 4.8 は入力 100万トークンあたり $5、出力 100万トークンあたり $25。Gemini 3.5 Flash は入力 $1.50、出力 $9。キャッシュヒット時の価格は、Opus 4.8 が $0.50、Flash が $0.15(いずれも 100万トークンあたり)。
GDPval-AA とは何ですか?Opus 4.8 と Gemini 3.5 Flash に関して重要な理由は?
GDPval-AA は Artificial Analysis による、実世界の知的労働タスクにおけるエージェント性能の主要ベンチマークで、Elo で評価されます。Opus 4.8 が Elo 1,890、Flash が 1,656。実運用のエージェント文脈でモデルを評価するうえで、従来型ベンチマークより有用です。
出力ウィンドウが大きいのはどちらですか?
Claude Opus 4.8 は最大 128K の出力トークンに対応し、Gemini 3.5 Flash の 65,536 を倍にします。長文ドキュメントや大規模コード生成、単発で大きな出力が必要なワークフローには Opus 4.8 が適しています。
Gemini 3.5 Flash は思考モードをサポートしていますか?
はい。Flash には minimal、low、medium、high の4段階の思考レベルがあり、既定は medium。Claude Opus 4.8 はアダプティブ思考のみで、拡張思考の予算はサポートしていません。