メインコンテンツへスキップ

Claude Opus 4.7 と GPT-5.4 の比較:どのフロンティアモデルを使うべきか

コーディング、エージェント的ワークフロー、長文コンテキスト作業における Claude Opus 4.7 と GPT-5.4 を比較し、ベンチマーク、料金体系、ツール利用を分析してモデル選定を支援します。
更新 2026年4月24日  · 11 分 読む

GPT-5.4 は、2026年3月5日にプロフェッショナル用途のフラグシップとして公開され、コーディングと推論を単一の汎用モデルに統合しました。6週間後の4月16日、Anthropic は Claude Opus 4.7 をリリース。こちらは別の仮説に基づき、長期的なエンジニアリング作業を自律的にこなし、多くのエージェントが破綻しがちな長いセッションでも一貫性を保つことに重点を置いています。

両者を直接比較するのにちょうどよいタイミングですが、留意点が1つ。この原稿は Opus 4.7 の公開当日に出ており、以下の直接比較の数字は主にベンダー発表です。結論ではなく、出発点として扱ってください。

アップデート:OpenAI は GPT-5.4 の後継モデルを公開しました。詳細は GPT-5.5 ガイドをご覧ください。

Opus 4.7 と GPT-5.4 の徹底比較

各項目に入る前のクイックリファレンスです。もっとも複雑で重要なポイントは価格で、別セクションで詳しく扱います。

Claude Opus 4.7 と GPT-5.4 をコンテキストウィンドウ、価格、エフォートレベル、ビジョン、主要機能で並べて比較する仕様表。

両モデルの主要スペック比較。画像:著者作成。

Gemini 3.1 Pro は、大量の文書処理や長文の法務分析が主用途であれば有力な代替です。200万トークンのコンテキストに対応し、トークン単価も低めです。本記事は Anthropic と OpenAI の比較に焦点を当てます。

各ベンダーが自社モデルをどう位置づけるかを見ると、想定する用途が見えてきます。

モデルの位置づけと想定ユースケース

OpenAI は GPT-5.4 を統合型の汎用モデルとして位置づけています。かつて GPT-5.3-Codex にあったコーディング機能を取り込み、タスクごとにエンドポイントを切り替える必要がなくなりました。モデルは1つ、エンドポイントも1つ。タスクが何であれ同じです。

Anthropic の Opus 4.7 の打ち出しはより限定的です。「コーディング、エージェント、コンピュータ操作、エンタープライズのワークフロー」に最適化し、長期的な自律性を主な差別化要因とします。難しいエンジニアリング作業を任せ、報告前に自らのエラー検知に期待できる設計です。なお、Opus 4.7 は Anthropic の一般提供の中では最上位ですが、最上位モデルそのものではありません。Claude Mythos Preview はそれより上位に位置し、防御的なサイバーセキュリティのワークフローに限定されています。

この違いは極端な場面で現れます。非常に長時間のコーディングセッションや、何十ものツールを連鎖させるパイプラインです。

コーディングとエージェント的ワークフロー

リポジトリ単位のコーディングでは、各ベンダーが公表したベンチマーク(詳細は後述)で Opus 4.7 が優位です。自己出力検証が導入され、モデルが報告前に自分の作業をチェックします。Genspark は特にループ耐性を指摘しており、Opus 4.7 は同一問題で堂々巡りになりにくいと報告しました。40分も空回りしたエージェントを経験して初めて重要性が分かる類の改善です。

GPT-5.4 は Terminal-Bench 2.0 で約6ポイントの差でリード(75.1% 対 69.4%)。ただし Anthropic は、この GPT-5.4 の数値が自己報告のハーネスによるものだと注記しています。GPT-5.4 はまた、Interactive Thinking によって応答途中での計画修正を導入しました。複雑な推論中に、生成が完了する前でも介入して進路が誤っていれば方向転換できます。Opus 4.7 に同等機能はありません。とはいえ SWE-bench の差は現実的です。ベンダーが選んだベンチマークで6ポイント差は有益なシグナルであって最終判断ではありません。

コンテキストウィンドウと長文コンテキストの作業

両モデルともおおよそ100万トークンに対応します。違いは、そのコンテキストを使ったときの請求のされ方です。Opus 4.7 はウィンドウ全体でフラットレートのため、90万トークンのリクエストも9千トークンのリクエストもトークン単価は同じです。GPT-5.4 は入力27.2万トークン未満なら100万トークンあたり$2.50ですが、この閾値を超えるとセッション全体が再プライシングされます。正確な数字は価格セクションで扱います。

トークナイザーにも注意点があります。Opus 4.7 は同一テキストを 4.6 より最大35%多いトークンにマッピングする場合があります。トークン単価は変わりませんが、タスク当たりの実効コストは上がり得ます。

長文コンテキストの実性能については、パートナー検証で Opus 4.7 が6つの研究モジュール横断の一貫性スコアで 0.715 と最高タイに。100万トークン近くを埋める RAG パイプラインは、ベンダーベンチマークに頼る前に自分たちのワークロードで検証すべきです。

ツール利用、マルチモーダル性、環境との相互作用

ツール面は紙面上は似ていても、実際には差があります。OSWorld-Verified(デスクトップでのコンピュータ操作)では、Opus 4.7 が 78.0% と GPT-5.4 の 75.0% を上回り、いずれも人間のエキスパート基準(72.4%)を超えました。一方でブラウザを使ったウェブリサーチでは逆転し、BrowseComp(Pro 版)で GPT-5.4 は 89.3%、Opus 4.7 は 79.3%。「コンピュータ操作」という一つの見出しの下に、デスクトップ対ブラウザという分断が隠れています。

Opus 4.7 の目玉のマルチモーダル強化はビジョン解像度です。長辺 2,576 ピクセル、約3.75メガピクセルまでの画像を、API パラメータ不要で自動的に高忠実度で処理します。セキュリティ検証パートナーの XBOW は、視覚精度が Opus 4.6 の 54.5% から 4.7 で 98.5% に跳ね上がったと報告。今回のリリースで最大の単一ベンチマーク改善でした。

ツールのアーキテクチャにも違いがあります。GPT-5.4 のツール検索は、すべてをプロンプトに埋め込むのではなくオンデマンドで定義を読み込み、大規模なツール群でもトークンのオーバーヘッドを抑えます。Opus 4.7 は、ツールを呼ぶ前に問題を推論し、全体としてツール呼び出しが少なめ。エフォートレベルが上がるほどツール利用は増えます。

操縦性、信頼性、出力スタイル

Opus 4.7 は指示に文字どおり従います。ある項目から別の項目へ一般化したり、明示しない要求を推測したりしません。そのため、4.6 向けに書いたプロンプトは予期せぬ挙動になることがあります。Anthropic は再チューニングを推奨しています。利点は、長いエージェントループでの信頼性。Ramp のエンジニアリングチームは、多ツールのワークフローで逐一のガイダンスが大幅に減ったと報告し、Hexagon の検証では、低エフォートの Opus 4.7 が中エフォートの Opus 4.6 と概ね同等でした。

Anthropic は xhighhighmax の間に新設し、Claude Code のデフォルトも全プランで xhigh に引き上げました。新トークナイザーと相まって、エージェントの後半ターンでは出力トークン数が 4.6 より多くなる場合があります。Task Budgets(現在パブリックベータ)を使えば、セッション内でのエージェント消費を上限設定できます。GPT-5.4 の操縦性はコーディングの章で触れた Interactive Thinking が中心で、OpenAI のプロンプトガイドでも、明確な出力契約があると性能が安定すると記載されています。

Anthropic 自身の安全性評価からの補足:Opus 4.7 は誠実性やプロンプトインジェクション耐性が 4.6 より向上した一方で、規制物質に関する過度に詳細なハームリダクション助言の抑制にはやや後退が見られました。Anthropic の総評は「概ね整合的で信頼できるが、行動として完全に理想的ではない」。

ベンチマークで見る Opus 4.7 と GPT-5.4

ベンチマークは注意深く見る価値がありますが、盲信は禁物です。両ベンダーとも自社に有利な指標を選んでいますし、この記事執筆時点では Vals.ai と Artificial Analysis はまだ Opus 4.7 をインデックスしていません。判断は自分たちのタスクでテストしてからにしてください。

コーディング系ベンチマーク

下の表は、各ベンダーのリリース資料にある、もっとも関連性の高いコーディングの根拠をまとめたものです。 release materials.

ベンチマーク

Claude Opus 4.7

GPT-5.4

注記

SWE-bench Pro

64.3%

57.7%

ベンダー公表値;ハーネス構成が異なる

SWE-bench Verified

87.6%

未公表

OpenAI はこのバリアントの公式スコアを未発表

CursorBench

約70%

未公表

Cursor は Anthropic のパートナーであり独立評価ではない

Terminal-Bench 2.0

69.4%

75.1%

GPT-5.4 の数値は自己報告のハーネスによると Anthropic が注記;GPT-5.3-Codex(77.3%)からは後退

GPQA Diamond

94.2%

94.4%(Pro)

実質的に同等;このレベルではほぼ飽和

SWE-bench Pro と SWE-bench Verified のコーディングベンチマークで Claude Opus 4.7 と GPT-5.4 を横棒グラフで比較。Opus 4.7 が両方で優位。

コーディングのベンチマークは明確に Opus 4.7 に分があります。画像:著者作成。

SWE-bench には複数のバリアントがあり、両ベンダーとも自社が強い指標を強調しました。Anthropic は記憶(メモリ)疑いのスクリーニングを適用し、フラグ付き課題を除外しても Opus 4.7 の優位は維持されると報告しています。参考までに、Z.ai のオープンウェイト GLM-5.1 が、2026年4月上旬に SWE-bench Pro で一時 58.4% と首位に立ち、その後 Opus 4.7 の 64.3% が登場。ここでの「最先端」主張の賞味期限は短いといえます。

エージェント/コンピュータ操作系ベンチマーク

Opus 4.7 の公開に合わせ、Anthropic は多くのエージェント系ベンチマークで両モデルの比較数値を提示しました。結果は一方的ではなく混在した絵柄です。

ベンチマーク

Claude Opus 4.7

GPT-5.4

注記

OSWorld-Verified

78.0%

75.0%

デスクトップでのコンピュータ操作;人間のエキスパート基準(72.4%)を両者とも上回る

BrowseComp

79.3%

89.3%(Pro)

マルチホップ推論を伴うウェブリサーチ;GPT-5.4 が優位

MCP-Atlas

77.3%

68.1%

多くの接続サービスにわたるスケールしたツール利用

WebArena-Verified

未公表

67.3%

自律的なウェブナビゲーションタスク

Toolathlon

未公表

54.6%

マルチステップのツールオーケストレーション;GPT-5.2 の 46.3% から改善

Finance Agent v1.1

64.4%

61.5%(Pro)

長文コンテキストの金融リサーチエージェント

GDPval-AA

1753 Elo

1674 Elo

プロフェッショナルな知識労働;Opus 4.7 が 79 Elo ポイント差で優位

BigLaw Bench

高エフォートで 90.9%

未公表

法務文書タスク;Harvey によるパートナー評価

環境で色分けされます。デスクトップ、ツール利用、知識労働では Opus 4.7、ブラウザリサーチでは GPT-5.4。いくつかの GPT-5.4 の数値は Pro 版によるもので、標準版はより低い可能性があります。共通のスキャフォールドでの独立評価が次のステップです。

Opus 4.7 と GPT-5.4 の価格

見出しの料金はシンプルに見えますが、実態はそうではありません。

API 料金の構造

いくつかの具体例で見るのが分かりやすいでしょう。

入力10万トークン・出力1万トークンのリクエスト(GPT-5.4 の27.2万トークン閾値を十分下回る)では、GPT-5.4 は約$0.40、Opus 4.7 は約$0.75。短〜中程度のコンテキストでは GPT-5.4 がほぼ半額です。

入力50万トークン・出力2万トークン(GPT-5.4 の閾値超え)では、両者のコストはほぼ同じで $2.95 対 $3.00。入力90万トークン・出力1万トークンでもほぼ同等です。

27.2万トークンの再プライシング閾値で見落とされがちなのは、これはセッション全体に適用される点です。たとえば定常的に28万トークンのプロンプトを送るパイプラインは、余剰の8千トークン分だけでなく、毎回のリクエストが長文コンテキストのレートで課金されます。これはセッション単位の再価格設定であり、限界的な上乗せではありません。

短コンテキスト(10万トークン)、中コンテキスト(50万トークン)、長コンテキスト(90万トークン)での GPT-5.4 と Claude Opus 4.7 の API コスト比較。GPT-5.4 の27.2万トークンの価格閾値が明示されている。

GPT-5.4 は 27.2 万トークンを超えるとコストが上昇。画像:著者作成。

前述のとおり、新トークナイザーは同じ入力を 4.6 より最大35%多くトークン化する可能性があります。トークン単価は不変でも、タスク当たりの実コストは上がり得ます。実トラフィックで計測してください。4.6 のベースラインからの単純な外挿は過小見積もりになります。

両プラットフォームとも、キャッシュ済み入力トークンには約90%の割引があります。Opus 4.7 は100万トークンあたり $0.50、GPT-5.4 は27.2万トークン未満で $0.25。Batch API を使えば、非緊急ジョブでさらに約50%の割引が加わります。非同期ワークロードでは、これらの割引が最大のコストレバーです。

見落とされがちなツール単位の課金もあります。Anthropic はウェブ検索 1,000 回あたり $10 を課金し、取得コンテンツのトークン費も発生します。OpenAI はファイル検索のストレージとクエリを別課金。ツールを多用するパイプラインでは積み上がります。

ワークロード別のコスト

短コンテキスト・高頻度の作業(10万トークン未満の API 呼び出し、バッチ分類、素早い反復)では GPT-5.4 が安価です。入力コスト差は最大で2倍近くに達することもあります。

27.2万トークンを超えると優位は逆転。Opus 4.7 のフラットレートは予算化しやすく、総コストでも GPT-5.4 とほぼ並びます。

両プラットフォームともデータレジデンシーに少額の上乗せ(およそ10%)がありますが、このレベルでは価格ではなくコンプライアンスの判断です。エージェント的な Claude Code セッションでは、トークン消費の主要レバーは前述の Task Budgets です。

Claude Opus 4.7 は GPT-5.4 より優れている?

普遍的な正解はありません。「ある」と言い切る記事は何かを売ろうとしています。

Claude Opus 4.7 を選ぶべきなのは、長時間に及ぶソフトウェアエンジニアリングで自己検証が重要、エージェントがデスクトップアプリを操作、プロンプトが定常的に27.2万トークンを超える、濃密なスクリーンショットや技術図版の読み取りが多い、あるいは既に Claude Code/Cursor/Replit/Devin を使っている場合です。

GPT-5.4 を選ぶべきなのは、エージェントがブラウザベースのウェブリサーチを重く行う、ワークロードが27.2万トークン未満に収まりコストが重要、大規模ツール群でオンデマンドのツール読み込みを活用したい、あるいはチームがすでに OpenAI Responses API を使っている場合です。

両方のテストを検討すべきなのは、自律的なウェブリサーチと長尺のコーディングが仕事の両輪である場合。GPT-5.4 のブラウザ/ターミナルの強みはエージェント的なウェブ業務に適し、Opus 4.7 のループ耐性とフラットレートは深いエンジニアリングや文書中心のパイプラインに向きます。

左に Claude Opus 4.7、右に GPT-5.4 に適したユースケースを示す2列の意思決定ガイド。

ワークフローに合ったモデル選び。画像:著者作成。

どちらを選ぶ場合でも共通して重要なのは、非同期ワークロードでは Batch API の割引がモデル選択以上に効くこと。そして Opus 4.7 の独立ベンチマークはまだ出揃っていないため、自分たちの実作業の一部でパイロットを行う価値は、この記事も含めた比較記事全般より大きいという点です。

結論

Claude Opus 4.7 と GPT-5.4 の差は、「どちらが賢いか」よりも「どの形の仕事か」にあります。

Anthropic は自律性に賭けました。長いエンジニアリングを通して一貫性を保ち、自分の出力を検証するモデルです。OpenAI は幅広さに賭けました。ツール面の広さと、27.2万トークン未満の大半のプロンプトに対する低料金です。

多くのチームがつまずくのは価格で、とくに 27.2 万トークンのセッションで価格が変わる点が落とし穴です。月額を左右するのは、ベースレートの選択というより、キャッシングと両プラットフォームの Batch API 割引であることがほとんどです。

ベンチマークの差は一桁台で、両ベンダーは数週間おきに新モデルを出しています。自分たちのスタックに合う方を選び、1カ月後に見直してください。

これらのモデルを実務に落とし込む方法をさらに深掘りするなら、Software Development with Cursor コースで AI 支援のコーディングワークフローを実践的に学べます。

FAQs

Anthropic の API 以外でも Claude Opus 4.7 は使えますか?

はい。Opus 4.7 は Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry でモデル ID claude-opus-4-7 のもと提供されています。リージョンの提供状況やキャッシュトークンの価格はクラウド間で変動する場合があるため、データレジデンシーが重要な場合はプロバイダーのページを確認してください。

Opus 4.6 から 4.7 へ移行する際、API コードの更新は必要ですか?

はい、互換性に影響する変更が3点あります。 temperaturetop_ptop_k をデフォルト以外に設定すると、400 エラーが返るようになりました。旧パラメータ budget_tokens は使用不可で、thinking を adaptive モードに設定して置き換えてください。さらに新トークナイザーによりリクエストあたりのトークンが増えるため、4.6 でギリギリだった max_tokens 上限は 4.7 で出力が切れる可能性があります。プロンプトの再チューニングも推奨です。4.7 は 4.6 より指示に文字どおり従います。

コーディングにはどちらのモデルが適していますか?

Opus 4.7 は SWE-bench Pro(64.3% 対 57.7%)と SWE-bench Verified(87.6%;OpenAI は未公表)で優位です。GPT-5.4 は Terminal-Bench 2.0 で 75.1% と 69.4% に対しリードしていますが、この数値は自己報告のハーネスによると Anthropic が注記しています。リポジトリ規模のエンジニアリングには Opus 4.7、ターミナル中心のワークフローには GPT-5.4。共通スキャフォールドでの独立検証はなお待たれます。

Opus 4.7 のトークナイザー変更はコストにどう影響しますか?

増加幅は 1.0〜1.35 倍で、固定の 35% ではありません。影響はコンテンツの種類に依存します。見落としがちなのは、4.7 は後半のエージェントターンで高いエフォートレベルになるほど思考量も増えるため、セッション全体でトークン数が積み上がる点です。実務上の上限としては Task Budgets を使ってください。

ツールの使いこなしは GPT-5.4 のほうが上ですか、それとも Claude Opus 4.7 ですか?

異なる形で優位があります。GPT-5.4 は(ウェブ検索、ファイル検索、コードインタープリタ、コンピュータ操作といった)ビルトインのツール面が広く、オンデマンド読み込みに対応。Opus 4.7 は事前に推論してからツールを呼ぶ傾向があり、ツール呼び出し回数は少なめです。Notion は Opus 4.7 が初めて暗黙ニーズのテストを合格し、4.6 の 3 分の 1 のツールエラーだったと報告。MCP-Atlas(スケールしたツール利用)では、Opus 4.7 が 77.3% 対 68.1% でリード。表面の広さが必ずしも優れたオーケストレーションを意味するわけではありません。

トピック

DataCamp で学ぶ

Courses

生成 AI の基本概念

2時間
101.8K
生成 AI を、いかに責任を持って活用できるか学びます。 AI モデルの開発手法を理解し、社会に与える影響について一緒に考えましょう。
詳細を見るRight Arrow
コースを開始
もっと見るRight Arrow