截至目前,2026 年堪称智能体 AI 之年。模型的改进催生了众多用于智能体工作的工具,从个人 AI 助手到编码智能体不一而足。该领域的主要参与者包括 Google 的 Gemini、OpenAI 的 GPT 系列,以及深受开发者青睐的 Anthropic 模型。
本文将对 Claude Opus 4.7 与 Gemini 3.1 Pro 进行比较,并包含基准与定价。最后,我会给出一个判断标准,帮助您确定哪一款模型更适合您的工作流。
什么是 Claude Opus 4.7?
正如我们在Opus 4.7 文章中所述,Claude Opus 4.7 是 Anthropic 最新的旗舰模型,是其前代产品 Claude Opus 4.6 的升级版。它专为复杂的智能体工作流和多步推理而设计,在智能体编码、视觉推理和工具使用方面表现更好。
Claude Opus 4.7 的关键特性与能力
Opus 4.7 的一个核心功能是任务预算,允许您为智能体在每个任务上可消耗的 Token 设定财务约束。通过强制其优化并控制在预算内,这可以防止智能体自主运行时出现意外成本。
Claude Opus 4.7 的上下文窗口为 100 万 Token,输出上限为 128K Token。这意味着它能在保留完整任务上下文的同时处理长时任务,特别适合探索大型代码库。
该模型的视觉能力也有所提升,支持最高 3.75 百万像素的图像。因此,其视觉推理较 Opus 4.6 更强,非常适合从高分辨率图表中提取数据等任务。
Opus 4.7 还引入了新的 xhigh 推理强度,介于 high 与 max 之间,可为编码与智能体任务提供最佳效果。您也可以使用 high 以获得稍低的思考强度。Anthropic 还在 Claude Code 中推出了 /ultrareview,用于对代码变更进行审查并捕捉缺陷。

让一些人感到意外的是,Adaptive Thinking 现在默认不展示思考过程。您可以将 thinking.display 设为 summarized 来恢复简要版推理内容。
在基准方面,Opus 4.7 的成绩如下:
- SWE-bench Verified:87.6%
- SWE-bench Pro(更难版本):64.3%
- OSWorld(自主电脑使用):78%
- MCP Atlas(多工具工作流编排):77.3%
在发布之时,Claude Opus 4.7 以 57 分位居 Artificial Analysis Intelligence Index 榜首。它还以 1,753 Elo 的成绩在以 GDPval-AA 衡量的真实智能体工作中领先。其后,GPT-5.5 已在这两项上实现反超。
在我们的 Claude Opus 4.7 实战基准教程中,学习如何构建一个 Streamlit 基准应用,测试 Opus 4.7 的自我评估记忆是否在 high、xhigh 与 max 不同思考强度下切实提升了编码表现。
Claude Opus 4.7 的优缺点
Anthropic 的模型一直以编码表现出众著称,Opus 4.7 的基准也印证了这一点。不过,Opus 系列并不便宜,这也使得任务预算功能颇具价值,尤其适合运行长时间智能体工作流的用户。
该模型还可通过 Amazon Bedrock、Google Vertex AI、Microsoft Foundry 等多家云提供商获取,方便您在现有供应商体系内集成。
Opus 4.7 同时配备了新分词器,使得与上一代 Opus 模型的实际成本对比稍显困难。不过,据 Artificial Analysis Intelligence 称,Opus 4.7 在运行其指数时,输出 Token 较 Opus 4.6 减少约 35%。

了解 Anthropic 目前最佳的公开模型 Claude Opus 4.7 的能力,并在我们的 Claude Opus 4.7 API 教程中构建一个可将图表转换为原始数据的数据科学工具。
什么是 Gemini 3.1 Pro?
Gemini 3.1 Pro 是 Google DeepMind 当前的旗舰推理模型,采用基于 Transformer 的专家混合架构。在发布之初,Gemini 3.1 Pro 以领先 Opus 4.6 四分的成绩登顶 Artificial Analysis Intelligence Index,如今与 Opus 4.7 并列,均为 57 分。
想进一步了解 Gemini 3.1 Pro,请参阅我们的《使用 Gemini 3.1 Pro 构建》一文,讲解如何用 Gemini 3.1 Pro 构建可投产的应用。
Gemini 3.1 Pro 的关键特性与能力
与只有两个等级的 Gemini 3 Pro 不同,Gemini 3.1 Pro 提供 3 个思考等级:low、medium 与 high。low 适合追求速度与 Token 优化;medium 兼顾平衡;high 会产生更多思考 Token、响应最慢,适用于需要复杂推理的任务。
Gemini 3.1 Pro 也支持 100 万输入 Token 的上下文窗口,但输出窗口较小,约为 65K Token。它是多模态模型,支持音频、PDF、文本与图像。
来看基准。以下两项是 Gemini 3.1 Pro 的强项:
- 在 ARC-AGI-2 上以 77.1% 领跑。
- 在 MCP Atlas(多工具工作流协调)上取得 73.9%。

据 Artificial Analysis Intelligence 称,Gemini 3.1 Pro Preview 在 Token 使用上更高效,运行其指数所用 Token 约为 5700 万,相较 Opus 4.6 更省。
在 Artificial Analysis 的编码指数上,Gemini 3.1 Pro 领先 Opus 4.7,但在智能体指数上则稍逊。
Gemini 3.1 Pro 的优缺点
Gemini 3.1 Pro 的定价相当有吸引力,尤其适用于需要大量 Token 的任务。Google 还提供批处理 5 折优惠,如果不需要实时结果,这是理想之选。
不足之处在于,Gemini 3.1 Pro 的 65K 输出窗口仅为 Opus 4.7(128K)的一半。
Claude Opus 4.7 vs Gemini 3.1 Pro 正面比较
在逐项对比前,先给出一份快速参考。
|
Claude Opus 4.7 |
Gemini 3.1 Pro |
|
|
发布日期 |
2026 年 4 月 16 日 |
2026 年 2 月 19 日 |
|
上下文窗口 |
100 万 Token |
100 万 Token |
|
最大输出 |
128K Token |
65K Token |
|
SWE-bench Verified |
87.6% |
80.6% |
|
SWE-bench Pro |
64.3% |
54.2% |
|
ARC-AGI-2 |
68.8% |
77.1% |
|
GPQA Diamond |
94.2%(并列) |
94.3%(并列) |
|
MCP Atlas |
77.3% |
73.9% |
|
OSWorld |
78.0% |
未公布成绩 |
|
视觉 |
2576px / 3.75MP |
多模态(视频、音频、PDF) |
|
输入定价 |
$5/百万 Token |
$2/百万 Token |
|
输出定价 |
$25/百万 Token |
$12/百万 Token |
智能体与电脑使用表现
Opus 4.7 在智能体工作方面非常强大,尤其在允许您控制智能体可用 Token 数量这一点上更具优势。Gemini 3.1 Pro 尚无此机制;您只能通过调整思考等级来控制 Token 使用。
Opus 4.7 在 OSWorld 自主电脑使用基准上取得 78%,与GPT 5.5 的 78.7% 不相上下,而 Gemini 3.1 Pro 尚无公开的 OSWorld 成绩。在 MCP Atlas 上,Opus 4.7 以 77.3% 领先于 Gemini 的 73.9%。这些数据使 Opus 4.7 成为投产级智能体系统的理想之选。
编码基准
接下来看编程相关的基准,尤其是测试真实 GitHub 问题的 SWE-bench Verified。
Opus 4.7 取得 87.6%,而 Gemini 3.1 Pro 为 80.6%。在难度更高的 SWE-bench Pro 上,Opus 4.7 为 64.3%,Gemini 为 54.2%(GPT 5.5 为 58.6%)。数据表明,Opus 4.7 目前是全球最强的编码模型。
再看测试模型在终端中编码能力的 Terminal-Bench 2.0。Opus 4.7 为 69.4%,Gemini Pro 为 68.5%,新推出的 GPT 5.5 为 82.7%。在该基准上,GPT-5.5 表现最优,而我们的两款模型基本持平。
推理与科学任务
哪款模型更适合推理与科学任务?我们来看看。我不会采用各家都能拿高分的 GPQA Diamond,而是关注 ARC-AGI-2,它评估的是流体智力,即模型解决未见过的抽象推理问题的能力。
Gemini 3.1 Pro 的成绩为 77.1%,Opus 4.7 为 75.8%,GPT 5.5 为 85.0%。因此该项中 GPT 5.5 明显领先,其次是 Gemini 3.1 Pro。
在旨在衡量研究生水平的科学、数学与人文推理的Humanity's Last Exam中,Opus 4.7 在有无工具两种设置下均领先于 Gemini 3.1 Pro:
- 无工具:Opus 4.7 以 46.9% 领先,其次是 Gemini 3.1 Pro(44.4%)与 GPT 5.5 Pro(43.1%)。
- 有工具:GPT 5.5 Pro 以 57.2% 领先,其次为 Opus 4.7(54.7%)与 Gemini 3.1 Pro(51.4%)。
成本与 Token 效率
Opus 4.7 的价格为每百万输入 Token 5 美元、每百万输出 Token 25 美元;Gemini 3.1 Pro 则为每百万输入 Token 2 美元、每百万输出 Token 12 美元。Gemini 明显更便宜,叠加 50% 的批处理优惠,对于需要大量 Token 的任务,性价比极高。
同样需要说明的是,Opus 4.7 的新分词器让与前代 Opus 模型的成本比较变得更为困难。
上下文窗口与输出能力
两款模型都支持 100 万输入 Token,可在单次提示中吞吐完整代码库与长篇研究文档。
在输出方面,Opus 4.7 支持 128K Token,而 Gemini 3.1 Pro 支持 65,536。这使得 Opus 更适合需要生成较长输出的工作流。

查看我们的Opus 4.7 vs. GPT-5.4 教程,了解 两者在编码、智能体工作流与长上下文任务上的比较与基准分析。
Claude Opus 4.7 比 Gemini 3.1 Pro 更好吗?
回到关键问题:这两款模型,您应该选哪一个?
若符合以下情况,您应选择 Claude Opus 4.7...
- 您在构建智能体编码流水线,而 SWE-bench Pro 上 10 个百分点的差距会直接转化为生产环境中更少的失败运行。
- 您需要任务预算,使长时间的自主循环更可预测,而无需额外加入外部监控逻辑。
- 您的流水线会生成较长输出,128K Token 的上限至关重要,几乎是 Gemini 3.1 Pro 的两倍。
- 您希望在复杂智能体工作流中,获得 MCP Atlas 上最强的多工具编排得分。
- 您已在 Anthropic 生态内(如 Claude Code、Amazon Bedrock 或 Claude API),迁移成本高于价格差带来的收益。
若符合以下情况,您应选择 Gemini 3.1 Pro...
- 您的 Token 体量很大,使得 2.5 倍的输入成本差异十分关键;以每月 5 亿 Token 计,该差距每月即为 1,500 美元。
- 您需要在单次 API 调用中原生接入视频、音频或 PDF,而无需单独的预处理步骤。
- 您构建在 Google 基础设施之上,希望通过 Vertex AI 与单一供应商合作。
- 抽象视觉推理是您的主要用例。Opus 在 ARC-AGI-2 上以 75.8% 落后于 Gemini 的 77.1%。
结语
Claude Opus 4.7 与 Gemini 3.1 Pro 都是强劲的模型。如何选择取决于您的预算与目标任务。Opus 在智能体任务上更胜一筹,但若预算有限,Gemini 3.1 Pro 也是有力选项,尤其考虑到其更低廉的 Token 与 50% 的批处理折扣。
Anthropic 继续在最佳编码模型上保持领先,适合需要复杂推理与编程的智能体任务。Google 则以显著低于 Anthropic 的价格提供前沿推理模型。各家公司之间(包括 OpenAI 等其他巨头)的竞争,正在于谁能提供既是顶级智能体模型、又是优秀通用模型的方案。
鉴于 Opus 系列价格不菲,引入任务预算是件好事。我不会惊讶于其他厂商在未来版本中也整合这一能力。它将有助于提升长时间智能体任务运行成本的可预测性。
若想进一步学习如何使用 AI 工具,建议查看我们的最佳免费 AI 工具指南。若想系统提升 AI 编码能力,试试我们的《面向开发者的 AI 辅助编程》课程,让 AI 助手在您的开发工作流中更可靠。
最后,您还可以在我们的《使用 LangChain 开发 LLM 应用》课程中,学习如何用 LLM、提示、链与智能体构建 AI 驱动的应用。