跳至内容

Claude Opus 4.7 与 GPT-5.4:应选择哪款前沿模型?

我们从编码、智能体工作流与长上下文任务对比 Claude Opus 4.7 与 GPT-5.4,并分析基准、定价结构与工具使用,助您做出模型选择。
更新 2026年4月24日  · 11分钟

GPT-5.4 于 2026 年 3 月 5 日发布,作为 OpenAI 面向专业工作的旗舰模型,将编码与推理整合为单一的通用模型。六周后,4 月 16 日,Anthropic 发布了 Claude Opus 4.7,押注方向不同:一款能自主处理长周期工程任务,并在多数智能体容易崩坏的会话中保持连贯性的模型。

这正是直接对比它们的好时机,不过需要提醒一点:本文在 Opus 4.7 发布当日发出,因此下面的正面对照数据多为厂商自报。将其视为起点,而非定论。

更新:OpenAI 已发布 GPT-5.4 的继任模型。详情见我们的 GPT-5.5 指南。

Opus 4.7 与 GPT-5.4 正面对比

在分项展开前先看一份速览。定价最具细微差别,我们会单设一节详述。

并排规格表比较 Claude Opus 4.7 与 GPT-5.4 在上下文窗口、定价、努力等级、视觉与关键能力方面的差异。

两款模型的关键规格对比。图片来源:作者。

Gemini 3.1 Pro 对于主要需求是批量文档处理或长篇法律分析的场景是一个真正的替代方案;它在 200 万上下文窗口下的单位 token 成本更低。本文聚焦于 Anthropic 与 OpenAI 的对比。

每家厂商对其模型的定位,基本透露了他们预期的用法。

模型定位与预期用例

OpenAI 将 GPT-5.4 定位为统一的通用模型。它吸收了此前属于 GPT-5.3-Codex 的编码能力,开发者不再需要按任务类型将请求路由到不同的端点。一个模型,一个端点,适配任何任务。

Anthropic 对 Opus 4.7 的阐述更聚焦:一款为“编码、智能体、计算机操作与企业级流程”优化的模型,长周期自主性是其主要差异点。您把艰难的工程工作交给它,并信任它在回报结果前能自查错误。需要指出的是,Opus 4.7 是 Anthropic 最强的公开可用模型,但并非最顶级;其上的 Claude Mythos Preview 仅限防御性网络安全工作流。

这种差异在极端场景中最明显:超长的编码会话,或串联数十个工具的管道。

编码与智能体工作流

在仓库级编码上,Opus 4.7 在两家各自公布的基准上领先(完整数据见下)。它引入了自我输出校验,即模型在回报结果前会先检查自己的工作;Genspark 特别提到其抗循环能力:Opus 4.7 不容易在单个问题上反复打转。这类问题只有在您见识过智能体空转 40 分钟后才会真正关心。

GPT-5.4 在 Terminal-Bench 2.0 上领先约 6 个百分点(75.1% 对 69.4%),不过 Anthropic 指出 GPT-5.4 的分数来自自报的测试框架。GPT-5.4 还通过 Interactive Thinking 引入了“中途调整计划”:在复杂推理过程中,您可在模型生成完成前介入,如路径不对即可重定向。Opus 4.7 没有对应能力。SWE-bench 的差距是真实存在的:供应商挑选的基准上领先 6 个点,是有用的信号,但不是裁决。

上下文窗口与长上下文工作

两款模型都支持约 100 万 token;不同之处在于,当您使用这类上下文时,账单会发生什么。Opus 4.7 在整个窗口内按统一费率计价,因此 90 万 token 的请求与 9 千 token 的单位价格相同。GPT-5.4 在输入 token 低于 27.2 万时每百万 $2.50,但一旦跨过门槛,整个会话都会按长上下文费率重计。具体数字将在定价部分详述。

还有一个分词器的细节:与 4.6 相比,Opus 4.7 可能把同一段文本切分为多达 35% 更多的 token。单位 token 价格不变,但单次任务的实际成本可能上升。

在真实的长上下文表现上,合作伙伴测试显示 Opus 4.7 在六个研究模块中的一致性得分并列最高,达 0.715。接近 100 万上限的 RAG 管道应在您的实际工作负载上自测,不要完全依赖厂商基准。

工具使用、模态融合与环境交互

工具层面纸面上相似,实操差别更大。在 OSWorld-Verified(桌面计算机操作)上,Opus 4.7 以 78.0% 领先 GPT-5.4 的 75.0%,两者都高于 72.4% 的人类专家基线。而在基于浏览器的网页调研上情况相反:GPT-5.4 在 BrowseComp(Pro 版本)上达 89.3%,而 Opus 4.7 为 79.3%。一句“计算机使用”容易掩盖桌面与浏览器的分野。

Opus 4.7 的多模态亮点在于视觉分辨率:长边可达 2,576 像素,约 375 万像素,是此前 Claude 模型的三倍多,且自动以更高保真度处理,无需设置 API 参数。安全测试伙伴 XBOW 报告称,其视觉敏锐度从 Opus 4.6 的 54.5% 跃升至 4.7 的 98.5%,是本次发布中所有合作评测里单项提升最显著的结果。

二者在工具架构上也不同。GPT-5.4 的工具检索系统按需加载定义,而不是将全部工具内嵌到提示中,从而在大型工具生态中减少 token 开销。Opus 4.7 会先对问题进行推理,再调用工具,整体工具调用次数更少;在更高的努力等级下,工具使用会增加。

可控性、可靠性与输出风格

Opus 4.7 对指令的理解更加字面化。它不会从一个条目泛化到另一个,也不会推断您未明确提出的请求,因此为 4.6 编写的提示在 4.7 上可能表现出乎意料;Anthropic 建议重新调优。好处是在长链路的智能体循环中更可靠:Ramp 的工程团队指出在多工具工作流里所需的逐步引导明显减少,而 Hexagon 的测试发现,低努力等级的 Opus 4.7 大致相当于中等努力等级的 Opus 4.6。

Anthropic 还引入了 xhigh 作为 highmax 之间的新努力等级,并将 Claude Code 的默认值提升至 xhigh (适用于所有套餐)。结合新分词器,在智能体后续回合中的输出 token 数可能高于 4.6;Task Budgets(现已公测)可用于限制智能体在单次会话的支出。GPT-5.4 的可控性重点在 Interactive Thinking,已在编码部分介绍;OpenAI 的提示指南也指出,该模型在有明确输出约定时表现更佳。

Anthropic 自身的安全评估有一条提示:与 4.6 相比,Opus 4.7 在诚实性与抗提示注入方面有所提升,但在抵御对管制物质提供过于细节化的危害降低建议上略有回退。Anthropic 的总体评估是:“整体上对齐良好且值得信赖,但行为尚未完全理想。”

基准测试:Opus 4.7 对比 GPT-5.4

基准值得认真看,也只能有限信任。两家都选择了对自己更有利的测试;在本文写作时,Vals.ai 与 Artificial Analysis 尚未收录 Opus 4.7。在下结论前,请先在您的任务上自测。

编码基准

下表汇总了两家厂商 发布材料中最相关的编码证据。

基准

Claude Opus 4.7

GPT-5.4

备注

SWE-bench Pro

64.3%

57.7%

厂商自报;测试框架配置不同

SWE-bench Verified

87.6%

未公布

OpenAI 尚未在该变体上发布官方分数

CursorBench

~70%

未公布

Cursor 是 Anthropic 的合作伙伴;非独立评测

Terminal-Bench 2.0

69.4%

75.1%

Anthropic 指出 GPT-5.4 的分数来自自报测试框架;GPT-5.4 亦较 GPT-5.3-Codex(77.3%)回退

GPQA Diamond

94.2%

94.4%(Pro)

基本持平;在该水平已接近饱和

水平条形图比较 Claude Opus 4.7 与 GPT-5.4 在 SWE-bench Pro 与 SWE-bench Verified 上的编码成绩,显示 Opus 4.7 在两项上均领先。

编码基准明显偏向 Opus 4.7。图片来源:作者。

SWE-bench 有多个变体,两家都突出展示了自己表现最好的那个。Anthropic 进行了记忆性筛查,并报告称在剔除标记问题后,Opus 4.7 的优势仍然存在。背景补充:Z.ai 的开源权重 GLM-5.1 在 2026 年 4 月上旬曾以 58.4% 短暂领跑 SWE-bench Pro,随后 Opus 4.7 以 64.3% 登顶,因此此处任何“业界最强”的说法保质期都很短。

智能体与计算机使用基准

随 Opus 4.7 发布,Anthropic 公布了 两款模型在多数智能体基准上的对比数据。结果并非一边倒,而是此消彼长。

基准

Claude Opus 4.7

GPT-5.4

备注

OSWorld-Verified

78.0%

75.0%

桌面计算机操作;两者均高于 72.4% 的人类专家基线

BrowseComp

79.3%

89.3%(Pro)

包含多跳推理的网页调研;GPT-5.4 领先

MCP-Atlas

77.3%

68.1%

跨众多连接服务的规模化工具使用

WebArena-Verified

未公布

67.3%

自主网页导航任务

Toolathlon

未公布

54.6%

多步工具编排;较 GPT-5.2 的 46.3% 提升

Finance Agent v1.1

64.4%

61.5%(Pro)

长上下文的金融研究智能体

GDPval-AA

1753 Elo

1674 Elo

专业知识工作;Opus 4.7 领先 79 Elo 点

BigLaw Bench

高努力等级 90.9%

未公布

法律文书任务;Harvey 合作评测

结果按环境而分:Opus 4.7 在桌面、工具使用与知识工作上领先;GPT-5.4 在浏览器调研上领先。部分 GPT-5.4 的数据来自 Pro 版本,标准层可能略低。下一步需要在共享框架上的独立复现实验。

Opus 4.7 与 GPT-5.4 的定价

标题价看上去简单,实际成本并非如此。

API 定价结构

通过几个具体场景最容易理解两者的差别。

在一次 10 万输入 token、1 万输出 token 的请求中(远低于 GPT-5.4 的 27.2 万阈值),GPT-5.4 约 $0.40,而 Opus 4.7 约 $0.75。对于短至中等上下文工作,价格几乎减半。

在 50 万输入、2 万输出时,超过 GPT-5.4 的阈值,两者成本大致相当:约 $2.95 对 $3.00。若为 90 万输入、1 万输出,几乎一致。

27.2 万的重定价阈值最容易让人措手不及:它适用于整个会话,而非仅限超出部分。一个经常发送 28 万 token 提示的管道,会对每一次请求都按长上下文费率计价,而非只对额外的 8 千计加价。这是会话级重定价,而不是边际附加费。

图表展示了在短上下文(10 万 token)、中等上下文(50 万 token)与长上下文(90 万 token)请求规模下,GPT-5.4 与 Claude Opus 4.7 的 API 成本对比,并清晰标注了 GPT-5.4 的 27.2 万定价阈值。

GPT-5.4 的成本在超过 27.2 万 token 后上升。图片来源:作者。

正如在上下文窗口部分所述,新分词器可能将同一输入映射为最多高出 35% 的 token。单位 token 价格不变,但单次任务的实际成本会升高。请以真实流量测量;从 4.6 的基线外推会给出偏低的数字。

两家平台对缓存的输入 token 都提供约 90% 折扣:Opus 4.7 为每百万 $0.50,GPT-5.4 在 27.2 万以下为每百万 $0.25。批处理 API 对非紧急工作可再打约五折。对于异步工作负载,这些折扣是任一平台上影响最大的杠杆。

还存在容易被忽略的按工具计费。Anthropic 对网页搜索收费为每 1,000 次 $10,另加检索内容的标准 token 费用。OpenAI 对文件搜索的存储与查询分别计费。在工具密集的管道中,这些费用会堆积。

不同工作负载的成本

对于短上下文、高吞吐的工作(单次 API 调用低于 10 万 token、批量分类、快速迭代),GPT-5.4 更便宜。输入端的成本差距最高可接近两倍。

超过 27.2 万 token 后,优势反转。Opus 4.7 的统一费率更易预算,且总成本几乎与 GPT-5.4 持平。

两家平台对数据驻留都会收取小幅溢价(约 10% 左右)。在这个水平上,这是合规考虑,而非定价考虑。对于 Claude Code 的智能体会话,Task Budgets(见可控性部分)是控制 token 支出的主要手段。

Claude Opus 4.7 比 GPT-5.4 更好吗?

没有放之四海而皆准的答案,任何声称有的文章都在向您推销点什么。

选择 Claude Opus 4.7,如果您的主要工作是需要自我校验的长周期软件工程;您的智能体需要操作桌面应用;您的提示经常超过 27.2 万 token;您的流程需要阅读高密度的截图或技术图表;或您已在使用 Claude Code、Cursor、Replit 或 Devin。

选择 GPT-5.4,如果您的智能体大量依赖基于浏览器的网页调研;您的工作负载通常低于 27.2 万 token 且成本敏感;您需要在大型工具生态中按需加载工具;或您的团队已在使用 OpenAI Responses API。

考虑同时测试,如果您的工作在自主网页调研与长篇编码之间分配。GPT-5.4 在浏览器与终端上的长处更适合智能体网页工作流;Opus 4.7 的抗循环与统一费率更适合深度工程会话与重文档的管道。

两栏决策指南:左侧列出适合 Claude Opus 4.7 的用例,右侧列出适合 GPT-5.4 的用例。

为您的工作流选择合适的模型。图片来源:作者。

两者的共同点:对于异步工作负载,批处理 API 的折扣可能比模型选择本身更重要。且由于 Opus 4.7 的独立基准仍在追赶,基于您自身真实工作切片的试点,比任何对比文章(包括本文)更有价值。

结语

Claude Opus 4.7 与 GPT-5.4 的差距,与其说是谁更“聪明”,不如说是您所做工作的形态不同。

Anthropic 押注“自主性”:一款为长程工程运行而生、能自检输出的模型。OpenAI 押注“广度”:更广的工具面与对大多数低于 27.2 万 token 的提示更便宜的费率。

定价最容易让团队措手不及,如前所述,27.2 万会话级重定价是特定的“坑”。比起基础费率,真正影响月度支出的,往往是缓存与两家平台的批处理 API 折扣。

基准差距都是个位数,且两家每隔数周就会发布新模型。选一个契合您实际栈的,一个月后再复盘。

若您想更深入地将这些模型投入实战,我们的 Software Development with Cursor 课程涵盖 AI 辅助编码工作流的实操。

FAQs

Claude Opus 4.7 是否可在 Anthropic API 之外使用?

是的。Opus 4.7 可在 Amazon Bedrock、Google Cloud Vertex AI 与 Microsoft Foundry 上使用,模型 ID 为 claude-opus-4-7。各云上区域可用性与缓存 token 定价可能有差异,若数据驻留对您的部署很重要,请查看各提供商页面。

从 Opus 4.6 迁移到 Opus 4.7 时,我需要更新 API 代码吗?

是,有三处不向后兼容的更改。将 temperaturetop_ptop_k 设为非默认值将返回 400 错误。较旧的 budget_tokens 参数会失败;请改用思维设为自适应模式。且新分词器会为每次请求生成更多 token,因此在 4.6 上设置得较紧的 max_tokens 上限,可能在 4.7 上截断输出。也请重新调优提示:4.7 对指令的理解比 4.6 更加字面化。

哪款模型更适合编码?

Opus 4.7 在 SWE-bench Pro 上领先(64.3% 对 57.7%),在 SWE-bench Verified 上为 87.6%(OpenAI 未公布该项分数)。GPT-5.4 在 Terminal-Bench 2.0 上以 75.1% 对 69.4% 领先,但 Anthropic 指出该分数来自自报测试框架。仓库级工程选 Opus 4.7,偏重终端的工作流选 GPT-5.4。基于共享脚手架的独立评测仍在进行中。

Opus 4.7 分词器变更如何影响成本?

范围为 1.0 至 1.35 倍,而非固定 35%,影响取决于内容类型。另一个不太显性的因素:4.7 在智能体后续回合的更高努力等级上会“多思考”,因此 token 数会在会话内累积。Task Budgets 是务实的硬性上限。

GPT-5.4 在使用工具方面是否优于 Claude Opus 4.7?

方式不同。GPT-5.4 具备更广的内置工具面(网页搜索、文件搜索、代码解释器、计算机使用),并支持按需加载工具。Opus 4.7 工具调用更少,先行推理。Notion 报告称,Opus 4.7 是首个通过其隐式需求测试的模型,工具错误量是 4.6 的三分之一。在 MCP-Atlas(规模化工具使用)上,Opus 4.7 以 77.3% 领先 68.1%,因此更广的工具面并不自动等于更好的编排。

主题

与 DataCamp 一起学习

Courses

Generative AI Concepts

2小时
101.8K
Discover how to begin responsibly leveraging generative AI. Learn how generative AI models are developed and how they will impact society moving forward.
查看详情Right Arrow
开始课程
查看更多Right Arrow