跳至内容

Claude Opus 4.8 vs Gemini 3.5 Flash:基准与使用场景对比

在 MCP Atlas、SWE-bench Pro 和 GDPval 等基准上对比 Claude Opus 4.8 与 Gemini 3.5 Flash,并比较定价与速度,帮助您为工作选择合适的模型。
更新 2026年6月9日  · 9分钟

2026 年上半年由代理式(agentic)工作流定义,尤其是在编码领域:模型接收单次提示后即可将任务执行至完成。如今的竞争同时在三个维度展开:能力、速度和价格。Anthropic 与 Google 的押注路径明显不同。

本文比较两款近期发布的模型:Google 在 I/O 大会上宣布的 Gemini 3.5 Flash,以及 Anthropic 于 5 月 28 日发布的 Claude Opus 4.8。它们并非同一档位:一个是快速且低价的“劳模”,另一个是高端旗舰。正是这道差距让这场对比有意义,因为它迫使我们思考:什么时候值得为纯粹的能力溢价买单。

在本文中,我将从基准测试、成本与速度三个方面进行对比,并给出各自适用的工作场景。您也可以查看我们更深入的 Gemini 3.5 Flash 概览以及 Claude Opus 4.8 详解。

简而言之

  • 总体来看,Opus 4.8 能力更强。它在 Artificial Analysis Intelligence Index(61.4)、GDPval-AA(1,890 Elo)以及 Humanity's Last Exam 上领先。
  • Gemini 3.5 Flash 更便宜也更快:每百万 token 定价 $1.50/$9,对比 Opus 4.8 的 $5/$25;输出速度为每秒 192.2 个 token,对比 66.8。
  • Gemini 3.5 Flash 支持多模态输入(视频、音频、PDF),而 Opus 4.8 仅支持文本与图像。
  • 当任务质量与幻觉风险会带来真实成本时,选择 Opus 4.8;对于高吞吐、多模态、成本敏感的流水线,选择 Gemini 3.5 Flash。

什么是 Claude Opus 4.8?

Claude Opus 4.8 是 Anthropic 的旗舰模型,也是 Opus 4.7 的后续版本,面向复杂推理与长跨度的代理式编码。目前它以 61.4 分位居 Artificial Analysis Intelligence Index 榜首。

它同样领跑 GDPval-AA 排行(按多个职业的真实任务计分),以及新的 ITBench-AA 基准(测试代理如何从保存的 Kubernetes 事件快照中诊断根因)。

核心特性与能力

重点规格:

  • 100 万 token 的上下文窗口,最多输出 128K token
  • 仅支持自适应思考模式
  • 新增 effort 参数,默认全局为高,包括 Claude Code

Opus 4.8 还加入了快速模式,目前为研究预览,可将每秒输出 token 提升至最多 2.5 倍,定价为每百万输入/输出 token $10/$50。虽是标准 Opus 4.8 价格的两倍,但仅为 Opus 4.7 快速模式价格的三分之一。

Messages API 现已支持在 messages 数组中插入 system 条目,因此您可在任务中途更新 Claude 的指令,而无需重启对话。您可以在不破坏提示缓存的情况下推送权限、token 预算或环境上下文。

最小可缓存提示长度也从 Opus 4.7 的 4,096 token 降至 1,024 token,更短的提示现在也可缓存。

与 Opus 4.7 相比,按 Artificial Analysis 数据,多个基准都有提升:

  • Terminal-Bench Hard:+6.6 分
  • τ²-Bench Telecom(技术支持场景模拟):+5.8 分
  • IFBench(精确指令遵循):+3.6 分

它同样在 Humanity's Last Exam 上居首,无工具得分 49.8%,使用工具得分 57.9%。

优缺点

在代理式工作上,Opus 4.8 是本次对比中最强的选择。它在 Artificial Analysis Agentic Index(涵盖编程等任务)上排名第一。

代价是价格。定价沿用 Opus 4.7,每百万输入/输出 token 为 $5/$25,对于高吞吐工作而言偏贵。抽样控制仍不可用:设置 temperaturetop_ptop_k 会报错。

什么是 Gemini 3.5 Flash?

Gemini 3.5 Flash 是 Google 的最新模型,主打在接近前沿质量下的速度,我们已在 Gemini 3.5 Flash 概览中进行了介绍。它在 Terminal-Bench 2.1 上得分 76.2%,在 GDPval-AA 上达到 1,656 Elo。

核心特性与能力

Flash 可接收文本、图像、视频、音频与 PDF 输入,并完整支持思考级别。核心功能包括:

  • 约 100 万 token 输入上下文(1,048,576 token),输出上限 65,536 token
  • 批量 API 与提示缓存
  • 代码执行与函数调用
  • 搜索溯源与结构化输出

在基准测试上,它在多工具代理协调的 MCP Atlas 得分 83.6%,在多模态理解的 CharXiv Reasoning 得分 84.2%。在 Artificial Analysis Intelligence Index 中位列第 7,就 Flash 档位而言相当强劲;在 Agentic Index 中排名第 6,接近 Opus 4.7。

Gemini 3.5 Flash 还原生支持 Antigravity 多代理框架。本次发布中,Antigravity 的界面被重做,更接近 OpenAI Codex 与 Cursor 应用。

优缺点

Flash 的卖点是“单位美元的智能”:以每百万输入 token $1.50、每百万输出 token $9 的价格,在 Artificial Analysis Intelligence Index 上获得 55 分,这个价位下能力不俗。

原生多模态输入(含视频与音频)是另一大优势。它的四档思考系统(minimal、low、medium、high)也比 Opus 4.8 的单一 effort 设置提供更细粒度的成本与性能控制。

不过最亮眼的是代理式工具使用。Flash 在 MCP Atlas 上得分 83.6%,是本次对比中多工具协调的最佳成绩,甚至领先 Opus 4.8 的 82.2%。Flash 档位模型在该基准上超越 Anthropic 最新旗舰,这种结果通常不会沿着档位线分布。

但有两点需要注意:在 Intelligence Index 的测试中,Flash 生成了 7,300 万个 token,而平均值为 3,500 万,它更啰嗦,这会增加输出计费。首 token 延迟为 18.88 秒,对于这一档位偏高,可比模型大约在 2 秒左右。

想了解 Flash 与 OpenAI 旗舰的对比,请查看我们的 Gemini 3.5 Flash vs. GPT-5.5 文章。

Claude Opus 4.8 vs Gemini 3.5 Flash:正面交锋

进入分项对比之前,先看一张速览表。

属性 Claude Opus 4.8 Gemini 3.5 Flash
发布日期 2026 年 5 月 28 日 2026 年 5 月 19 日
上下文窗口 100 万 token 100 万 token
最大输出 token 128K 65,536
Intelligence Index(AA) 61.4 55
GDPval-AA Elo 1,890 1,656
输出速度 66.8 token/秒 192.2 token/秒
输入模态 文本、图像 文本、图像、视频、音频、PDF
输入价格 $5 / 每百万 token $1.50 / 每百万 token
输出价格 $25 / 每百万 token $9 / 每百万 token
思考模式 仅自适应 minimal / low / medium / high

代理式与编码表现

Opus 4.8 更强,但 Flash 的差距没有档位想象的大。Opus 4.8 以 1,890 Elo 领先 GDPval-AA,Flash 为 1,656,说明其在知识性工作上更胜一筹。

MCP Atlas 则出人意料。Flash 在该多工具协调基准上得分 83.6%,小幅领先 Opus 4.8 的 82.2%。Flash 档位模型在代理式工具使用上击败 Anthropic 最新旗舰,确实出乎意料,也是本次对比中支持选择 Flash 的最有力论据。

SWE-bench Pro 则相反。该基准测试模型解决真实软件工程工单的能力,Opus 4.8 得分 69.2%,仅次于 Anthropic 的内部 Mythos Preview。Flash 取得 55.0%,与两者档位差距相符,但本身也值得注意:它超过了 Gemini 3.1 Pro 的 54.2%,说明这一代 Flash 已追上上一代的 Pro 档位。

在 Terminal-Bench Hard 上,Opus 4.8 得分 58.3%,Flash 为 40.9%,因此前者更适合基于终端的软件工程、系统运维与数据处理工作。当您需要并行运行编码循环,且速度与成本比顶级准确性更重要时,Flash 更有优势。

推理与科研任务

在学术推理上,Opus 4.8 明显领先。它在 Humanity's Last Exam 上得分 57.9%,而 Flash 为 40.25%,因此更适合数学、科学与人文学科相关工作。

多模态输入支持

这一项 Flash 完胜。Opus 4.8 读取文本与图像;Flash 还支持视频、音频与 PDF。若您的流水线涉及这些格式,二者中只有 Flash 能处理。

速度与延迟

Flash 的输出大约快三倍。Artificial Analysis 的测试为每秒 192.2 个输出 token,而 Opus 4.8 为 66.8。

成本与 token 效率

输出 token 的差距最为致命:Opus 4.8 为每百万 $25,Flash 为每百万 $9,前者约为后者的 2.8 倍。在高吞吐流水线中,这一差异会迅速累积。

上下文窗口与输出容量

二者均支持 100 万输入 token,因此区别在输出侧。Opus 4.8 单次可写入最多 128K token,而 Flash 为 65,536,接近两倍。对于长代码合成、文档生成,或需要单次大输出的代理式循环,这一余量至关重要。

您该选哪一款?

核心在于您是为能力付费,还是为吞吐付费。我的划分如下:

在以下情况下,选择 Claude Opus 4.8……

  • 任务完成质量有直接后果。其 1,890 Elo 的 GDPval-AA 表现,以及在 AA-Omniscience 上低于 Google 与 OpenAI 模型的幻觉率,使其成为高精度知识工作中的更安全之选。
  • 您需要 128K 输出 token 以进行单次大规模生成,几乎是 Flash 65,536 的两倍。
  • 您已在 Anthropic 生态(如 Claude Code 或 API)中构建,切换成本较高。
  • 您的代理式循环足够长,以至于对话中途的 system 消息很重要;借助 Messages API,您现在可在不中断提示缓存的情况下在任务中途更新权限、token 预算或上下文。

在以下情况下,选择 Gemini 3.5 Flash……

  • 您的流水线需要摄入视频、音频或 PDF。
  • 您需要高输出量,而每百万 token $9 对比 $25 会显著改变成本计算。
  • 您追求最强的多工具协调成绩,Flash 以 83.6% 领跑 MCP Atlas,甚至高于 Opus 4.8 的 82.2%。
  • 您在 Google 基础设施(如 Antigravity 或 Vertex AI)上构建,希望统一供应商。
  • 您需要精细的成本控制,Flash 的四档思考优于 Opus 4.8 的单一 effort 设置。

Flash 与旗舰模型的下一步

这代 Flash 相较以往 Flash 明显更贵,Google 也因此受到批评。Flash 与 Opus 档位之间的能力差距依然显著,这削弱了以近旗舰价格购买 Flash 的理由。更有意思的竞赛在于:能否出现一款真正擅长编码与代理式工作的“小模型”,同时价格仍能与 Cursor 的 Composer 2.5 一样便宜。

Anthropic 的快速模式值得关注,尤其针对代理式编码,但价格会成为掣肘。以 $10/$50 的定价,对需要运行长循环的开发者而言很难被接受,后续采用度取决于 Anthropic 是否会重新考虑这一价格。

Anthropic 仍专注于编码,我不认为它会很快追随 Google 进入视频与音频输入领域。这为 Google 打开了一个窗口,但前提是它能推出在代理式任务上超越 Opus 的 Flash 或旗舰模型——到目前为止还没有。

结语

如果任务质量与幻觉风险带来真实成本,比如金融或医疗,优先选择 Opus 4.8。若您在优化吞吐、成本或多模态输入,Gemini 3.5 Flash 更合适。

我的看法是:二者并不真正竞争同一类工作,大多数团队在描述一两句工作负载后就会知道自己站在哪一侧。更难的问题在于,Google 能否在不丢失让 Flash 值得使用的价格优势的前提下,缩小能力差距。Google 已在内部运行 Gemini 3.5 Pro,而这款发布——而非 Flash——更可能对 Opus 4.8 形成实质压力。

如果您想提升在自身工作流中让 AI 助手更可靠的技能,我建议从我们的 AI-Assisted Coding for Developers 课程开始。若您希望用提示、链与代理构建 LLM 应用,我们的 Developing LLM Applications with LangChain 课程是不错的下一步。

Claude Opus 4.8 与 Gemini 3.5 Flash 常见问答

总体而言,Claude Opus 4.8 是否优于 Gemini 3.5 Flash?

在整体智能基准上,是的。Opus 4.8 在 Artificial Analysis Intelligence Index 上为 61.4 分,而 Flash 为 55 分。但“更好”取决于使用场景。Flash 更快、更便宜,并且支持 Opus 4.8 不支持的视频、音频与 PDF 输入。

Gemini 3.5 Flash 支持哪些输入格式?

Gemini 3.5 Flash 支持文本、图像、视频、音频与 PDF 输入。Claude Opus 4.8 仅支持文本与图像。

两款模型的定价如何对比?

Claude Opus 4.8 的价格为每百万输入 token $5、每百万输出 token $25。Gemini 3.5 Flash 为每百万输入 token $1.50、每百万输出 token $9。缓存命中定价为 Opus 4.8 的每百万 $0.50、Flash 的每百万 $0.15。

什么是 GDPval-AA?它对评估 Opus 4.8 与 Gemini 3.5 Flash 有何意义?

GDPval-AA 是 Artificial Analysis 的主要基准,用于衡量模型在真实世界知识型任务中的代理式表现,以 Elo 计分。Opus 4.8 以 1,890 Elo 领先,Flash 为 1,656。与传统基准相比,它更有助于评估模型在生产环境的代理式场景中的表现。

哪款模型的输出窗口更大?

Claude Opus 4.8 支持最多 128K 的输出 token,约为 Gemini 3.5 Flash 65,536 token 的两倍。对于生成长文档、大型代码文件,或需要单次大规模输出的工作流,Opus 4.8 更合适。

Gemini 3.5 Flash 是否支持思考模式?

是的。Flash 有四档思考级别:minimal、low、medium、high,默认是 medium。Claude Opus 4.8 仅使用自适应思考,不支持扩展思考预算。

主题

与 DataCamp 一起学习 AI!

Courses

Introduction to Claude Models

3小时
9.9K
Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.
查看详情Right Arrow
开始课程
查看更多Right Arrow