跳至内容

Claude Fable 5 与 Gemini 3.5 Flash:基准、定价与更多

Claude Fable 5 在原始能力上占优,但 Gemini 3.5 Flash 以更低成本与数倍速度提供接近前沿的性能。继续阅读了解更多。
更新 2026年6月11日  · 9分钟

如果您正在权衡刚于两天前发布的 Claude Fable 5 与 Gemini 3.5 Flash,实质上是在在比较两种对前沿模型的不同理念。

Claude Fable 5 是 Anthropic 能力上的天花板:在大多数基准上是公开可用的最强模型,定价相应为每百万 token $10/$50,并配有分类器系统,可在会话中途将敏感查询改道至其他模型。

Gemini 3.5 Flash 则是 Google 对速度、成本与智能最佳平衡点的押注:一款“Flash”级别的模型,在编码与智能体基准上甚至超越了 Google 自家的更大 Gemini 3.1 Pro。其推理与生成速度约为同级前沿模型的 4 倍,价格为每百万 token $1.50/$9——显著更便宜。

本文将从五个维度比较这两款模型:

  • 编码与智能体表现
  • 速度与延迟
  • 长上下文能力
  • 定价

如果您是在将 Fable 5 与 OpenAI 的旗舰比较,我们也有单独文章可供参考:Claude Fable 5 与 GPT-5.5 对比

我们通过每周五的免费通讯 The Median 为读者追踪 AI 最新动态,精炼拆解本周重点故事。点击上方链接订阅,每周用几分钟保持敏锐。

什么是 Claude Fable 5?

Claude Fable 5 是 Anthropic 首款面向普遍使用的Mythos 级模型。Fable 5 与 Claude Mythos 5 共享底层模型,但默认启用安全分类器:一个探针会在所有流量上监控内部激活,一旦标记请求就会升级到受训的 LLM 分类器。被拦截的请求将改道至 Claude Opus 4.8。

Fable 5 在几乎所有已测基准上都处于最前沿,尤其在软件工程、知识型工作、视觉和长时程智能体任务上表现极强。更重要的是,任务越长、越复杂,它相对以往 Claude 模型的领先幅度越大。

什么是 Gemini 3.5 Flash?

Gemini 3.5 Flash 是 Google DeepMind 于 5 月发布的新品,作为全新 Gemini 3.5 系列的首款模型在 Google I/O 2026 发布。尽管名为“Flash”,它并非传统意义上的入门款:在编码与智能体套件上优于 Google 自家的更大 Gemini 3.1 Pro,且运行速度约为同级前沿模型的 4 倍。

Gemini 3.5 Flash 是具备可配置“思考强度”参数(minimallowmediumhigh)的推理模型。(默认是 medium。)该模型支持 100 万 token 的上下文窗口,多模态输入(文本、图像、音频、视频、PDF),输出速度约为每秒 280+ token。发布当日即成为 Gemini 应用与搜索 AI 模式中的默认模型。我们也一直在等待 Gemini 3.5 Pro 随后推出。

需要提醒的一点:3.5 Flash 的单 token 价格约为其前代 Gemini 3 Flash($0.50/$3.00)的 3 倍。因此,它相对于各家旗舰很便宜,但相对自家谱系并非如此。而且由于“思考 token”按输出费率计费,高强度推理负载在高努力设置下的成本可能比标价更高。这点需留意。

Claude Fable 5 与 Gemini 3.5 Flash:正面交锋

在细节展开前,先看简要结论。我做了两张表:一张是基准成绩,另一张涵盖定价、速度与可用性等更实用的对比。

基准结果

基准 Claude Fable 5 Gemini 3.5 Flash
SWE-Bench Pro 80.3% 55.1% (Public)
Terminal-Bench 2.1 88.0%* 76.2%
Humanity's Last Exam(含工具) 64.5% 落后于 Gemini 3.1 Pro(不可直接比较)
OSWorld-Verified 85.0% 未公布
MCP Atlas(多工具协同) 未公布 83.6%

如表所示,在可直接对比的数据点上,Claude Fable 5 在所有正面对比的基准中都占优。

定价、速度与可用性

前文已提过:在定价上,Gemini 3.5 Flash 的确更有优势(而且是明显更优)。

特性 Claude Fable 5 Gemini 3.5 Flash
API 输入定价(每百万 token) $10 $1.50
API 输出定价(每百万 token) $50 $9.00
缓存输入定价 每百万 $0.15(九折扣后价的 10%,即 90% 折扣)
输出速度 典型前沿模型延迟 约 280+ token/秒,较同级前沿快约 4 倍
上下文窗口 宣称可运行多百万 token 的长程智能体任务;512K+ 区间未公布 MRCR 100 万 token(输入上限 1,048,576)
普遍可用性 受限(6 月 22 日后需使用点数) 是(Gemini 应用、AI Studio、Antigravity、API、搜索中的 AI 模式)

编码与智能体表现

编码与智能体工作的表现值得单独讨论,因为能力差距在这里最大。

在首张表所示的 SWE-Bench Pro 上,Fable 5 得分 80.3%,而 Gemini 3.5 Flash 在公开集上的成绩为 55.1%。这是 25 分的差距。对于复杂代码库的仓库级工程任务,这是真实的能力差异。可以说,Fable 5 多数情况下能自主解决真实的 GitHub 问题,而我不确定 Gemini 3.5 Flash 能否做到同样程度。

Gemini 3.5 Flash 的反击点在于“智能体吞吐量”而非智能体的“纵深”。Flash 明确针对并行执行循环、子智能体部署与快速迭代进行优化。其在 MCP Atlas 上的 83.6%——一个多工具协同基准,它在其中优于 GPT-5.5 的 75.3%——表明该模型擅长编排大量快速的工具调用,而不是维持一条漫长而深度的推理链。Google 也报告称,相较以往的 Flash 版本,它在真实世界的智能体场景中显著提升了 token 效率。

正确的思路是:如果您的智能体需要在少量但艰难的步骤上进行深度思考(复杂重构、架构变更、棘手调试),Fable 5 胜出。如果您的智能体需要并行执行大量快速、难度适中的步骤(抓取与摘要流水线、多工具编排、高量级分诊),那么 Flash 的速度与成本结构更合适。

速度与延迟

Gemini 3.5 Flash 的输出速度约为每秒 280+ token——比典型前沿旗舰快数倍。

相对地,Fable 5 并未以“快”为卖点。它的定位是:当任务足够困难,您愿意为正确答案等待的那款模型。

长上下文表现

Gemini 3.5 Flash 支持约 100 万 token 的输入上下文,而 Gemini 系列在长上下文检索方面一贯表现强劲。不过,据报道 Flash 在 MRCR v2 上落后于 Google 自家的 Gemini 3.1 Pro。

Anthropic 声称 Fable 5 可在长达数百万 token 的长程任务中保持专注,并利用自身笔记改进输出。但 Anthropic 尚未公布 512K–100 万区间的 MRCR 类得分,因此无法进行完全同类对比。

在百万 token 级文档审阅方面,两者目前都没有决定性且已公布的优势。如果长上下文可靠性是您最重要的变量,GPT-5.5 在 512K–100 万区间公布的 74.0% MRCR v2 成绩值得关注。

定价与可用性

定价差距很明显。Fable 5 的价格为每百万输入 token $10、每百万输出 token $50。Gemini 3.5 Flash 分别为 $1.50 与 $9.00,并提供每百万 $0.15 的缓存输入(相当于 90% 折扣)。Gemini 3.5 Flash 的输入大约便宜六到七倍,输出则便宜五到六倍。

不过,定价从来没那么简单:首先要知道 Flash 是推理模型,其“思考 token”按输出费率计费,因此高努力的推理工作负载可能消耗远超过提示中表面的输出 token。请先用您自己的工作负载做基准再判断 Flash 是否真的便宜。此外,当 Fable 5 的分类器将查询改道时,将按 Opus 4.8 的费率($5/$25)计费,而非 Fable 5 的费率。尽管这可能只是在成本上的一个小幅缓解因素。

可用性则是另一处不对称。Gemini 3.5 Flash 在发布当天即在 Gemini 应用、Google AI Studio、Antigravity、Gemini API 与搜索中的 AI 模式全面开放。Fable 5 的订阅访问有“悬崖”:Pro、Max、Team 与 Enterprise 订阅者的免费使用仅至 2026 年 6 月 22 日(即将临近),此后需在现有订阅之上额外购买使用点数。

何时选择 Claude Fable 5 或 Gemini 3.5 Flash

抉择主要取决于两个变量:

  • 您的任务是否足够困难,从而需要 Fable 5 的能力上限
  • 速度与单次调用成本是否主导您的经济性
使用场景 推荐 原因
复杂代码库的仓库级软件工程 Claude Fable 5 SWE-Bench Pro 上 80.3% vs 55.1% 的 25 分差,反映出真实能力差距
高吞吐、低延迟敏感的智能体流水线 Gemini 3.5 Flash 约 280+ tok/s 输出、并行子智能体执行,加上 5–7 倍更低的 token 成本,在海量调用下优势叠加
交互型消费产品与聊天体验 Gemini 3.5 Flash 4 倍速度优势即是产品卖点;Fable 5 的延迟与定价不适合高频消费场景
复杂金融与知识型工作 Claude Fable 5 在 Hebbia 金融基准与含工具的 Humanity's Last Exam(64.5%)中领先
跨多项服务的多工具编排 Gemini 3.5 Flash MCP Atlas 上 83.6% 是前沿模型中已公布的最强多工具协同成绩
多模态流水线(视频、音频、PDF 输入) Gemini 3.5 Flash 原生支持文本、图像、音频、视频与 PDF 的多模态输入
要求零数据留存的受监管行业 Gemini 3.5 Flash Fable 5 强制 30 天留存对部分企业是硬性阻碍

在这些情况下选择 Claude Fable 5:

  • 您的主要用例是仓库级的软件工程
  • 您需要在复杂分析型工作上追求最高上限——金融、多学科推理、长时程智能体任务——且对延迟不敏感。
  • 您的工作不涉及网络安全、生物或化学等敏感领域,因此分类器改道对会话影响不大。

在这些情况下选择 Gemini 3.5 Flash:

  • 您的经济性由规模驱动:每天数千次调用,成本差距会累积为数量级的支出差异。
  • 速度是产品刚需——交互式体验、实时智能体,或在多次工具调用中更看重总耗时而非每步深度的流水线。
  • 您需要在同一模型中实现广泛的多模态输入(视频、音频、PDF)。
  • 您的企业数据政策无法接受 Fable 5 强制 30 天留存,或您需要一个不会在流水线中静默切换的模型。

总结

这并非完全同类的比较。Fable 5 与 Gemini 3.5 Flash 在市场中的定位不同:前者是带有一定使用摩擦的能力天花板,后者是效率前沿但能力上限较低。

如果“在困难任务上的原始能力”是您的唯一变量,Fable 5 的胜负手很明确。但 Flash 的价值主张并不是“更便宜的次优替代”。我不想低估它:它以足够快、足够便宜的方式交付接近前沿的智能,使其能在 Fable 5 经济上从未可行的场景中落地。

主题

与 DataCamp 一起学习

Courses

Large Language Models (LLMs) Concepts

2小时
99.1K
Discover the full potential of LLMs with our conceptual course covering LLM applications, training methodologies, ethical considerations, and latest research.
查看详情Right Arrow
开始课程
查看更多Right Arrow