Courses
如果您正在权衡刚于两天前发布的 Claude Fable 5 与 Gemini 3.5 Flash,实质上是在在比较两种对前沿模型的不同理念。
Claude Fable 5 是 Anthropic 能力上的天花板:在大多数基准上是公开可用的最强模型,定价相应为每百万 token $10/$50,并配有分类器系统,可在会话中途将敏感查询改道至其他模型。
Gemini 3.5 Flash 则是 Google 对速度、成本与智能最佳平衡点的押注:一款“Flash”级别的模型,在编码与智能体基准上甚至超越了 Google 自家的更大 Gemini 3.1 Pro。其推理与生成速度约为同级前沿模型的 4 倍,价格为每百万 token $1.50/$9——显著更便宜。
本文将从五个维度比较这两款模型:
- 编码与智能体表现
- 速度与延迟
- 长上下文能力
- 定价
如果您是在将 Fable 5 与 OpenAI 的旗舰比较,我们也有单独文章可供参考:Claude Fable 5 与 GPT-5.5 对比。
我们通过每周五的免费通讯 The Median 为读者追踪 AI 最新动态,精炼拆解本周重点故事。点击上方链接订阅,每周用几分钟保持敏锐。
什么是 Claude Fable 5?
Claude Fable 5 是 Anthropic 首款面向普遍使用的Mythos 级模型。Fable 5 与 Claude Mythos 5 共享底层模型,但默认启用安全分类器:一个探针会在所有流量上监控内部激活,一旦标记请求就会升级到受训的 LLM 分类器。被拦截的请求将改道至 Claude Opus 4.8。
Fable 5 在几乎所有已测基准上都处于最前沿,尤其在软件工程、知识型工作、视觉和长时程智能体任务上表现极强。更重要的是,任务越长、越复杂,它相对以往 Claude 模型的领先幅度越大。
什么是 Gemini 3.5 Flash?
Gemini 3.5 Flash 是 Google DeepMind 于 5 月发布的新品,作为全新 Gemini 3.5 系列的首款模型在 Google I/O 2026 发布。尽管名为“Flash”,它并非传统意义上的入门款:在编码与智能体套件上优于 Google 自家的更大 Gemini 3.1 Pro,且运行速度约为同级前沿模型的 4 倍。
Gemini 3.5 Flash 是具备可配置“思考强度”参数(minimal、low、medium、high)的推理模型。(默认是 medium。)该模型支持 100 万 token 的上下文窗口,多模态输入(文本、图像、音频、视频、PDF),输出速度约为每秒 280+ token。发布当日即成为 Gemini 应用与搜索 AI 模式中的默认模型。我们也一直在等待 Gemini 3.5 Pro 随后推出。
需要提醒的一点:3.5 Flash 的单 token 价格约为其前代 Gemini 3 Flash($0.50/$3.00)的 3 倍。因此,它相对于各家旗舰很便宜,但相对自家谱系并非如此。而且由于“思考 token”按输出费率计费,高强度推理负载在高努力设置下的成本可能比标价更高。这点需留意。
Claude Fable 5 与 Gemini 3.5 Flash:正面交锋
在细节展开前,先看简要结论。我做了两张表:一张是基准成绩,另一张涵盖定价、速度与可用性等更实用的对比。
基准结果
| 基准 | Claude Fable 5 | Gemini 3.5 Flash |
|---|---|---|
| SWE-Bench Pro | 80.3% | 55.1% (Public) |
| Terminal-Bench 2.1 | 88.0%* | 76.2% |
| Humanity's Last Exam(含工具) | 64.5% | 落后于 Gemini 3.1 Pro(不可直接比较) |
| OSWorld-Verified | 85.0% | 未公布 |
| MCP Atlas(多工具协同) | 未公布 | 83.6% |
如表所示,在可直接对比的数据点上,Claude Fable 5 在所有正面对比的基准中都占优。
定价、速度与可用性
前文已提过:在定价上,Gemini 3.5 Flash 的确更有优势(而且是明显更优)。
| 特性 | Claude Fable 5 | Gemini 3.5 Flash |
|---|---|---|
| API 输入定价(每百万 token) | $10 | $1.50 |
| API 输出定价(每百万 token) | $50 | $9.00 |
| 缓存输入定价 | — | 每百万 $0.15(九折扣后价的 10%,即 90% 折扣) |
| 输出速度 | 典型前沿模型延迟 | 约 280+ token/秒,较同级前沿快约 4 倍 |
| 上下文窗口 | 宣称可运行多百万 token 的长程智能体任务;512K+ 区间未公布 MRCR | 100 万 token(输入上限 1,048,576) |
| 普遍可用性 | 受限(6 月 22 日后需使用点数) | 是(Gemini 应用、AI Studio、Antigravity、API、搜索中的 AI 模式) |
编码与智能体表现
编码与智能体工作的表现值得单独讨论,因为能力差距在这里最大。
在首张表所示的 SWE-Bench Pro 上,Fable 5 得分 80.3%,而 Gemini 3.5 Flash 在公开集上的成绩为 55.1%。这是 25 分的差距。对于复杂代码库的仓库级工程任务,这是真实的能力差异。可以说,Fable 5 多数情况下能自主解决真实的 GitHub 问题,而我不确定 Gemini 3.5 Flash 能否做到同样程度。
Gemini 3.5 Flash 的反击点在于“智能体吞吐量”而非智能体的“纵深”。Flash 明确针对并行执行循环、子智能体部署与快速迭代进行优化。其在 MCP Atlas 上的 83.6%——一个多工具协同基准,它在其中优于 GPT-5.5 的 75.3%——表明该模型擅长编排大量快速的工具调用,而不是维持一条漫长而深度的推理链。Google 也报告称,相较以往的 Flash 版本,它在真实世界的智能体场景中显著提升了 token 效率。
正确的思路是:如果您的智能体需要在少量但艰难的步骤上进行深度思考(复杂重构、架构变更、棘手调试),Fable 5 胜出。如果您的智能体需要并行执行大量快速、难度适中的步骤(抓取与摘要流水线、多工具编排、高量级分诊),那么 Flash 的速度与成本结构更合适。
速度与延迟
Gemini 3.5 Flash 的输出速度约为每秒 280+ token——比典型前沿旗舰快数倍。
相对地,Fable 5 并未以“快”为卖点。它的定位是:当任务足够困难,您愿意为正确答案等待的那款模型。
长上下文表现
Gemini 3.5 Flash 支持约 100 万 token 的输入上下文,而 Gemini 系列在长上下文检索方面一贯表现强劲。不过,据报道 Flash 在 MRCR v2 上落后于 Google 自家的 Gemini 3.1 Pro。
Anthropic 声称 Fable 5 可在长达数百万 token 的长程任务中保持专注,并利用自身笔记改进输出。但 Anthropic 尚未公布 512K–100 万区间的 MRCR 类得分,因此无法进行完全同类对比。
在百万 token 级文档审阅方面,两者目前都没有决定性且已公布的优势。如果长上下文可靠性是您最重要的变量,GPT-5.5 在 512K–100 万区间公布的 74.0% MRCR v2 成绩值得关注。
定价与可用性
定价差距很明显。Fable 5 的价格为每百万输入 token $10、每百万输出 token $50。Gemini 3.5 Flash 分别为 $1.50 与 $9.00,并提供每百万 $0.15 的缓存输入(相当于 90% 折扣)。Gemini 3.5 Flash 的输入大约便宜六到七倍,输出则便宜五到六倍。
不过,定价从来没那么简单:首先要知道 Flash 是推理模型,其“思考 token”按输出费率计费,因此高努力的推理工作负载可能消耗远超过提示中表面的输出 token。请先用您自己的工作负载做基准再判断 Flash 是否真的便宜。此外,当 Fable 5 的分类器将查询改道时,将按 Opus 4.8 的费率($5/$25)计费,而非 Fable 5 的费率。尽管这可能只是在成本上的一个小幅缓解因素。
可用性则是另一处不对称。Gemini 3.5 Flash 在发布当天即在 Gemini 应用、Google AI Studio、Antigravity、Gemini API 与搜索中的 AI 模式全面开放。Fable 5 的订阅访问有“悬崖”:Pro、Max、Team 与 Enterprise 订阅者的免费使用仅至 2026 年 6 月 22 日(即将临近),此后需在现有订阅之上额外购买使用点数。
何时选择 Claude Fable 5 或 Gemini 3.5 Flash
抉择主要取决于两个变量:
- 您的任务是否足够困难,从而需要 Fable 5 的能力上限
- 速度与单次调用成本是否主导您的经济性
| 使用场景 | 推荐 | 原因 |
|---|---|---|
| 复杂代码库的仓库级软件工程 | Claude Fable 5 | SWE-Bench Pro 上 80.3% vs 55.1% 的 25 分差,反映出真实能力差距 |
| 高吞吐、低延迟敏感的智能体流水线 | Gemini 3.5 Flash | 约 280+ tok/s 输出、并行子智能体执行,加上 5–7 倍更低的 token 成本,在海量调用下优势叠加 |
| 交互型消费产品与聊天体验 | Gemini 3.5 Flash | 4 倍速度优势即是产品卖点;Fable 5 的延迟与定价不适合高频消费场景 |
| 复杂金融与知识型工作 | Claude Fable 5 | 在 Hebbia 金融基准与含工具的 Humanity's Last Exam(64.5%)中领先 |
| 跨多项服务的多工具编排 | Gemini 3.5 Flash | MCP Atlas 上 83.6% 是前沿模型中已公布的最强多工具协同成绩 |
| 多模态流水线(视频、音频、PDF 输入) | Gemini 3.5 Flash | 原生支持文本、图像、音频、视频与 PDF 的多模态输入 |
| 要求零数据留存的受监管行业 | Gemini 3.5 Flash | Fable 5 强制 30 天留存对部分企业是硬性阻碍 |
在这些情况下选择 Claude Fable 5:
- 您的主要用例是仓库级的软件工程
- 您需要在复杂分析型工作上追求最高上限——金融、多学科推理、长时程智能体任务——且对延迟不敏感。
- 您的工作不涉及网络安全、生物或化学等敏感领域,因此分类器改道对会话影响不大。
在这些情况下选择 Gemini 3.5 Flash:
- 您的经济性由规模驱动:每天数千次调用,成本差距会累积为数量级的支出差异。
- 速度是产品刚需——交互式体验、实时智能体,或在多次工具调用中更看重总耗时而非每步深度的流水线。
- 您需要在同一模型中实现广泛的多模态输入(视频、音频、PDF)。
- 您的企业数据政策无法接受 Fable 5 强制 30 天留存,或您需要一个不会在流水线中静默切换的模型。
总结
这并非完全同类的比较。Fable 5 与 Gemini 3.5 Flash 在市场中的定位不同:前者是带有一定使用摩擦的能力天花板,后者是效率前沿但能力上限较低。
如果“在困难任务上的原始能力”是您的唯一变量,Fable 5 的胜负手很明确。但 Flash 的价值主张并不是“更便宜的次优替代”。我不想低估它:它以足够快、足够便宜的方式交付接近前沿的智能,使其能在 Fable 5 经济上从未可行的场景中落地。