跳至内容

Claude Fable 5 vs GPT-5.5:基准测试、定价与选型指南

Claude Fable 5 在原始能力基准上领先,但 GPT-5.5 在可用性、价格与更少的分类器干预方面取胜。本文教您如何选择。
更新 2026年6月10日  · 11分钟

如果您在为生产工作流选择 Claude Fable 5 还是 GPT-5.5,基准测试表已经给出清晰结论。就纸面表现而言,Fable 5 在编码与推理上大幅领先。但它每个输出 token 的价格也高出一倍,采用的分类器系统可能会在无声无息间将您的请求改道到更弱的模型,而且还强制执行 30 天数据留存,这直接让部分企业客户无法使用。

本文将从五个维度比较 Fable 5 和 GPT-5.5:编码与智能体表现、长上下文能力、安全分类器与接入摩擦、知识型工作与推理、以及定价。您也可以查看我们分别针对 Claude Fable 5GPT-5.5 的独立指南,深入了解各自的细节。

紧跟 AI 前沿动态。订阅我们的免费周五通讯 The Median,为您拆解本周重点新闻。每周花几分钟即可保持敏锐。

什么是 Claude Fable 5?

Claude Fable 5 是 Anthropic 面向普遍使用的首个 Mythos 级模型,于 2026 年 6 月 9 日发布。Mythos 是一种位于 Anthropic 模型层级中 Opus 之上的新能力档位。Fable 5 与 Claude Mythos 5 共享同一底层模型,但启用了安全分类器,会将某些敏感查询改道至 Claude Opus 4.8。名称区分很重要:Fable 是公众可访问的版本;Mythos 是仅向 Project Glasswing 合作伙伴提供的无限制版本。

Anthropic 将 Fable 5 定位为几乎所有已测基准上的最新水平,尤其在软件工程、知识型工作、视觉和长时智能体任务上表现突出。任务越长、越复杂,它相较于以往 Claude 模型的领先幅度越大。Stripe 报告称,Fable 5 将对一个 5000 万行 Ruby 代码库的迁移,从数月的工程量压缩到数天。

关于 Fable 5 能力与基准拆解的更多信息,请参阅我们的 Claude Fable 5 指南。我们也在 Claude Mythos 5 文章中介绍了受限的 Mythos 5 变体。

什么是 GPT-5.5?

GPT-5.5 是 OpenAI 于 2026 年 4 月发布的模型,被称为该公司迄今最强的智能体编码模型。OpenAI 还发布了精度更高的 GPT-5.5 Pro 变体。该模型为 NVIDIA GB200 与 GB300 NVL72 系统协同设计并部署供应,OpenAI 称其在实际服务中的单 token 延迟与 GPT-5.4 相当,同时展现出显著更高的智能水平。

GPT-5.5 的架构亮点在于长上下文的可靠性。GPT-5.4 在 MRCR 基准上大约超过 128K token 后出现崩溃;GPT-5.5 则能稳定至 512K-100 万 token(在该范围内 MRCR v2 得分 74.0%,而 GPT-5.4 为 36.6%)。这不是边际提升,而是模型可用性层级的质变。

关于 GPT-5.5 的完整基准拆解与上手发现,请参阅我们的 GPT-5.5 指南。我们也在 Claude Opus 4.8 vs GPT-5.5 专文中进行了直接对比。

Claude Fable 5 vs GPT-5.5:正面交锋

在展开细节前,先来看一张速览对比表。

特性 Claude Fable 5 GPT-5.5
SWE-Bench Pro 80.3% 58.6%
Terminal-Bench 2.1 88.0%* 83.4%(Codex CLI
Humanity's Last Exam(含工具) 64.5% 52.2%
MRCR v2(512K-100 万 tokens) 未公布 74.0%
OSWorld-Verified 85.0% 78.7%
API 输入定价(每 100 万 tokens) $10 $5
API 输出定价(每 100 万 tokens) $50 $30
安全分类器回退 有(回退至 Opus 4.8) 无静默回退
数据留存要求 强制 30 天 标准策略
普遍可用性 有限(6 月 22 日后需额外点数) 是(ChatGPT + API)

编码与智能体表现

这是两者差距最大、对决策最关键的方面。在真实 GitHub 问题修复基准 SWE-Bench Pro 上,Fable 5 得分 80.3%,而 GPT-5.5 为 58.6%,相差 22 分。作为参照,Claude Opus 4.7 早在该基准上以 64.3% 超过 GPT-5.5,因此在 Fable 5 出现前,GPT-5.5 在仓库级编码上就已落后。

在 Cognition 的 FrontierCode 评测中(考察模型在满足生产代码库标准的前提下完成高难度编码任务的能力),Fable 5 即便在中等投入水平也位居前沿模型之首。Cursor CEO Michael Truell 称其为 FrontierBench 上得分最高的模型,擅长长程推理,并能开箱即用地泛化到不熟悉的工具。

Fable 5 在 Terminal-Bench 2.1 上的报告分数也领先,为 88.0%*,高于 GPT-5.5 的 83.4%。星号表示该数值需谨慎解读,因为 Fable 5 与 Mythos 5 之间存在差异。在存在差异的场景下,Fable 的表现通常低于 Mythos,因此可以假定 Fable 5 与 GPT-5.5 打平或小幅领先。

GPT-5.5 仍是以终端为主的 DevOps 与 Shell 自动化的最佳选择,但 SWE-Bench Pro 的差距是实打实的信号。如果您的主要用例是仓库级工程,仅从能力看,Fable 5 无疑更合适。问题在于,对于您的具体负载而言,是否值得为 2 倍的输出 token 成本和分类器带来的摩擦买单。

长上下文表现

这是 GPT-5.5 的真正差异化优势,且值得严肃看待。GPT-5.4 在 MRCR v2 基准上大约超过 128K token 后出现崩溃;GPT-5.5 则没有。在 512K-100 万 token 区间,GPT-5.5 在 MRCR v2 上得分 74.0%,而 GPT-5.4 在同一区间仅为 36.6%。这不是小幅进步,而是能力类别的更替。

Anthropic 声称 Fable 5 能在数百万 token 的长时任务中保持专注,并通过自我笔记提升输出质量。在《杀戮尖塔》记忆测试中,基于文件的持久化记忆对 Fable 5 的提升,是对 Opus 4.8 提升的三倍。但 Anthropic 并未公布 Fable 5 在 512K-100 万区间的 MRCR 类得分,因此无法进行同口径对比。

对于运行百万级上下文的用户,例如法律文档审阅、大型代码库分析或科研文献综述,GPT-5.5 已公布的长上下文成绩是更有力的证据基础。我们对 GPT-5.5 的实测显示,它通过了 30 万 token 的“针眼测试”,且 MRCR 分数在超过 256K 后仍能保持,而 GPT-5.4 此前已崩溃。Fable 5 可能同样强,但缺乏可比格式的数据公布。

安全分类器与接入摩擦

这是 Fable 5 在实践中最容易被忽略的问题,值得单独展开。Fable 5 运行两级分类器:探针在所有流量上监测内部激活,若被标记,则升级到单独训练的 LLM 分类器作最终判定。请求被拦截时,会被改道至 Claude Opus 4.8,并会告知用户具体由哪个模型处理。

Anthropic 称分类器平均在不到 5% 的会话中触发。覆盖的三类领域包括:

  • 网络安全:漏洞开发、攻防向网络任务与具身黑客式工作流会被拦截。启用分类器时,Fable 5 在四个网络安全基准上的得分均为 0.0%,而其底层 Mythos 模型在 Firefox 漏洞开发上可达 88.4%。
  • 生物与化学:该领域的大多数请求都会回退到 Opus 4.8。Anthropic 自测显示,底层模型在腺相关病毒设计任务上已接近专家水平,因此覆盖面较广。
  • 蒸馏:被标记为试图提取 Claude 能力以训练竞品模型的请求会被改道。

回退机制不仅影响能力,更影响智能体流水线的可靠性。当 Fable 5 回退至 Opus 4.8 时,计费按 Opus 4.8 的费率,但您在任务中段得到的是另一个(依然很强的)模型。对于期望全程保持 Fable 5 推理深度的流水线而言,会话中段静默切换至 Opus 4.8 会破坏对输出质量的假设。

GPT-5.5 也有网络安全防护,被描述为对潜在网络风险启用更严格的分类器。但不会静默回退到更弱模型。OpenAI 采取分级可信接入:经验证的防御方可在 chatgpt.com/cyber 申请扩展权限,限制更少。相较之下,这一路径比 Anthropic 的 Project Glasswing 更易获得,目前后者仍只对少量获批伙伴开放。

还有一个需要直说的阻碍。Fable 5 和 Mythos 5 被归类为 Covered Models,这意味着 Anthropic 要求所有流量必须留存 30 天,即便是此前享受零留存计划的企业客户也不例外。Anthropic 表示这些数据不会用于训练,但留存本身对受监管行业就是硬性障碍。部分企业客户因此完全无法使用 Fable 5。

知识工作与推理

两者在这一维度都很强,差距也小于编码。Fable 5 在 Hebbia 的金融基准(面向高阶推理)上领先,在基于文档的推理、图表解读与问题求解上均取得最高分。做市商 IMC 报告称,Fable 5 在其交易分析评估中全面超出预期,包括根因分析与期望值分析。

GPT-5.5 在 FrontierMath 第 4 档上以 35.4% 领先于 Fable 5 的已公布成绩。在覆盖 44 个职业的 GDPval 测试中,GPT-5.5 得分 84.9%。在含工具的 Humanity's Last Exam 上,Fable 5 以 64.5% 领先于 GPT-5.5 的 52.2%,在多学科推理任务上形成了有意义的差距。

定价与可用性

价格差距客观存在,且在规模化时会被放大。Fable 5 的价格为每百万输入 tokens 10 美元、输出 50 美元。GPT-5.5 则为输入 5 美元、输出 30 美元。对于高容量负载,100%/67% 的差距会很快累积。

订阅访问也让 Fable 5 多了一层复杂性。Pro、Max、Team 和 Enterprise 订阅者在 6 月 22 日前可免费使用。此日期之后,使用 Fable 5 需要在现有订阅之外额外购买使用点数。Anthropic 表示计划在产能允许时将 Fable 5 恢复为标准订阅功能,但暂无明确时间表。GPT-5.5 则在首日即面向 ChatGPT 与 Codex 的 Plus、Pro、Business 与 Enterprise 用户开放,随后很快开放 API 访问。

还有一个定价细节:当由于分类器导致 Fable 5 回退到 Opus 4.8 时,计费按 Opus 4.8 费率(输入 5 美元/输出 25 美元),而非 Fable 5 费率。

何时选择 Claude Fable 5 或 GPT-5.5

抉择取决于三点:SWE-Bench Pro 的差距对您的工作有多重要、您的领域是否会触发 Fable 5 的分类器、以及您是否需要在 256K tokens 以上仍保持可靠表现。

用例 推荐 理由
仓库级软件工程 Claude Fable 5 SWE-Bench Pro 上 80.3% 对 58.6% 的 22 分差,反映了在复杂代码库上的真实能力差异
安全工具、渗透测试或攻防安全研究 GPT-5.5 Fable 5 的分类器会拦截或改道此类工作的大部分;GPT-5.5 的分级可信接入更易获得
50 万+ tokens 的法律文档审阅或科研文献综述 二者皆可 已公布的 512K-100 万 tokens MRCR 成绩(74.0%)显示 GPT-5.5 在 GPT-5.4 崩溃处仍能保持;Fable 5 未公布可比数据,但宣称表现更好
复杂文档的金融与知识型工作 Claude Fable 5 在 Hebbia 金融基准与含工具的 Humanity's Last Exam 上领先(64.5% vs 52.2%)
对成本敏感的高流量 API 负载 GPT-5.5 每百万输出 tokens 30 美元 vs 50 美元;规模化后差距显著
生物医学研究流水线 GPT-5.5(或等待 Fable 5 可信接入) 在可信接入开放前,Fable 5 的生物分类器会将大多数生物医学请求回退至 Opus 4.8
要求零数据留存的受监管行业 GPT-5.5 Fable 5 强制 30 天留存政策对部分企业客户是硬性阻断

在这些情况下选择 Claude Fable 5:

  • 您的首要用例是仓库级软件工程,且 22 分的 SWE-Bench Pro 差距足以抵消 2 倍的输出 token 成本。
  • 您的工作不贴近网络安全、生物或化学领域,因此分类器不太可能在您的会话中触发。
  • 您需要在复杂分析任务上获得更高上限,包括金融基准与多学科推理,Fable 5 在这些方面领先达两位数。
  • 您走 API 路径,且可以为能力提升承担每百万输出 tokens 50 美元的花费。

在这些情况下选择 GPT-5.5:

  • 您在安全相关领域构建方案,需要一个不会在流水线中段静默改道请求的模型。
  • 您的企业数据政策要求零留存,而 Fable 5 的 Covered Model 身份无法满足。
  • 您需要可预期的 API 访问,不希望在订阅计划之上再遇到额度悬崖或点数体系。
  • 成本效率重要,而 30 美元 vs 50 美元的输出 token 差距在您的使用量下很关键。

结语

在最关键的基准上,Fable 5 是更强的模型。SWE-Bench Pro 的差距(80.3% vs 58.6%)不是噪声;Humanity's Last Exam 的领先(含工具 64.5% vs 52.2%)也体现了推理深度的真实差异。如果只看“纯能力”,Fable 5 取胜。

但 Fable 5 成绩背后的星号同样重要。这些分数反映的是底层 Mythos 模型。Fable 5 是“加了分类器的 Mythos”,在网络安全、生物医疗与某些双重用途查询上,您会得到 Opus 4.8。对于智能体流水线,这不仅是能力问题,更是可靠性问题。期待全程保持 Fable 5 推理深度的流水线,可能会因中途的静默切换而失效。再加上强制 30 天数据留存,Fable 5 对部分企业客户而言目前根本不是选项(至少“尚未”)。

还有第三个值得点名的选项。如果 Fable 5 价格过高,而 GPT-5.5 的长上下文提升对您的用例不关键,Claude Opus 4.8 绝非“退而求其次”。它已在 SWE-Bench Pro 上以 69.2% 超过 GPT-5.5 的 58.6%,价格为 5/25 美元(每百万 tokens 的输入/输出),且没有 Fable 5 的分类器摩擦。我们在 Claude Opus 4.8 文章中详细讨论了 Opus 4.8 与 GPT-5.5 的取舍。

如果您想快速掌握在生产中使用前沿模型,建议从我们的 AI Fundamentals 技能路径开始。

主题

在 DataCamp 学习 AI!

Tracks

ChatGPT 基础知识

3小时
探索 ChatGPT 和提示工程的基础知识。 掌握提示词编写,最大化发挥 ChatGPT 的能力。
查看详情Right Arrow
开始课程
查看更多Right Arrow