跳至内容

Sakana Fugu 与 Claude Fable 5:跑分、定价与更多比较

Claude Fable 5 在基准上取胜,但目前已被暂停。Sakana Fugu 现已可用,且价格只有其一半。
更新 2026年6月25日  · 6分钟

Sakana 将 Fugu 宣传为可与 Fable 5 比肩,但在自家的基准测试表中却排除了 Fable 5。因此,我们将尽可能把这两款模型并排对比。

\n

背景如下。Anthropic 发布 Claude Fable 5 后,美国政府在不到三天内就暂停了其公开访问。而 Fable 5 被称为其最强大的模型。两周后,东京的 Sakana AI 推出了 Fugu,并带来不少重磅主张。其中一条尤为引人注目:Sakana AI 称 Fugu Ultra 在行业内最艰难的工程、科学与推理基准上,能与 Fable 5 和 Mythos Preview 等领军模型“并驾齐驱”,且不存在出口管制风险。CEO David Ha 在 X 上表示,Fugu 证明了可替换的协作式代理池能够匹配像 Fable 这样的受限前沿模型。

\n

这些主张并不容易核验,因为 Fable 5 根本不在 Fugu 的基准表中。Sakana 的理由是它并不可公开访问。我们尽力而为:我们正在核对两家实验室公开表格中重叠、且基线一致的少数基准。最后,我们会谈到定价与访问情况。

\n

如果您想分别了解两个系统的背景,我们也有相关文章:请阅读我们的Claude Fable 5 解读Sakana Fugu 评测

\n

什么是 Sakana Fugu?

\n

Sakana Fugu 并非传统意义上的单一训练模型。它是一个编排器:一个接收您的请求、决定是直接回答还是委派给池中的专业模型、管理验证与综合,并通过一个与 OpenAI 兼容的 API 返回单一响应的模型。从外部看,您只调用一个端点;在内部,则是一组协调工作的前沿模型完成任务。

\n

它提供两个变体。Fugu 在质量与低延迟之间取得平衡,定位为日常编码、评审与交互式服务的默认选择。Fugu Ultra 协调更深的专家代理池,针对难度高、涉及多步推理的问题进行调优——论文复现、网络安全分析、Kaggle 风格数据科学、专利检索等,旨在最大化答案质量。

\n

其核心其实包含两点。

\n
    \n
  • 第一,学习式编排:协调器通过训练来决定何时委派、如何合并输出,而非运行手写的流水线。
  • \n
  • 第二,可替换的代理池:当新的前沿模型公开可用时,Sakana 预计大约两周即可将其纳入。(与本文其余部分相关的重要点:Fable 5 因不公开可用,不在该池中。)
  • \n
\n

什么是 Claude Fable 5?

\n

Claude Fable 5 属于 Mythos 等级,Anthropic 将其定位高于 Opus 等级,并通过一组分类器使之适用于通用场景。它与 Claude Mythos 5 共享同一底层模型;不同在于 Fable 5 运行(曾运行)时启用了安全分类器,而 Mythos 5 移除了其中部分分类器,仅向 Project Glasswing 的合作伙伴与部分生物学研究者开放。

\n

Anthropic 声称,Fable 5 在其追踪的几乎所有基准测试上都达到了最前沿水平,且在更长、更复杂的任务上优势更大。一个关键的实用细节是:当查询涉及网络安全、生物/化学或模型蒸馏时,双阶段分类器会将响应改道至 Claude Opus 4.8,并告知用户这一改道。

\n

Sakana Fugu vs. Claude Fable 5:基准测试

\n

Sakana 发布的对比表排除了 Fable 5 和 Mythos Preview,理由是它们不公开可用,无法纳入 Fugu 的代理池。因此,Fugu 的官方数据是与Opus 4.8GPT-5.5Gemini 3.1 Pro对比,您可在下表中看到。结果显示它在 11 项基准中的 10 项上取胜。

\n
\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
基准测试FuguFugu UltraOpus 4.8 †Gemini 3.1 Pro †GPT-5.5 †
SWE-Bench Pro *59.073.769.254.258.6
TerminalBench 2.180.282.174.670.378.2
LiveCodeBench92.993.287.888.585.3
LiveCodeBench Pro87.890.884.882.988.4
Humanity's Last Exam47.250.049.844.441.4
CharXiv Reasoning85.186.684.283.384.1
GPQA-D95.595.592.094.393.6
SciCode60.158.753.558.956.1
τ³ Banking21.720.620.68.420.6
Long Context Reasoning74.773.367.772.774.3
MRCRv286.693.687.984.994.8
\n

* 使用 mini-swe-agent 脚手架。† 供应商报告的基线。所有 Fugu 分数均由 Sakana 报告,尚未被独立复现。

\n
\n

为将 Fable 5 纳入比较,我交叉参考了 Anthropic 与 Sakana 的表格中同时出现、且共享基线一致的基准测试。在 SWE-Bench Pro 和Humanity's Last Exam(无工具)上,Opus 4.8、GPT-5.5 与 Gemini 3.1 Pro 的数据在两家来源中完全一致——因此这两项对比是干净可比的。只保留两套系统的正面对比如下:

\n
\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
基准测试Sakana FuguSakana Fugu UltraClaude Fable 5领先者
SWE-Bench Pro59.073.780.3Fable 5(+6.6)
Humanity's Last Exam(无工具)47.250.059.0Fable 5(+9.0)
Terminal-Bench 2.1 ‡80.282.188.0Fable 5(+5.9)
\n
\n

‡ 两家实验室为 TerminalBench 报告的基线不同,且使用的脚手架不同,条件并不完全一致。

\n

以上三项是两家公开表格中唯一基线匹配的重叠基准,这也是其余比较只能停留在定性层面的原因。Fable 5 在三项中均领先。

\n

因此,在所有可以并排对比的基准上,Fable 5 大约以 6–9 分的幅度领先 Fugu Ultra。这与 Fable 5 的设计取胜点一致:在以最终结果评分的长程任务上,更强的单一模型会累积更少的连锁误差。

\n

总结如下:

\n
    \n
  1. 所有 Fugu 数据均为自报,尚未出现在第三方排行榜上。
  2. \n
  3. Sakana 将 Fugu 定位为与 Fable 5 与 Mythos Preview“并肩”。鉴于上述差距,这一表述虽可辩护,但略显宽泛。“接近,但略有落后”更为准确。
  4. \n
  5. 对比集仅部分重叠。Fable 5 在视觉能力上领先(可从截图重建 web 应用源代码),而 Fugu 完全未强调此点;Fugu 发布了长上下文与银行业务的基准,而 Anthropic 的表格未涵盖。因此二者针对的工作形态略有不同。
  6. \n
\n

Sakana Fugu vs. Claude Fable 5:可用性与访问

\n

Claude Fable 5 目前处于暂停状态。Anthropic 于 6 月 12 日根据美国政府的出口管制指令,暂停了对 Fable 5 与 Mythos 5 的访问,并表示正努力尽快恢复访问。其余模型如 Opus 4.8 仍可用。

\n

Sakana Fugu 现已可用,可通过 console.sakana.ai 使用与 OpenAI 兼容的 API——惟独在欧盟与欧洲经济区内,Sakana 已暂停提供服务以完成 GDPR 合规。目前尚无明确时间表。

\n

目前,欧洲团队可能两款模型都用不了。

\n

结语

\n

从纸面上看,这是两种理念之间旗鼓相当、真刀真枪的较量。

\n

Anthropic 把重心放在规模——一款 Mythos 级模型强到需要并行的分类器系统来保障安全。

\n

Sakana 则押注于协同——训练有素的编排器加上可替换的模型池,能在成本更低、韧性更强、且不依赖单一供应商的前提下,始终紧追任何单一前沿模型。

\n

若按表面数据来看,Anthropic 的赌注在可比测试上产出了更强的成果,而 Sakana 的方案则带来了更可用且更便宜的选择。

Sakana Fugu vs. Claude Fable 常见问答

Sakana Fugu 是否优于 Claude Fable 5?

在可并排对比的基准上(SWE-Bench Pro、Humanity's Last Exam、Terminal-Bench),Fable 5 大约以 6–9 分的幅度领先 Fugu Ultra。

为何 Fable 5 不在 Fugu 的基准表中?

Sakana 排除了 Fable 5 与 Mythos Preview,因为它们不公开可用,无法成为 Fugu 的代理池一部分。其官方对比对象为 Opus 4.8、GPT-5.5 与 Gemini 3.1 Pro,Fugu Ultra 在 11 项基准中的 10 项上击败了它们。

哪一个更便宜?

Fugu Ultra 的价格为每百万输入 tokens 5 美元、每百万输出 tokens 30 美元,约为 Fable 5(每百万输入 10 美元、每百万输出 50 美元)的一半。两者均提供 20/100/200 美元的月度订阅档位。

Fable 5 会恢复吗?

Anthropic 表示正努力尽快恢复对 Fable 5 与 Mythos 5 的访问,但尚未公布时间表。其余模型(包括 Opus 4.8)在此期间仍可用。

Fugu 是否实际规避了 Fable 5 的暂停?

并不会直接绕过——Fable 5 从未在 Fugu 的模型池中,因此 Fugu 无法复现其特定能力。

主题

在 DataCamp 学习 AI

Tracks

软件工程中的 AI

7小时
使用最新的 AI 开发工具,包括 GitHub Copilot、Windsurf 和 Replit,更快地编写代码并构建软件应用程序。
查看详情Right Arrow
开始课程
查看更多Right Arrow