Tracks
Sakana 将 Fugu 宣传为可与 Fable 5 比肩,但在自家的基准测试表中却排除了 Fable 5。因此,我们将尽可能把这两款模型并排对比。
\n背景如下。Anthropic 发布 Claude Fable 5 后,美国政府在不到三天内就暂停了其公开访问。而 Fable 5 被称为其最强大的模型。两周后,东京的 Sakana AI 推出了 Fugu,并带来不少重磅主张。其中一条尤为引人注目:Sakana AI 称 Fugu Ultra 在行业内最艰难的工程、科学与推理基准上,能与 Fable 5 和 Mythos Preview 等领军模型“并驾齐驱”,且不存在出口管制风险。CEO David Ha 在 X 上表示,Fugu 证明了可替换的协作式代理池能够匹配像 Fable 这样的受限前沿模型。
\n这些主张并不容易核验,因为 Fable 5 根本不在 Fugu 的基准表中。Sakana 的理由是它并不可公开访问。我们尽力而为:我们正在核对两家实验室公开表格中重叠、且基线一致的少数基准。最后,我们会谈到定价与访问情况。
\n如果您想分别了解两个系统的背景,我们也有相关文章:请阅读我们的Claude Fable 5 解读和Sakana Fugu 评测。
\n什么是 Sakana Fugu?
\nSakana Fugu 并非传统意义上的单一训练模型。它是一个编排器:一个接收您的请求、决定是直接回答还是委派给池中的专业模型、管理验证与综合,并通过一个与 OpenAI 兼容的 API 返回单一响应的模型。从外部看,您只调用一个端点;在内部,则是一组协调工作的前沿模型完成任务。
\n它提供两个变体。Fugu 在质量与低延迟之间取得平衡,定位为日常编码、评审与交互式服务的默认选择。Fugu Ultra 协调更深的专家代理池,针对难度高、涉及多步推理的问题进行调优——论文复现、网络安全分析、Kaggle 风格数据科学、专利检索等,旨在最大化答案质量。
\n其核心其实包含两点。
\n- \n
- 第一,学习式编排:协调器通过训练来决定何时委派、如何合并输出,而非运行手写的流水线。 \n
- 第二,可替换的代理池:当新的前沿模型公开可用时,Sakana 预计大约两周即可将其纳入。(与本文其余部分相关的重要点:Fable 5 因不公开可用,不在该池中。) \n
什么是 Claude Fable 5?
\nClaude Fable 5 属于 Mythos 等级,Anthropic 将其定位高于 Opus 等级,并通过一组分类器使之适用于通用场景。它与 Claude Mythos 5 共享同一底层模型;不同在于 Fable 5 运行(曾运行)时启用了安全分类器,而 Mythos 5 移除了其中部分分类器,仅向 Project Glasswing 的合作伙伴与部分生物学研究者开放。
\nAnthropic 声称,Fable 5 在其追踪的几乎所有基准测试上都达到了最前沿水平,且在更长、更复杂的任务上优势更大。一个关键的实用细节是:当查询涉及网络安全、生物/化学或模型蒸馏时,双阶段分类器会将响应改道至 Claude Opus 4.8,并告知用户这一改道。
\nSakana Fugu vs. Claude Fable 5:基准测试
\nSakana 发布的对比表排除了 Fable 5 和 Mythos Preview,理由是它们不公开可用,无法纳入 Fugu 的代理池。因此,Fugu 的官方数据是与Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro对比,您可在下表中看到。结果显示它在 11 项基准中的 10 项上取胜。
\n| 基准测试 | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* 使用 mini-swe-agent 脚手架。† 供应商报告的基线。所有 Fugu 分数均由 Sakana 报告,尚未被独立复现。
\n为将 Fable 5 纳入比较,我交叉参考了 Anthropic 与 Sakana 的表格中同时出现、且共享基线一致的基准测试。在 SWE-Bench Pro 和Humanity's Last Exam(无工具)上,Opus 4.8、GPT-5.5 与 Gemini 3.1 Pro 的数据在两家来源中完全一致——因此这两项对比是干净可比的。只保留两套系统的正面对比如下:
\n| 基准测试 | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | 领先者 |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5(+6.6) |
| Humanity's Last Exam(无工具) | 47.2 | 50.0 | 59.0 | Fable 5(+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5(+5.9) |
‡ 两家实验室为 TerminalBench 报告的基线不同,且使用的脚手架不同,条件并不完全一致。
\n以上三项是两家公开表格中唯一基线匹配的重叠基准,这也是其余比较只能停留在定性层面的原因。Fable 5 在三项中均领先。
\n因此,在所有可以并排对比的基准上,Fable 5 大约以 6–9 分的幅度领先 Fugu Ultra。这与 Fable 5 的设计取胜点一致:在以最终结果评分的长程任务上,更强的单一模型会累积更少的连锁误差。
\n总结如下:
\n- \n
- 所有 Fugu 数据均为自报,尚未出现在第三方排行榜上。 \n
- Sakana 将 Fugu 定位为与 Fable 5 与 Mythos Preview“并肩”。鉴于上述差距,这一表述虽可辩护,但略显宽泛。“接近,但略有落后”更为准确。 \n
- 对比集仅部分重叠。Fable 5 在视觉能力上领先(可从截图重建 web 应用源代码),而 Fugu 完全未强调此点;Fugu 发布了长上下文与银行业务的基准,而 Anthropic 的表格未涵盖。因此二者针对的工作形态略有不同。 \n
Sakana Fugu vs. Claude Fable 5:可用性与访问
\nClaude Fable 5 目前处于暂停状态。Anthropic 于 6 月 12 日根据美国政府的出口管制指令,暂停了对 Fable 5 与 Mythos 5 的访问,并表示正努力尽快恢复访问。其余模型如 Opus 4.8 仍可用。
\nSakana Fugu 现已可用,可通过 console.sakana.ai 使用与 OpenAI 兼容的 API——惟独在欧盟与欧洲经济区内,Sakana 已暂停提供服务以完成 GDPR 合规。目前尚无明确时间表。
目前,欧洲团队可能两款模型都用不了。
\n结语
\n从纸面上看,这是两种理念之间旗鼓相当、真刀真枪的较量。
\nAnthropic 把重心放在规模——一款 Mythos 级模型强到需要并行的分类器系统来保障安全。
\nSakana 则押注于协同——训练有素的编排器加上可替换的模型池,能在成本更低、韧性更强、且不依赖单一供应商的前提下,始终紧追任何单一前沿模型。
\n若按表面数据来看,Anthropic 的赌注在可比测试上产出了更强的成果,而 Sakana 的方案则带来了更可用且更便宜的选择。
Sakana Fugu vs. Claude Fable 常见问答
Sakana Fugu 是否优于 Claude Fable 5?
在可并排对比的基准上(SWE-Bench Pro、Humanity's Last Exam、Terminal-Bench),Fable 5 大约以 6–9 分的幅度领先 Fugu Ultra。
为何 Fable 5 不在 Fugu 的基准表中?
Sakana 排除了 Fable 5 与 Mythos Preview,因为它们不公开可用,无法成为 Fugu 的代理池一部分。其官方对比对象为 Opus 4.8、GPT-5.5 与 Gemini 3.1 Pro,Fugu Ultra 在 11 项基准中的 10 项上击败了它们。
哪一个更便宜?
Fugu Ultra 的价格为每百万输入 tokens 5 美元、每百万输出 tokens 30 美元,约为 Fable 5(每百万输入 10 美元、每百万输出 50 美元)的一半。两者均提供 20/100/200 美元的月度订阅档位。
Fable 5 会恢复吗?
Anthropic 表示正努力尽快恢复对 Fable 5 与 Mythos 5 的访问,但尚未公布时间表。其余模型(包括 Opus 4.8)在此期间仍可用。
Fugu 是否实际规避了 Fable 5 的暂停?
并不会直接绕过——Fable 5 从未在 Fugu 的模型池中,因此 Fugu 无法复现其特定能力。