Sakana Fugu 与 Claude Fable 5：跑分、定价与更多比较

Claude Fable 5 在基准上取胜，但目前已被暂停。Sakana Fugu 现已可用，且价格只有其一半。

更新 2026年6月25日 · 6分钟读

Sakana 将 Fugu 宣传为可与 Fable 5 比肩，但在自家的基准测试表中却排除了 Fable 5。因此，我们将尽可能把这两款模型并排对比。

背景如下。Anthropic 发布 Claude Fable 5 后，美国政府在不到三天内就暂停了其公开访问。而 Fable 5 被称为其最强大的模型。两周后，东京的 Sakana AI 推出了 Fugu，并带来不少重磅主张。其中一条尤为引人注目：Sakana AI 称 Fugu Ultra 在行业内最艰难的工程、科学与推理基准上，能与 Fable 5 和 Mythos Preview 等领军模型“并驾齐驱”，且不存在出口管制风险。CEO David Ha 在 X 上表示，Fugu 证明了可替换的协作式代理池能够匹配像 Fable 这样的受限前沿模型。

这些主张并不容易核验，因为 Fable 5 根本不在 Fugu 的基准表中。Sakana 的理由是它并不可公开访问。我们尽力而为：我们正在核对两家实验室公开表格中重叠、且基线一致的少数基准。最后，我们会谈到定价与访问情况。

如果您想分别了解两个系统的背景，我们也有相关文章：请阅读我们的Claude Fable 5 解读和Sakana Fugu 评测。

什么是 Sakana Fugu？

Sakana Fugu 并非传统意义上的单一训练模型。它是一个编排器：一个接收您的请求、决定是直接回答还是委派给池中的专业模型、管理验证与综合，并通过一个与 OpenAI 兼容的 API 返回单一响应的模型。从外部看，您只调用一个端点；在内部，则是一组协调工作的前沿模型完成任务。

它提供两个变体。Fugu 在质量与低延迟之间取得平衡，定位为日常编码、评审与交互式服务的默认选择。Fugu Ultra 协调更深的专家代理池，针对难度高、涉及多步推理的问题进行调优——论文复现、网络安全分析、Kaggle 风格数据科学、专利检索等，旨在最大化答案质量。

其核心其实包含两点。

第一，学习式编排：协调器通过训练来决定何时委派、如何合并输出，而非运行手写的流水线。
第二，可替换的代理池：当新的前沿模型公开可用时，Sakana 预计大约两周即可将其纳入。（与本文其余部分相关的重要点：Fable 5 因不公开可用，不在该池中。）

什么是 Claude Fable 5？

Claude Fable 5 属于 Mythos 等级，Anthropic 将其定位高于 Opus 等级，并通过一组分类器使之适用于通用场景。它与 Claude Mythos 5 共享同一底层模型；不同在于 Fable 5 运行（曾运行）时启用了安全分类器，而 Mythos 5 移除了其中部分分类器，仅向 Project Glasswing 的合作伙伴与部分生物学研究者开放。

Anthropic 声称，Fable 5 在其追踪的几乎所有基准测试上都达到了最前沿水平，且在更长、更复杂的任务上优势更大。一个关键的实用细节是：当查询涉及网络安全、生物/化学或模型蒸馏时，双阶段分类器会将响应改道至 Claude Opus 4.8，并告知用户这一改道。

Sakana Fugu vs. Claude Fable 5：基准测试

Sakana 发布的对比表排除了 Fable 5 和 Mythos Preview，理由是它们不公开可用，无法纳入 Fugu 的代理池。因此，Fugu 的官方数据是与Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro对比，您可在下表中看到。结果显示它在 11 项基准中的 10 项上取胜。

\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n

基准测试	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* 使用 mini-swe-agent 脚手架。† 供应商报告的基线。所有 Fugu 分数均由 Sakana 报告，尚未被独立复现。

为将 Fable 5 纳入比较，我交叉参考了 Anthropic 与 Sakana 的表格中同时出现、且共享基线一致的基准测试。在 SWE-Bench Pro 和Humanity's Last Exam（无工具）上，Opus 4.8、GPT-5.5 与 Gemini 3.1 Pro 的数据在两家来源中完全一致——因此这两项对比是干净可比的。只保留两套系统的正面对比如下：

\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n

基准测试	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	领先者
SWE-Bench Pro	59.0	73.7	80.3	Fable 5（+6.6）
Humanity's Last Exam（无工具）	47.2	50.0	59.0	Fable 5（+9.0）
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5（+5.9）

‡ 两家实验室为 TerminalBench 报告的基线不同，且使用的脚手架不同，条件并不完全一致。

以上三项是两家公开表格中唯一基线匹配的重叠基准，这也是其余比较只能停留在定性层面的原因。Fable 5 在三项中均领先。

因此，在所有可以并排对比的基准上，Fable 5 大约以 6–9 分的幅度领先 Fugu Ultra。这与 Fable 5 的设计取胜点一致：在以最终结果评分的长程任务上，更强的单一模型会累积更少的连锁误差。

总结如下：

所有 Fugu 数据均为自报，尚未出现在第三方排行榜上。
Sakana 将 Fugu 定位为与 Fable 5 与 Mythos Preview“并肩”。鉴于上述差距，这一表述虽可辩护，但略显宽泛。“接近，但略有落后”更为准确。
对比集仅部分重叠。Fable 5 在视觉能力上领先（可从截图重建 web 应用源代码），而 Fugu 完全未强调此点；Fugu 发布了长上下文与银行业务的基准，而 Anthropic 的表格未涵盖。因此二者针对的工作形态略有不同。

Sakana Fugu vs. Claude Fable 5：可用性与访问

Claude Fable 5 目前处于暂停状态。Anthropic 于 6 月 12 日根据美国政府的出口管制指令，暂停了对 Fable 5 与 Mythos 5 的访问，并表示正努力尽快恢复访问。其余模型如 Opus 4.8 仍可用。

Sakana Fugu 现已可用，可通过 console.sakana.ai 使用与 OpenAI 兼容的 API——惟独在欧盟与欧洲经济区内，Sakana 已暂停提供服务以完成 GDPR 合规。目前尚无明确时间表。

目前，欧洲团队可能两款模型都用不了。

结语

从纸面上看，这是两种理念之间旗鼓相当、真刀真枪的较量。

Anthropic 把重心放在规模——一款 Mythos 级模型强到需要并行的分类器系统来保障安全。

Sakana 则押注于协同——训练有素的编排器加上可替换的模型池，能在成本更低、韧性更强、且不依赖单一供应商的前提下，始终紧追任何单一前沿模型。

若按表面数据来看，Anthropic 的赌注在可比测试上产出了更强的成果，而 Sakana 的方案则带来了更可用且更便宜的选择。

Sakana Fugu 是否优于 Claude Fable 5？

为何 Fable 5 不在 Fugu 的基准表中？

哪一个更便宜？

Fable 5 会恢复吗？

Fugu 是否实际规避了 Fable 5 的暂停？

主题

人工智能

在 DataCamp 学习 AI

Tracks

软件工程中的 AI

7小时

使用最新的 AI 开发工具，包括 GitHub Copilot、Windsurf 和 Replit，更快地编写代码并构建软件应用程序。

查看详情

开始课程

Courses

Software Development with Claude Code

4小时

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

查看详情

开始课程

Courses

Introduction to Agent Skills

2小时30分钟

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

查看详情

开始课程

什么是 Sakana Fugu？

什么是 Claude Fable 5？

Sakana Fugu vs. Claude Fable 5：基准测试

Sakana Fugu vs. Claude Fable 5：可用性与访问

结语

Sakana Fugu vs. Claude Fable 常见问答

哪一个更便宜？

Fable 5 会恢复吗？

Fugu 是否实际规避了 Fable 5 的暂停？

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}软件工程中的 AI

Software Development with Claude Code

Introduction to Agent Skills

软件工程中的 AI