Tracks
Sakana quảng bá Fugu là sánh ngang Fable 5, nhưng lại loại Fable 5 khỏi chính bảng điểm chuẩn của mình. Vì vậy, chúng tôi sẽ so sánh hai mô hình này trực tiếp ở mức tối đa có thể.
Sau đây là bối cảnh. Chính phủ Mỹ đã tạm ngưng quyền truy cập công khai vào Claude Fable 5 chỉ ba ngày sau khi Anthropic ra mắt. Và Fable 5 được giới thiệu là mô hình mạnh mẽ nhất của họ. Hai tuần sau, Sakana AI ở Tokyo phát hành Fugu với nhiều tuyên bố lớn. Một tuyên bố đặc biệt đã được nhắc đến rộng rãi: Sakana AI nói Fugu Ultra “sánh vai với các mô hình hàng đầu như Fable 5 và Mythos Preview” trên những điểm chuẩn khó nhất về kỹ thuật, khoa học và suy luận của ngành, và không có rủi ro kiểm soát xuất khẩu. CEO David Ha nói trên X rằng Fugu chứng minh rằng một cụm tác nhân có thể hoán đổi, được phối hợp, có thể sánh kịp các mô hình tiền tuyến bị hạn chế như Fable.
Những tuyên bố này hơi khó kiểm chứng vì Fable 5 hoàn toàn không có trong bảng điểm chuẩn của Fugu. Sakana loại trừ vì cho rằng nó không thể truy cập công khai. Chúng tôi làm những gì có thể: Chúng tôi đang kiểm tra số ít điểm chuẩn xuất hiện trong cả hai bảng công bố của hai phòng lab với cùng đường cơ sở. Và để kết lại, chúng ta sẽ nói về giá và tình trạng truy cập
Nếu bạn muốn tìm hiểu bối cảnh về từng hệ thống, chúng tôi có các bài viết riêng: đọc bài viết về Claude Fable 5 và bài viết về Sakana Fugu.
Sakana Fugu là gì?
Sakana Fugu không phải là một mô hình được huấn luyện đơn lẻ theo nghĩa thông thường. Nó là một bộ điều phối: một mô hình nhận yêu cầu của bạn, quyết định trả lời trực tiếp hay ủy quyền cho các mô hình chuyên biệt trong một cụm, quản lý kiểm chứng và tổng hợp, rồi trả về một phản hồi qua một API tương thích OpenAI duy nhất. Từ bên ngoài, bạn gọi một endpoint; bên trong, một tập hợp mô hình tiền tuyến được phối hợp sẽ thực hiện công việc.
Sản phẩm có hai biến thể. Fugu cân bằng chất lượng với độ trễ thấp và được định vị như mặc định hằng ngày cho lập trình, rà soát và dịch vụ tương tác. Fugu Ultra phối hợp một cụm tác nhân chuyên gia sâu hơn và được tinh chỉnh để tối đa hóa chất lượng câu trả lời cho các bài toán khó, nhiều bước — tái hiện nghiên cứu, phân tích an ninh mạng, khoa học dữ liệu kiểu Kaggle, điều tra bằng sáng chế.
Ý tưởng thực ra gồm hai lớp ý tưởng.
- Thứ nhất, điều phối được học: bộ điều phối được huấn luyện để quyết định khi nào nên ủy quyền và cách kết hợp đầu ra, thay vì chạy theo một pipeline viết tay.
- Thứ hai, cụm tác nhân có thể hoán đổi: khi một mô hình tiền tuyến mới trở nên công khai, Sakana kỳ vọng mất khoảng hai tuần để tích hợp. (Quan trọng cho phần còn lại của bài: Fable 5 không nằm trong cụm đó vì nó không thể truy cập công khai.
Claude Fable 5 là gì?
Claude Fable 5 là một mô hình thuộc lớp Mythos, tức một hạng mà Anthropic đặt cao hơn lớp Opus, được làm an toàn cho sử dụng rộng rãi thông qua một bộ phân loại. Nó là cùng một mô hình nền tảng như Claude Mythos 5; khác biệt là Fable 5 chạy (đã chạy) với các bộ phân loại an toàn được kích hoạt, trong khi Mythos 5 gỡ bớt và chỉ giới hạn cho đối tác Project Glasswing và một số nhà nghiên cứu sinh học được chọn.
Anthropic tuyên bố Fable 5 đạt mức tiên tiến trên gần như mọi điểm chuẩn họ theo dõi, với lợi thế tăng lên ở các tác vụ dài và phức tạp hơn. Chi tiết thực tế đáng chú ý: khi một truy vấn đụng đến an ninh mạng, sinh học/hóa học, hoặc chưng cất mô hình, một bộ phân loại hai giai đoạn sẽ chuyển hướng phản hồi sang Claude Opus 4.8 và thông báo cho người dùng.
Sakana Fugu vs. Claude Fable 5: Điểm chuẩn
Bảng so sánh công bố của Sakana loại trừ Fable 5 và Mythos Preview, với lý do chúng không thể truy cập công khai và do đó không thể thuộc cụm của Fugu. Vì vậy, số liệu chính thức của Fugu được đo so với Opus 4.8, GPT-5.5 và Gemini 3.1 Pro, tất cả đều có trong bảng dưới đây. Bạn có thể thấy Fugu thắng trên 10/11 điểm chuẩn.
| Điểm chuẩn | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Lập luận ngữ cảnh dài | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent scaffolding. † đường cơ sở do nhà cung cấp báo cáo. Tất cả điểm số Fugu do Sakana báo cáo và chưa được tái lập độc lập.
Để đưa Fable 5 vào bức tranh, tôi đối chiếu các điểm chuẩn xuất hiện trong cả bảng của Anthropic và Sakana, và kiểm tra rằng các đường cơ sở dùng chung khớp nhau. Trên SWE-Bench Pro và Humanity's Last Exam (không công cụ), các số Opus 4.8, GPT-5.5 và Gemini 3.1 Pro là giống hệt nhau ở cả hai nguồn — vì vậy hai so sánh đó là sạch. Thu gọn chỉ còn hai hệ thống, đối đầu trực tiếp trông như sau:
| Điểm chuẩn | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | Dẫn đầu |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (không công cụ) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ Hai phòng lab báo cáo đường cơ sở khác nhau và dùng giàn khung khác nhau cho TerminalBench, nên điều kiện không hoàn toàn giống nhau.
Đây là ba điểm chuẩn duy nhất xuất hiện trong cả hai bảng công bố với đường cơ sở trùng khớp, nên phần so sánh còn lại phải giữ ở mức định tính. Fable 5 dẫn cả ba.
Vậy, trên mọi điểm chuẩn có thể so sánh trực tiếp, Fable 5 vượt Fugu Ultra khoảng 6–9 điểm. Điều này phù hợp với nơi Fable 5 được xây để thắng: các tác vụ dài, được chấm ở cuối, nơi một mô hình mạnh hơn tích lũy ít lỗi chồng chất hơn.
Tóm lại:
- Mọi con số của Fugu là do chính họ báo cáo và chưa xuất hiện trên các bảng xếp hạng của bên thứ ba.
- Sakana mô tả Fugu là “sánh vai” với Fable 5 và Mythos Preview. Với các khoảng cách ở trên, đó là một cách diễn giải có thể bảo vệ được nhưng hào phóng. “Gần, nhưng còn sau” thì chính xác hơn.
- Tập so sánh chỉ trùng nhau một phần. Fable 5 dẫn ở mảng thị giác (có thể dựng lại mã nguồn web app từ ảnh chụp màn hình), điều mà Fugu không nhấn mạnh; Fugu công bố điểm chuẩn ngữ cảnh dài và ngân hàng mà bảng của Anthropic không đề cập. Vậy nên chúng được tối ưu cho những dạng công việc hơi khác nhau.
Sakana Fugu vs. Claude Fable 5: Mức độ sẵn có và truy cập
Claude Fable 5 hiện đang bị tạm ngưng. Anthropic đã gỡ quyền truy cập Fable 5 và Mythos 5 vào ngày 12/6 theo chỉ đạo kiểm soát xuất khẩu của chính phủ Mỹ, và cho biết họ đang làm việc để khôi phục quyền truy cập sớm nhất có thể. Các mô hình khác của Anthropic, như Opus 4.8, vẫn khả dụng.
Sakana Fugu hiện khả dụng qua console.sakana.ai với API tương thích OpenAI — ngoại trừ EU và EEA, nơi Sakana đã tạm dừng để xử lý tuân thủ GDPR. Tôi không thể có được mốc thời gian chính xác cho việc này.
Hiện tại, một đội ngũ châu Âu có thể sẽ không dùng được cả hai mô hình.
Kết luận
Trên giấy tờ, đây là một cuộc đối đầu sát sao, thực sự, giữa hai triết lý.
Anthropic nghĩ về quy mô — một mô hình lớp Mythos đủ mạnh để cần hệ thống phân loại song song.
Sakana đặt cược vào sự phối hợp — rằng một bộ điều phối được huấn luyện trên một cụm có thể hoán đổi có thể luôn ở khoảng cách đủ gần với bất kỳ mô hình tiền tuyến đơn lẻ nào trong khi rẻ hơn, linh hoạt hơn và không phụ thuộc nhà cung cấp.
Nếu lấy các điểm chuẩn theo nghĩa đen, cược của Anthropic tạo ra hiện vật mạnh hơn ở các phép thử so sánh được, trong khi cược của Sakana tạo ra lựa chọn dễ tiếp cận hơn và rẻ hơn.

Tôi là một cây bút và biên tập viên về khoa học dữ liệu, đã có bài đóng góp cho các nghiên cứu đăng trên tạp chí khoa học. Tôi đặc biệt quan tâm đến đại số tuyến tính, thống kê, R và các chủ đề tương tự. Tôi cũng chơi cờ vua khá thường xuyên!
Sakana Fugu và Claude Fable: Câu hỏi thường gặp
Sakana Fugu có tốt hơn Claude Fable 5 không?
Ở các điểm chuẩn có thể so sánh trực tiếp (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 dẫn Fugu Ultra khoảng 6–9 điểm.
Vì sao Fable 5 không có trong bảng điểm chuẩn của Fugu?
Sakana loại Fable 5 và Mythos Preview vì chúng không thể truy cập công khai và do đó không thể là một phần của cụm tác nhân của Fugu. So sánh chính thức của họ là với Opus 4.8, GPT-5.5 và Gemini 3.1 Pro, mà Fugu Ultra vượt trên 10/11 điểm chuẩn.
Bên nào rẻ hơn?
Fugu Ultra, với $5/triệu token đầu vào và $30/triệu token đầu ra, rẻ khoảng một nửa so với Fable 5 ở mức $10/triệu đầu vào và $50/triệu đầu ra. Cả hai đều có các gói thuê bao hàng tháng $20/$100/$200.
Fable 5 có quay trở lại không?
Anthropic cho biết họ đang làm việc để khôi phục quyền truy cập Fable 5 và Mythos 5 sớm nhất có thể, nhưng chưa công bố mốc thời gian. Các mô hình khác, bao gồm Opus 4.8, vẫn khả dụng trong thời gian chờ.
Fugu có thực sự vượt qua việc Fable 5 bị tạm ngưng không?
Không trực tiếp — Fable 5 chưa từng nằm trong cụm của Fugu, vì vậy Fugu không thể khôi phục các năng lực cụ thể của nó.