Sakana Fugu và Claude Fable 5: Điểm chuẩn, giá cả và hơn thế nữa

Claude Fable 5 thắng trên các điểm chuẩn nhưng hiện đang bị tạm ngưng. Sakana Fugu hiện có sẵn và có giá bằng một nửa.

Đã cập nhật 25 thg 6, 2026 · 6 phút đọc

Sakana quảng bá Fugu là sánh ngang Fable 5, nhưng lại loại Fable 5 khỏi chính bảng điểm chuẩn của mình. Vì vậy, chúng tôi sẽ so sánh hai mô hình này trực tiếp ở mức tối đa có thể.

Sau đây là bối cảnh. Chính phủ Mỹ đã tạm ngưng quyền truy cập công khai vào Claude Fable 5 chỉ ba ngày sau khi Anthropic ra mắt. Và Fable 5 được giới thiệu là mô hình mạnh mẽ nhất của họ. Hai tuần sau, Sakana AI ở Tokyo phát hành Fugu với nhiều tuyên bố lớn. Một tuyên bố đặc biệt đã được nhắc đến rộng rãi: Sakana AI nói Fugu Ultra “sánh vai với các mô hình hàng đầu như Fable 5 và Mythos Preview” trên những điểm chuẩn khó nhất về kỹ thuật, khoa học và suy luận của ngành, và không có rủi ro kiểm soát xuất khẩu. CEO David Ha nói trên X rằng Fugu chứng minh rằng một cụm tác nhân có thể hoán đổi, được phối hợp, có thể sánh kịp các mô hình tiền tuyến bị hạn chế như Fable.

Những tuyên bố này hơi khó kiểm chứng vì Fable 5 hoàn toàn không có trong bảng điểm chuẩn của Fugu. Sakana loại trừ vì cho rằng nó không thể truy cập công khai. Chúng tôi làm những gì có thể: Chúng tôi đang kiểm tra số ít điểm chuẩn xuất hiện trong cả hai bảng công bố của hai phòng lab với cùng đường cơ sở. Và để kết lại, chúng ta sẽ nói về giá và tình trạng truy cập

Nếu bạn muốn tìm hiểu bối cảnh về từng hệ thống, chúng tôi có các bài viết riêng: đọc bài viết về Claude Fable 5 và bài viết về Sakana Fugu.

Sakana Fugu là gì?

Sakana Fugu không phải là một mô hình được huấn luyện đơn lẻ theo nghĩa thông thường. Nó là một bộ điều phối: một mô hình nhận yêu cầu của bạn, quyết định trả lời trực tiếp hay ủy quyền cho các mô hình chuyên biệt trong một cụm, quản lý kiểm chứng và tổng hợp, rồi trả về một phản hồi qua một API tương thích OpenAI duy nhất. Từ bên ngoài, bạn gọi một endpoint; bên trong, một tập hợp mô hình tiền tuyến được phối hợp sẽ thực hiện công việc.

Sản phẩm có hai biến thể. Fugu cân bằng chất lượng với độ trễ thấp và được định vị như mặc định hằng ngày cho lập trình, rà soát và dịch vụ tương tác. Fugu Ultra phối hợp một cụm tác nhân chuyên gia sâu hơn và được tinh chỉnh để tối đa hóa chất lượng câu trả lời cho các bài toán khó, nhiều bước — tái hiện nghiên cứu, phân tích an ninh mạng, khoa học dữ liệu kiểu Kaggle, điều tra bằng sáng chế.

Ý tưởng thực ra gồm hai lớp ý tưởng.

Thứ nhất, điều phối được học: bộ điều phối được huấn luyện để quyết định khi nào nên ủy quyền và cách kết hợp đầu ra, thay vì chạy theo một pipeline viết tay.
Thứ hai, cụm tác nhân có thể hoán đổi: khi một mô hình tiền tuyến mới trở nên công khai, Sakana kỳ vọng mất khoảng hai tuần để tích hợp. (Quan trọng cho phần còn lại của bài: Fable 5 không nằm trong cụm đó vì nó không thể truy cập công khai.

Claude Fable 5 là gì?

Claude Fable 5 là một mô hình thuộc lớp Mythos, tức một hạng mà Anthropic đặt cao hơn lớp Opus, được làm an toàn cho sử dụng rộng rãi thông qua một bộ phân loại. Nó là cùng một mô hình nền tảng như Claude Mythos 5; khác biệt là Fable 5 chạy (đã chạy) với các bộ phân loại an toàn được kích hoạt, trong khi Mythos 5 gỡ bớt và chỉ giới hạn cho đối tác Project Glasswing và một số nhà nghiên cứu sinh học được chọn.

Anthropic tuyên bố Fable 5 đạt mức tiên tiến trên gần như mọi điểm chuẩn họ theo dõi, với lợi thế tăng lên ở các tác vụ dài và phức tạp hơn. Chi tiết thực tế đáng chú ý: khi một truy vấn đụng đến an ninh mạng, sinh học/hóa học, hoặc chưng cất mô hình, một bộ phân loại hai giai đoạn sẽ chuyển hướng phản hồi sang Claude Opus 4.8 và thông báo cho người dùng.

Sakana Fugu vs. Claude Fable 5: Điểm chuẩn

Bảng so sánh công bố của Sakana loại trừ Fable 5 và Mythos Preview, với lý do chúng không thể truy cập công khai và do đó không thể thuộc cụm của Fugu. Vì vậy, số liệu chính thức của Fugu được đo so với Opus 4.8, GPT-5.5 và Gemini 3.1 Pro, tất cả đều có trong bảng dưới đây. Bạn có thể thấy Fugu thắng trên 10/11 điểm chuẩn.

Điểm chuẩn	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Lập luận ngữ cảnh dài	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* mini-swe-agent scaffolding. † đường cơ sở do nhà cung cấp báo cáo. Tất cả điểm số Fugu do Sakana báo cáo và chưa được tái lập độc lập.

Để đưa Fable 5 vào bức tranh, tôi đối chiếu các điểm chuẩn xuất hiện trong cả bảng của Anthropic và Sakana, và kiểm tra rằng các đường cơ sở dùng chung khớp nhau. Trên SWE-Bench Pro và Humanity's Last Exam (không công cụ), các số Opus 4.8, GPT-5.5 và Gemini 3.1 Pro là giống hệt nhau ở cả hai nguồn — vì vậy hai so sánh đó là sạch. Thu gọn chỉ còn hai hệ thống, đối đầu trực tiếp trông như sau:

Điểm chuẩn	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Dẫn đầu
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6.6)
Humanity's Last Exam (không công cụ)	47.2	50.0	59.0	Fable 5 (+9.0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5.9)

‡ Hai phòng lab báo cáo đường cơ sở khác nhau và dùng giàn khung khác nhau cho TerminalBench, nên điều kiện không hoàn toàn giống nhau.

Đây là ba điểm chuẩn duy nhất xuất hiện trong cả hai bảng công bố với đường cơ sở trùng khớp, nên phần so sánh còn lại phải giữ ở mức định tính. Fable 5 dẫn cả ba.

Vậy, trên mọi điểm chuẩn có thể so sánh trực tiếp, Fable 5 vượt Fugu Ultra khoảng 6–9 điểm. Điều này phù hợp với nơi Fable 5 được xây để thắng: các tác vụ dài, được chấm ở cuối, nơi một mô hình mạnh hơn tích lũy ít lỗi chồng chất hơn.

Tóm lại:

Mọi con số của Fugu là do chính họ báo cáo và chưa xuất hiện trên các bảng xếp hạng của bên thứ ba.
Sakana mô tả Fugu là “sánh vai” với Fable 5 và Mythos Preview. Với các khoảng cách ở trên, đó là một cách diễn giải có thể bảo vệ được nhưng hào phóng. “Gần, nhưng còn sau” thì chính xác hơn.
Tập so sánh chỉ trùng nhau một phần. Fable 5 dẫn ở mảng thị giác (có thể dựng lại mã nguồn web app từ ảnh chụp màn hình), điều mà Fugu không nhấn mạnh; Fugu công bố điểm chuẩn ngữ cảnh dài và ngân hàng mà bảng của Anthropic không đề cập. Vậy nên chúng được tối ưu cho những dạng công việc hơi khác nhau.

Sakana Fugu vs. Claude Fable 5: Mức độ sẵn có và truy cập

Claude Fable 5 hiện đang bị tạm ngưng. Anthropic đã gỡ quyền truy cập Fable 5 và Mythos 5 vào ngày 12/6 theo chỉ đạo kiểm soát xuất khẩu của chính phủ Mỹ, và cho biết họ đang làm việc để khôi phục quyền truy cập sớm nhất có thể. Các mô hình khác của Anthropic, như Opus 4.8, vẫn khả dụng.

Sakana Fugu hiện khả dụng qua console.sakana.ai với API tương thích OpenAI — ngoại trừ EU và EEA, nơi Sakana đã tạm dừng để xử lý tuân thủ GDPR. Tôi không thể có được mốc thời gian chính xác cho việc này.

Hiện tại, một đội ngũ châu Âu có thể sẽ không dùng được cả hai mô hình.

Kết luận

Trên giấy tờ, đây là một cuộc đối đầu sát sao, thực sự, giữa hai triết lý.

Anthropic nghĩ về quy mô — một mô hình lớp Mythos đủ mạnh để cần hệ thống phân loại song song.

Sakana đặt cược vào sự phối hợp — rằng một bộ điều phối được huấn luyện trên một cụm có thể hoán đổi có thể luôn ở khoảng cách đủ gần với bất kỳ mô hình tiền tuyến đơn lẻ nào trong khi rẻ hơn, linh hoạt hơn và không phụ thuộc nhà cung cấp.

Nếu lấy các điểm chuẩn theo nghĩa đen, cược của Anthropic tạo ra hiện vật mạnh hơn ở các phép thử so sánh được, trong khi cược của Sakana tạo ra lựa chọn dễ tiếp cận hơn và rẻ hơn.

Author

Josef Waples

Sakana Fugu có tốt hơn Claude Fable 5 không?

Vì sao Fable 5 không có trong bảng điểm chuẩn của Fugu?

Bên nào rẻ hơn?

Fable 5 có quay trở lại không?

Fugu có thực sự vượt qua việc Fable 5 bị tạm ngưng không?

Chủ đề

Trí tuệ Nhân tạo

Học AI với DataCamp

Tracks

Trí tuệ nhân tạo trong Kỹ thuật phần mềm

7 giờ

Viết mã và phát triển ứng dụng phần mềm nhanh hơn bao giờ hết với các công cụ phát triển AI mới nhất, bao gồm GitHub Copilot, Windsurf và Replit.

Xem chi tiết

Bắt đầu khóa học

Courses

Software Development with Claude Code

4 giờ

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

Xem chi tiết

Bắt đầu khóa học

Courses

Introduction to Agent Skills

2 giờ 30 phút

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

Xem chi tiết

Bắt đầu khóa học

Xem thêm

Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.

Matt Crabtree

10 phút

Xem thêm Xem thêm

Sakana Fugu là gì?

Claude Fable 5 là gì?

Sakana Fugu vs. Claude Fable 5: Điểm chuẩn

Sakana Fugu vs. Claude Fable 5: Mức độ sẵn có và truy cập

Kết luận

Sakana Fugu và Claude Fable: Câu hỏi thường gặp

Bên nào rẻ hơn?

Fable 5 có quay trở lại không?

Fugu có thực sự vượt qua việc Fable 5 bị tạm ngưng không?

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Trí tuệ nhân tạo trong Kỹ thuật phần mềm

Software Development with Claude Code

Introduction to Agent Skills

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Trí tuệ nhân tạo trong Kỹ thuật phần mềm