Sakana Fugu เทียบกับ Claude Fable 5: ผลทดสอบ ราคา และอื่น ๆ

Claude Fable 5 ชนะบนผลทดสอบแต่ถูกระงับการใช้งานชั่วคราว ส่วน Sakana Fugu พร้อมใช้งานแล้วและมีราคาครึ่งหนึ่ง

อัปเดตแล้ว 25 มิ.ย. 2569 · 6 นาที อ่าน

Sakana โฆษณา Fugu ว่าเทียบชั้นกับ Fable 5 แต่กลับไม่ใส่ Fable 5 ไว้ในตารางผลทดสอบของตนเอง ดังนั้นเราจะเปรียบเทียบสองโมเดลนี้แบบเคียงข้างกันเท่าที่ข้อมูลเอื้ออำนวย

เกริ่นก่อนเล็กน้อย รัฐบาลสหรัฐฯ ระงับการเข้าถึงสาธารณะของ Claude Fable 5 เพียงสามวันหลัง Anthropic เปิดตัว และ Fable 5 ก็ถูกโปรโมตว่าเป็นโมเดลที่ทรงพลังที่สุดของค่าย ตอนนี้ผ่านมาสองสัปดาห์ Sakana AI จากโตเกียวได้ปล่อย Fugu พร้อมคำกล่าวอ้างที่ยิ่งใหญ่ โดยเฉพาะหนึ่งข้อที่ถูกพูดถึงมาก: Sakana AI ระบุว่า Fugu Ultra “ยืนเคียงบ่าเคียงไหล่กับโมเดลชั้นนำอย่าง Fable 5 และ Mythos Preview” บนชุดผลทดสอบด้านวิศวกรรม วิทยาศาสตร์ และการให้เหตุผลที่ยากที่สุดของอุตสาหกรรม โดยไม่มีความเสี่ยงด้านการควบคุมการส่งออก ซีอีโอ David Ha กล่าวบน X ว่า Fugu เป็นหลักฐานว่า “สระตัวแทน” ที่สลับสับเปลี่ยนได้และทำงานประสานกันสามารถทัดเทียมโมเดลแนวหน้าที่ถูกจำกัดอย่าง Fable ได้

คำกล่าวอ้างนี้ตรวจสอบได้ยากเล็กน้อยเพราะ Fable 5 ไม่อยู่ในตารางผลทดสอบของ Fugu เลย Sakana ตัดออกโดยให้เหตุผลว่าไม่สามารถเข้าถึงได้สาธารณะ เราจึงทำเท่าที่ทำได้: ตรวจเทียบกับผลทดสอบไม่กี่รายการที่ปรากฏในตารางที่เผยแพร่ของทั้งสองค่ายและมีฐานเทียบเดียวกัน และเพื่อตบท้าย เราจะคุยเรื่องราคาและสถานะการเข้าถึง

หากต้องการพื้นฐานของแต่ละระบบแบบแยกกัน เรามีบล็อกให้อ่าน: ดู บทความครอบคลุม Claude Fable 5 และ สรุป Sakana Fugu ของเรา

Sakana Fugu คืออะไร?

Sakana Fugu ไม่ใช่โมเดลเดียวที่ผ่านการฝึกในความหมายปกติ มันคือ “ผู้ประสานงาน” (orchestrator): โมเดลที่รับคำร้องของผู้ใช้ ตัดสินใจว่าจะตอบโดยตรงหรือมอบหมายให้โมเดลผู้เชี่ยวชาญในสระ ดูแลการตรวจทานและการสังเคราะห์คำตอบ แล้วส่งคำตอบเดียวกลับมาผ่าน API ที่เข้ากันได้กับ OpenAI มองจากภายนอกคุณเรียกใช้เพียงเอ็นด์พอยต์เดียว; ภายในเป็นชุดโมเดลแนวหน้าที่ทำงานประสานกัน

มีสองรุ่นย่อยให้เลือก Fugu ให้สมดุลระหว่างคุณภาพกับความหน่วงต่ำ เหมาะเป็นค่ามาตรฐานสำหรับงานโค้ด รีวิว และบริการเชิงโต้ตอบรายวัน ส่วน Fugu Ultra ประสานงานสระเอเจนต์ผู้เชี่ยวชาญที่ลึกกว่า ปรับจูนเพื่อคุณภาพคำตอบสูงสุดสำหรับปัญหายากหลายขั้นตอน — การทำซ้ำงานวิจัยจากงานวิชาการ วิเคราะห์ความปลอดภัยไซเบอร์ งานข้อมูลสไตล์ Kaggle การสืบค้นสิทธิบัตร

แนวคิดนี้จริง ๆ มีสองชั้น

หนึ่ง, การประสานงานแบบเรียนรู้ได้: ตัวประสานงานถูกฝึกให้ตัดสินใจว่าเมื่อใดควรมอบหมายและจะรวมผลลัพธ์อย่างไร แทนที่จะเป็นไปป์ไลน์ที่เขียนเงื่อนไขด้วยมือ
สอง, สระเอเจนต์ที่สลับได้: เมื่อมีโมเดลแนวหน้าใหม่ที่เข้าถึงได้สาธารณะ Sakana คาดว่าจะใช้เวลาราวสองสัปดาห์ในการบรรจุเข้าไป (สำคัญสำหรับบทความที่เหลือ: Fable 5 ไม่อยู่ในสระนั้นเพราะไม่สามารถเข้าถึงได้สาธารณะ)

Claude Fable 5 คืออะไร?

Claude Fable 5 เป็นโมเดลระดับ Mythos ซึ่งเป็นชั้นที่ Anthropic จัดวางให้อยู่เหนือชั้น Opus และทำให้ปลอดภัยต่อการใช้งานทั่วไปผ่านชุดตัวจำแนก มันใช้โมเดลพื้นฐานเดียวกับ Claude Mythos 5; ความต่างคือ Fable 5 ทำงาน (เคยทำงาน) พร้อมตัวจำแนกความปลอดภัย ขณะที่ Mythos 5 ยกเลิกบางตัวและจำกัดไว้สำหรับพาร์ทเนอร์ Project Glasswing และนักวิจัยชีววิทยาบางส่วน

Anthropic อ้างว่า Fable 5 ทำสถิติดีที่สุดในเกือบทุกผลทดสอบที่ Anthropic ติดตาม โดยทิ้งห่างมากขึ้นเมื่อเป็นงานที่ยาวและซับซ้อน รายละเอียดเชิงปฏิบัติที่สำคัญ: เมื่อคำถามแตะเรื่องความปลอดภัยไซเบอร์ ชีววิทยา/เคมี หรือการกลั่นโมเดล ระบบตัวจำแนกสองขั้นจะเปลี่ยนเส้นทางคำตอบไปยัง Claude Opus 4.8 และแจ้งผู้ใช้ว่าทำเช่นนั้น

Sakana Fugu vs. Claude Fable 5: ผลทดสอบ

ตารางเปรียบเทียบที่เผยแพร่ของ Sakana ไม่รวม Fable 5 และ Mythos Preview โดยให้เหตุผลว่าไม่สามารถเข้าถึงได้สาธารณะและจึงไม่สามารถอยู่ในสระของ Fugu ได้ ดังนั้นตัวเลขทางการของ Fugu จึงเทียบกับ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro ทั้งหมดนี้เห็นได้ในตารางด้านล่าง จะเห็นว่า Fugu ชนะ 10 จาก 11 ผลทดสอบ

ผลทดสอบ	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* ใช้โครง mini-swe-agent † ค่าฐานที่ผู้ให้บริการรายงาน คะแนนของ Fugu ทั้งหมดเป็นตัวเลขที่ Sakana รายงานและยังไม่ถูกทำซ้ำโดยอิสระ

เพื่อให้ Fable 5 เข้ามาอยู่ในภาพ ฉันได้อ้างอิงไขว้ผลทดสอบที่ปรากฏทั้งในตารางของ Anthropic และของ Sakana และตรวจว่าค่าฐานที่ใช้ร่วมกันตรงกัน บน SWE-Bench Pro และ Humanity's Last Exam (ไม่ใช้เครื่องมือ) ตัวเลขของ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro เหมือนกันทั้งสองแหล่ง — ดังนั้นสองการเปรียบเทียบนี้จึงสะอาด ลดเหลือแค่สองระบบแบบตัวต่อตัวจะเป็นดังนี้:

ผลทดสอบ	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	ผู้นำ
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6.6)
Humanity's Last Exam (ไม่ใช้เครื่องมือ)	47.2	50.0	59.0	Fable 5 (+9.0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5.9)

‡ ห้องแล็บทั้งสองรายงานค่าฐานต่างกันและใช้โครงสำหรับ TerminalBench ต่างกัน เงื่อนไขจึงไม่เหมือนกันทั้งหมด

สามรายการนี้คือผลทดสอบเดียวที่ปรากฏในตารางที่เผยแพร่ของทั้งสองค่ายและมีค่าฐานที่ตรงกัน นั่นเป็นเหตุผลที่ส่วนที่เหลือต้องคงการเปรียบเทียบเชิงคุณภาพไว้ Fable 5 นำทั้งสาม

ดังนั้น บนทุกผลทดสอบที่พอจะวางเทียบกันได้ Fable 5 ทำคะแนนนำหน้า Fugu Ultra ราว 6–9 คะแนน ซึ่งสอดคล้องกับจุดที่ Fable 5 ถูกสร้างมาให้ชนะ คือภารกิจระยะยาวที่ให้คะแนนตอนจบ ซึ่งโมเดลเดี่ยวที่แข็งแรงกว่าจะสะสมความผิดพลาดซ้อนทบน้อยกว่า

สรุป:

ตัวเลขของ Fugu ทั้งหมดเป็นการรายงานด้วยตนเอง และยังไม่ปรากฏในลีดเดอร์บอร์ดของบุคคลที่สาม
Sakana บรรยาย Fugu ว่า “ยืนเคียงบ่าเคียงไหล่” กับ Fable 5 และ Mythos Preview เมื่อดูจากช่องว่างด้านบน นั่นอาจพอป้องกันได้แต่ก็กว้างใจ “ใกล้เคียงแต่ตามหลัง” จะตรงกว่า
ชุดเปรียบเทียบซ้อนทับกันเพียงบางส่วน Fable 5 เด่นด้านวิชัน (สามารถสร้างซอร์สของเว็บแอปจากภาพหน้าจอ) ซึ่ง Fugu ไม่ได้เน้นเลย; ขณะที่ Fugu เผยแพร่ผลทดสอบบริบทยาวและธนาคารที่ตารางของ Anthropic ไม่ครอบคลุม ดังนั้นทั้งสองจึงถูกปรับให้เหมาะกับงานคนละทรง

Sakana Fugu vs. Claude Fable 5: ความพร้อมใช้งานและการเข้าถึง

Claude Fable 5 ถูกระงับการใช้งานชั่วคราว Anthropic ถอนการเข้าถึง Fable 5 และ Mythos 5 เมื่อวันที่ 12 มิถุนายน ภายหลังคำสั่งควบคุมการส่งออกของรัฐบาลสหรัฐฯ และระบุว่ากำลังทำงานเพื่อกู้คืนการเข้าถึงโดยเร็วที่สุด โมเดลอื่นของ Anthropic อย่าง Opus 4.8 ยังใช้งานได้

Sakana Fugu พร้อมใช้งานแล้ว ผ่าน console.sakana.ai ด้วย API ที่เข้ากันได้กับ OpenAI — ยกเว้น ในสหภาพยุโรปและเขตเศรษฐกิจยุโรป ซึ่ง Sakana หยุดให้บริการชั่วคราวระหว่างดำเนินการให้สอดคล้องกับ GDPR ฉันยังไม่ได้ไทม์ไลน์ที่แน่ชัด

ณ ตอนนี้ ทีมในยุโรปอาจไม่สามารถใช้โมเดลใดโมเดลหนึ่งได้เลย

ข้อคิดส่งท้าย

บนกระดาษ นี่คือศึกที่สูสีและจริงจังระหว่างสองปรัชญา

Anthropic คิดเรื่องการสเกล — โมเดลระดับ Mythos เดียวที่ทรงพลังจนต้องมีระบบตัวจำแนกคู่ขนาน

Sakana เดิมพันกับการประสานงาน — ว่าผู้ประสานงานที่ผ่านการฝึกเหนือสระเอเจนต์ที่สลับได้จะสามารถอยู่ในระยะประชิดของโมเดลแนวหน้าเดี่ยวใด ๆ พร้อมทั้งถูกกว่า ยืดหยุ่นกว่า และไม่ยึดติดผู้ให้บริการ

หากยึดตัวเลขผลทดสอบตามที่รายงาน การเดิมพันของ Anthropic ให้ผลลัพธ์ที่แข็งแรงกว่าบนการทดสอบที่เทียบกันได้ ขณะที่ของ Sakana ให้สิ่งที่ พร้อมใช้งาน และราคาถูกกว่า

Sakana Fugu ดีกว่า Claude Fable 5 ไหม?

ทำไม Fable 5 ไม่อยู่ในตารางผลทดสอบของ Fugu?

Sakana ตัด Fable 5 และ Mythos Preview ออก เพราะไม่สามารถเข้าถึงได้สาธารณะและจึงไม่สามารถเป็นส่วนหนึ่งของสระเอเจนต์ของ Fugu ได้ การเปรียบเทียบทางการจึงเทียบกับ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro ซึ่ง Fugu Ultra ชนะ 10 จาก 11 รายการ

ตัวไหนถูกกว่า?

Fable 5 จะกลับมาไหม?

Fugu แก้ปัญหาการระงับของ Fable 5 ได้จริงหรือไม่?

หัวข้อ

ปัญญาประดิษฐ์

เรียนรู้ AI กับ DataCamp

Tracks

AI สำหรับวิศวกรรมซอฟต์แวร์

7 ชม.

เขียนโค้ดและสร้างแอปพลิเคชันซอฟต์แวร์ได้เร็วขึ้นกว่าที่เคยด้วยเครื่องมือสำหรับนักพัฒนา AI ล่าสุด รวมถึง GitHub Copilot, Windsurf และ Replit.

ดูรายละเอียด

เริ่มหลักสูตร

Courses

Software Development with Claude Code

4 ชม.

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

ดูรายละเอียด

เริ่มหลักสูตร

Courses

Introduction to Agent Skills

2 30

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

ดูรายละเอียด

เริ่มหลักสูตร

ดูเพิ่มเติม

Sakana Fugu คืออะไร?

Claude Fable 5 คืออะไร?

Sakana Fugu vs. Claude Fable 5: ผลทดสอบ

Sakana Fugu vs. Claude Fable 5: ความพร้อมใช้งานและการเข้าถึง

ข้อคิดส่งท้าย

Sakana Fugu vs. Claude Fable คำถามที่พบบ่อย

ตัวไหนถูกกว่า?

Fable 5 จะกลับมาไหม?

Fugu แก้ปัญหาการระงับของ Fable 5 ได้จริงหรือไม่?

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}AI สำหรับวิศวกรรมซอฟต์แวร์

Software Development with Claude Code

Introduction to Agent Skills

AI สำหรับวิศวกรรมซอฟต์แวร์