Tracks
Sakana โฆษณา Fugu ว่าเทียบชั้นกับ Fable 5 แต่กลับไม่ใส่ Fable 5 ไว้ในตารางผลทดสอบของตนเอง ดังนั้นเราจะเปรียบเทียบสองโมเดลนี้แบบเคียงข้างกันเท่าที่ข้อมูลเอื้ออำนวย
เกริ่นก่อนเล็กน้อย รัฐบาลสหรัฐฯ ระงับการเข้าถึงสาธารณะของ Claude Fable 5 เพียงสามวันหลัง Anthropic เปิดตัว และ Fable 5 ก็ถูกโปรโมตว่าเป็นโมเดลที่ทรงพลังที่สุดของค่าย ตอนนี้ผ่านมาสองสัปดาห์ Sakana AI จากโตเกียวได้ปล่อย Fugu พร้อมคำกล่าวอ้างที่ยิ่งใหญ่ โดยเฉพาะหนึ่งข้อที่ถูกพูดถึงมาก: Sakana AI ระบุว่า Fugu Ultra “ยืนเคียงบ่าเคียงไหล่กับโมเดลชั้นนำอย่าง Fable 5 และ Mythos Preview” บนชุดผลทดสอบด้านวิศวกรรม วิทยาศาสตร์ และการให้เหตุผลที่ยากที่สุดของอุตสาหกรรม โดยไม่มีความเสี่ยงด้านการควบคุมการส่งออก ซีอีโอ David Ha กล่าวบน X ว่า Fugu เป็นหลักฐานว่า “สระตัวแทน” ที่สลับสับเปลี่ยนได้และทำงานประสานกันสามารถทัดเทียมโมเดลแนวหน้าที่ถูกจำกัดอย่าง Fable ได้
คำกล่าวอ้างนี้ตรวจสอบได้ยากเล็กน้อยเพราะ Fable 5 ไม่อยู่ในตารางผลทดสอบของ Fugu เลย Sakana ตัดออกโดยให้เหตุผลว่าไม่สามารถเข้าถึงได้สาธารณะ เราจึงทำเท่าที่ทำได้: ตรวจเทียบกับผลทดสอบไม่กี่รายการที่ปรากฏในตารางที่เผยแพร่ของทั้งสองค่ายและมีฐานเทียบเดียวกัน และเพื่อตบท้าย เราจะคุยเรื่องราคาและสถานะการเข้าถึง
หากต้องการพื้นฐานของแต่ละระบบแบบแยกกัน เรามีบล็อกให้อ่าน: ดู บทความครอบคลุม Claude Fable 5 และ สรุป Sakana Fugu ของเรา
Sakana Fugu คืออะไร?
Sakana Fugu ไม่ใช่โมเดลเดียวที่ผ่านการฝึกในความหมายปกติ มันคือ “ผู้ประสานงาน” (orchestrator): โมเดลที่รับคำร้องของผู้ใช้ ตัดสินใจว่าจะตอบโดยตรงหรือมอบหมายให้โมเดลผู้เชี่ยวชาญในสระ ดูแลการตรวจทานและการสังเคราะห์คำตอบ แล้วส่งคำตอบเดียวกลับมาผ่าน API ที่เข้ากันได้กับ OpenAI มองจากภายนอกคุณเรียกใช้เพียงเอ็นด์พอยต์เดียว; ภายในเป็นชุดโมเดลแนวหน้าที่ทำงานประสานกัน
มีสองรุ่นย่อยให้เลือก Fugu ให้สมดุลระหว่างคุณภาพกับความหน่วงต่ำ เหมาะเป็นค่ามาตรฐานสำหรับงานโค้ด รีวิว และบริการเชิงโต้ตอบรายวัน ส่วน Fugu Ultra ประสานงานสระเอเจนต์ผู้เชี่ยวชาญที่ลึกกว่า ปรับจูนเพื่อคุณภาพคำตอบสูงสุดสำหรับปัญหายากหลายขั้นตอน — การทำซ้ำงานวิจัยจากงานวิชาการ วิเคราะห์ความปลอดภัยไซเบอร์ งานข้อมูลสไตล์ Kaggle การสืบค้นสิทธิบัตร
แนวคิดนี้จริง ๆ มีสองชั้น
- หนึ่ง, การประสานงานแบบเรียนรู้ได้: ตัวประสานงานถูกฝึกให้ตัดสินใจว่าเมื่อใดควรมอบหมายและจะรวมผลลัพธ์อย่างไร แทนที่จะเป็นไปป์ไลน์ที่เขียนเงื่อนไขด้วยมือ
- สอง, สระเอเจนต์ที่สลับได้: เมื่อมีโมเดลแนวหน้าใหม่ที่เข้าถึงได้สาธารณะ Sakana คาดว่าจะใช้เวลาราวสองสัปดาห์ในการบรรจุเข้าไป (สำคัญสำหรับบทความที่เหลือ: Fable 5 ไม่อยู่ในสระนั้นเพราะไม่สามารถเข้าถึงได้สาธารณะ)
Claude Fable 5 คืออะไร?
Claude Fable 5 เป็นโมเดลระดับ Mythos ซึ่งเป็นชั้นที่ Anthropic จัดวางให้อยู่เหนือชั้น Opus และทำให้ปลอดภัยต่อการใช้งานทั่วไปผ่านชุดตัวจำแนก มันใช้โมเดลพื้นฐานเดียวกับ Claude Mythos 5; ความต่างคือ Fable 5 ทำงาน (เคยทำงาน) พร้อมตัวจำแนกความปลอดภัย ขณะที่ Mythos 5 ยกเลิกบางตัวและจำกัดไว้สำหรับพาร์ทเนอร์ Project Glasswing และนักวิจัยชีววิทยาบางส่วน
Anthropic อ้างว่า Fable 5 ทำสถิติดีที่สุดในเกือบทุกผลทดสอบที่ Anthropic ติดตาม โดยทิ้งห่างมากขึ้นเมื่อเป็นงานที่ยาวและซับซ้อน รายละเอียดเชิงปฏิบัติที่สำคัญ: เมื่อคำถามแตะเรื่องความปลอดภัยไซเบอร์ ชีววิทยา/เคมี หรือการกลั่นโมเดล ระบบตัวจำแนกสองขั้นจะเปลี่ยนเส้นทางคำตอบไปยัง Claude Opus 4.8 และแจ้งผู้ใช้ว่าทำเช่นนั้น
Sakana Fugu vs. Claude Fable 5: ผลทดสอบ
ตารางเปรียบเทียบที่เผยแพร่ของ Sakana ไม่รวม Fable 5 และ Mythos Preview โดยให้เหตุผลว่าไม่สามารถเข้าถึงได้สาธารณะและจึงไม่สามารถอยู่ในสระของ Fugu ได้ ดังนั้นตัวเลขทางการของ Fugu จึงเทียบกับ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro ทั้งหมดนี้เห็นได้ในตารางด้านล่าง จะเห็นว่า Fugu ชนะ 10 จาก 11 ผลทดสอบ
| ผลทดสอบ | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* ใช้โครง mini-swe-agent † ค่าฐานที่ผู้ให้บริการรายงาน คะแนนของ Fugu ทั้งหมดเป็นตัวเลขที่ Sakana รายงานและยังไม่ถูกทำซ้ำโดยอิสระ
เพื่อให้ Fable 5 เข้ามาอยู่ในภาพ ฉันได้อ้างอิงไขว้ผลทดสอบที่ปรากฏทั้งในตารางของ Anthropic และของ Sakana และตรวจว่าค่าฐานที่ใช้ร่วมกันตรงกัน บน SWE-Bench Pro และ Humanity's Last Exam (ไม่ใช้เครื่องมือ) ตัวเลขของ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro เหมือนกันทั้งสองแหล่ง — ดังนั้นสองการเปรียบเทียบนี้จึงสะอาด ลดเหลือแค่สองระบบแบบตัวต่อตัวจะเป็นดังนี้:
| ผลทดสอบ | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | ผู้นำ |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (ไม่ใช้เครื่องมือ) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ ห้องแล็บทั้งสองรายงานค่าฐานต่างกันและใช้โครงสำหรับ TerminalBench ต่างกัน เงื่อนไขจึงไม่เหมือนกันทั้งหมด
สามรายการนี้คือผลทดสอบเดียวที่ปรากฏในตารางที่เผยแพร่ของทั้งสองค่ายและมีค่าฐานที่ตรงกัน นั่นเป็นเหตุผลที่ส่วนที่เหลือต้องคงการเปรียบเทียบเชิงคุณภาพไว้ Fable 5 นำทั้งสาม
ดังนั้น บนทุกผลทดสอบที่พอจะวางเทียบกันได้ Fable 5 ทำคะแนนนำหน้า Fugu Ultra ราว 6–9 คะแนน ซึ่งสอดคล้องกับจุดที่ Fable 5 ถูกสร้างมาให้ชนะ คือภารกิจระยะยาวที่ให้คะแนนตอนจบ ซึ่งโมเดลเดี่ยวที่แข็งแรงกว่าจะสะสมความผิดพลาดซ้อนทบน้อยกว่า
สรุป:
- ตัวเลขของ Fugu ทั้งหมดเป็นการรายงานด้วยตนเอง และยังไม่ปรากฏในลีดเดอร์บอร์ดของบุคคลที่สาม
- Sakana บรรยาย Fugu ว่า “ยืนเคียงบ่าเคียงไหล่” กับ Fable 5 และ Mythos Preview เมื่อดูจากช่องว่างด้านบน นั่นอาจพอป้องกันได้แต่ก็กว้างใจ “ใกล้เคียงแต่ตามหลัง” จะตรงกว่า
- ชุดเปรียบเทียบซ้อนทับกันเพียงบางส่วน Fable 5 เด่นด้านวิชัน (สามารถสร้างซอร์สของเว็บแอปจากภาพหน้าจอ) ซึ่ง Fugu ไม่ได้เน้นเลย; ขณะที่ Fugu เผยแพร่ผลทดสอบบริบทยาวและธนาคารที่ตารางของ Anthropic ไม่ครอบคลุม ดังนั้นทั้งสองจึงถูกปรับให้เหมาะกับงานคนละทรง
Sakana Fugu vs. Claude Fable 5: ความพร้อมใช้งานและการเข้าถึง
Claude Fable 5 ถูกระงับการใช้งานชั่วคราว Anthropic ถอนการเข้าถึง Fable 5 และ Mythos 5 เมื่อวันที่ 12 มิถุนายน ภายหลังคำสั่งควบคุมการส่งออกของรัฐบาลสหรัฐฯ และระบุว่ากำลังทำงานเพื่อกู้คืนการเข้าถึงโดยเร็วที่สุด โมเดลอื่นของ Anthropic อย่าง Opus 4.8 ยังใช้งานได้
Sakana Fugu พร้อมใช้งานแล้ว ผ่าน console.sakana.ai ด้วย API ที่เข้ากันได้กับ OpenAI — ยกเว้น ในสหภาพยุโรปและเขตเศรษฐกิจยุโรป ซึ่ง Sakana หยุดให้บริการชั่วคราวระหว่างดำเนินการให้สอดคล้องกับ GDPR ฉันยังไม่ได้ไทม์ไลน์ที่แน่ชัด
ณ ตอนนี้ ทีมในยุโรปอาจไม่สามารถใช้โมเดลใดโมเดลหนึ่งได้เลย
ข้อคิดส่งท้าย
บนกระดาษ นี่คือศึกที่สูสีและจริงจังระหว่างสองปรัชญา
Anthropic คิดเรื่องการสเกล — โมเดลระดับ Mythos เดียวที่ทรงพลังจนต้องมีระบบตัวจำแนกคู่ขนาน
Sakana เดิมพันกับการประสานงาน — ว่าผู้ประสานงานที่ผ่านการฝึกเหนือสระเอเจนต์ที่สลับได้จะสามารถอยู่ในระยะประชิดของโมเดลแนวหน้าเดี่ยวใด ๆ พร้อมทั้งถูกกว่า ยืดหยุ่นกว่า และไม่ยึดติดผู้ให้บริการ
หากยึดตัวเลขผลทดสอบตามที่รายงาน การเดิมพันของ Anthropic ให้ผลลัพธ์ที่แข็งแรงกว่าบนการทดสอบที่เทียบกันได้ ขณะที่ของ Sakana ให้สิ่งที่ พร้อมใช้งาน และราคาถูกกว่า
Sakana Fugu vs. Claude Fable คำถามที่พบบ่อย
Sakana Fugu ดีกว่า Claude Fable 5 ไหม?
บนผลทดสอบที่สามารถเปรียบเทียบแบบเคียงข้างกันได้ (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench) Fable 5 นำหน้า Fugu Ultra ราว 6–9 คะแนน
ทำไม Fable 5 ไม่อยู่ในตารางผลทดสอบของ Fugu?
Sakana ตัด Fable 5 และ Mythos Preview ออก เพราะไม่สามารถเข้าถึงได้สาธารณะและจึงไม่สามารถเป็นส่วนหนึ่งของสระเอเจนต์ของ Fugu ได้ การเปรียบเทียบทางการจึงเทียบกับ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro ซึ่ง Fugu Ultra ชนะ 10 จาก 11 รายการ
ตัวไหนถูกกว่า?
Fugu Ultra ที่ $5/ล้านโทเค็นขาเข้า และ $30/ล้านโทเค็นขาออก มีราคาประมาณครึ่งหนึ่งของ Fable 5 ที่ $10/ล้านโทเค็นขาเข้า และ $50/ล้านโทเค็นขาออก ทั้งสองมีแพ็กเกจสมัครสมาชิกรายเดือน $20/$100/$200
Fable 5 จะกลับมาไหม?
Anthropic ระบุว่ากำลังทำงานเพื่อกู้คืนการเข้าถึง Fable 5 และ Mythos 5 โดยเร็วที่สุด แต่ยังไม่ประกาศไทม์ไลน์ โมเดลอื่น ๆ รวมถึง Opus 4.8 ยังคงใช้งานได้ในระหว่างนี้
Fugu แก้ปัญหาการระงับของ Fable 5 ได้จริงหรือไม่?
ไม่โดยตรง — Fable 5 ไม่เคยอยู่ในสระของ Fugu ดังนั้น Fugu จึงไม่สามารถกู้คืนความสามารถเฉพาะของมันได้