ข้ามไปยังเนื้อหาหลัก

Sakana Fugu เทียบกับ Claude Fable 5: ผลทดสอบ ราคา และอื่น ๆ

Claude Fable 5 ชนะบนผลทดสอบแต่ถูกระงับการใช้งานชั่วคราว ส่วน Sakana Fugu พร้อมใช้งานแล้วและมีราคาครึ่งหนึ่ง
อัปเดตแล้ว 25 มิ.ย. 2569  · 6 นาที อ่าน

Sakana โฆษณา Fugu ว่าเทียบชั้นกับ Fable 5 แต่กลับไม่ใส่ Fable 5 ไว้ในตารางผลทดสอบของตนเอง ดังนั้นเราจะเปรียบเทียบสองโมเดลนี้แบบเคียงข้างกันเท่าที่ข้อมูลเอื้ออำนวย

เกริ่นก่อนเล็กน้อย รัฐบาลสหรัฐฯ ระงับการเข้าถึงสาธารณะของ Claude Fable 5 เพียงสามวันหลัง Anthropic เปิดตัว และ Fable 5 ก็ถูกโปรโมตว่าเป็นโมเดลที่ทรงพลังที่สุดของค่าย ตอนนี้ผ่านมาสองสัปดาห์ Sakana AI จากโตเกียวได้ปล่อย Fugu พร้อมคำกล่าวอ้างที่ยิ่งใหญ่ โดยเฉพาะหนึ่งข้อที่ถูกพูดถึงมาก: Sakana AI ระบุว่า Fugu Ultra “ยืนเคียงบ่าเคียงไหล่กับโมเดลชั้นนำอย่าง Fable 5 และ Mythos Preview” บนชุดผลทดสอบด้านวิศวกรรม วิทยาศาสตร์ และการให้เหตุผลที่ยากที่สุดของอุตสาหกรรม โดยไม่มีความเสี่ยงด้านการควบคุมการส่งออก ซีอีโอ David Ha กล่าวบน X ว่า Fugu เป็นหลักฐานว่า “สระตัวแทน” ที่สลับสับเปลี่ยนได้และทำงานประสานกันสามารถทัดเทียมโมเดลแนวหน้าที่ถูกจำกัดอย่าง Fable ได้

คำกล่าวอ้างนี้ตรวจสอบได้ยากเล็กน้อยเพราะ Fable 5 ไม่อยู่ในตารางผลทดสอบของ Fugu เลย Sakana ตัดออกโดยให้เหตุผลว่าไม่สามารถเข้าถึงได้สาธารณะ เราจึงทำเท่าที่ทำได้: ตรวจเทียบกับผลทดสอบไม่กี่รายการที่ปรากฏในตารางที่เผยแพร่ของทั้งสองค่ายและมีฐานเทียบเดียวกัน และเพื่อตบท้าย เราจะคุยเรื่องราคาและสถานะการเข้าถึง

หากต้องการพื้นฐานของแต่ละระบบแบบแยกกัน เรามีบล็อกให้อ่าน: ดู บทความครอบคลุม Claude Fable 5 และ สรุป Sakana Fugu ของเรา

Sakana Fugu คืออะไร?

Sakana Fugu ไม่ใช่โมเดลเดียวที่ผ่านการฝึกในความหมายปกติ มันคือ “ผู้ประสานงาน” (orchestrator): โมเดลที่รับคำร้องของผู้ใช้ ตัดสินใจว่าจะตอบโดยตรงหรือมอบหมายให้โมเดลผู้เชี่ยวชาญในสระ ดูแลการตรวจทานและการสังเคราะห์คำตอบ แล้วส่งคำตอบเดียวกลับมาผ่าน API ที่เข้ากันได้กับ OpenAI มองจากภายนอกคุณเรียกใช้เพียงเอ็นด์พอยต์เดียว; ภายในเป็นชุดโมเดลแนวหน้าที่ทำงานประสานกัน

มีสองรุ่นย่อยให้เลือก Fugu ให้สมดุลระหว่างคุณภาพกับความหน่วงต่ำ เหมาะเป็นค่ามาตรฐานสำหรับงานโค้ด รีวิว และบริการเชิงโต้ตอบรายวัน ส่วน Fugu Ultra ประสานงานสระเอเจนต์ผู้เชี่ยวชาญที่ลึกกว่า ปรับจูนเพื่อคุณภาพคำตอบสูงสุดสำหรับปัญหายากหลายขั้นตอน — การทำซ้ำงานวิจัยจากงานวิชาการ วิเคราะห์ความปลอดภัยไซเบอร์ งานข้อมูลสไตล์ Kaggle การสืบค้นสิทธิบัตร

แนวคิดนี้จริง ๆ มีสองชั้น

  • หนึ่ง, การประสานงานแบบเรียนรู้ได้: ตัวประสานงานถูกฝึกให้ตัดสินใจว่าเมื่อใดควรมอบหมายและจะรวมผลลัพธ์อย่างไร แทนที่จะเป็นไปป์ไลน์ที่เขียนเงื่อนไขด้วยมือ
  • สอง, สระเอเจนต์ที่สลับได้: เมื่อมีโมเดลแนวหน้าใหม่ที่เข้าถึงได้สาธารณะ Sakana คาดว่าจะใช้เวลาราวสองสัปดาห์ในการบรรจุเข้าไป (สำคัญสำหรับบทความที่เหลือ: Fable 5 ไม่อยู่ในสระนั้นเพราะไม่สามารถเข้าถึงได้สาธารณะ)

Claude Fable 5 คืออะไร?

Claude Fable 5 เป็นโมเดลระดับ Mythos ซึ่งเป็นชั้นที่ Anthropic จัดวางให้อยู่เหนือชั้น Opus และทำให้ปลอดภัยต่อการใช้งานทั่วไปผ่านชุดตัวจำแนก มันใช้โมเดลพื้นฐานเดียวกับ Claude Mythos 5; ความต่างคือ Fable 5 ทำงาน (เคยทำงาน) พร้อมตัวจำแนกความปลอดภัย ขณะที่ Mythos 5 ยกเลิกบางตัวและจำกัดไว้สำหรับพาร์ทเนอร์ Project Glasswing และนักวิจัยชีววิทยาบางส่วน

Anthropic อ้างว่า Fable 5 ทำสถิติดีที่สุดในเกือบทุกผลทดสอบที่ Anthropic ติดตาม โดยทิ้งห่างมากขึ้นเมื่อเป็นงานที่ยาวและซับซ้อน รายละเอียดเชิงปฏิบัติที่สำคัญ: เมื่อคำถามแตะเรื่องความปลอดภัยไซเบอร์ ชีววิทยา/เคมี หรือการกลั่นโมเดล ระบบตัวจำแนกสองขั้นจะเปลี่ยนเส้นทางคำตอบไปยัง Claude Opus 4.8 และแจ้งผู้ใช้ว่าทำเช่นนั้น

Sakana Fugu vs. Claude Fable 5: ผลทดสอบ

ตารางเปรียบเทียบที่เผยแพร่ของ Sakana ไม่รวม Fable 5 และ Mythos Preview โดยให้เหตุผลว่าไม่สามารถเข้าถึงได้สาธารณะและจึงไม่สามารถอยู่ในสระของ Fugu ได้ ดังนั้นตัวเลขทางการของ Fugu จึงเทียบกับ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro ทั้งหมดนี้เห็นได้ในตารางด้านล่าง จะเห็นว่า Fugu ชนะ 10 จาก 11 ผลทดสอบ

ผลทดสอบ Fugu Fugu Ultra Opus 4.8 † Gemini 3.1 Pro † GPT-5.5 †
SWE-Bench Pro * 59.0 73.7 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 49.8 44.4 41.4
CharXiv Reasoning 85.1 86.6 84.2 83.3 84.1
GPQA-D 95.5 95.5 92.0 94.3 93.6
SciCode 60.1 58.7 53.5 58.9 56.1
τ³ Banking 21.7 20.6 20.6 8.4 20.6
Long Context Reasoning 74.7 73.3 67.7 72.7 74.3
MRCRv2 86.6 93.6 87.9 84.9 94.8

* ใช้โครง mini-swe-agent † ค่าฐานที่ผู้ให้บริการรายงาน คะแนนของ Fugu ทั้งหมดเป็นตัวเลขที่ Sakana รายงานและยังไม่ถูกทำซ้ำโดยอิสระ

เพื่อให้ Fable 5 เข้ามาอยู่ในภาพ ฉันได้อ้างอิงไขว้ผลทดสอบที่ปรากฏทั้งในตารางของ Anthropic และของ Sakana และตรวจว่าค่าฐานที่ใช้ร่วมกันตรงกัน บน SWE-Bench Pro และ Humanity's Last Exam (ไม่ใช้เครื่องมือ) ตัวเลขของ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro เหมือนกันทั้งสองแหล่ง — ดังนั้นสองการเปรียบเทียบนี้จึงสะอาด ลดเหลือแค่สองระบบแบบตัวต่อตัวจะเป็นดังนี้:

ผลทดสอบ Sakana Fugu Sakana Fugu Ultra Claude Fable 5 ผู้นำ
SWE-Bench Pro 59.0 73.7 80.3 Fable 5 (+6.6)
Humanity's Last Exam (ไม่ใช้เครื่องมือ) 47.2 50.0 59.0 Fable 5 (+9.0)
Terminal-Bench 2.1 ‡ 80.2 82.1 88.0 Fable 5 (+5.9)

‡ ห้องแล็บทั้งสองรายงานค่าฐานต่างกันและใช้โครงสำหรับ TerminalBench ต่างกัน เงื่อนไขจึงไม่เหมือนกันทั้งหมด

สามรายการนี้คือผลทดสอบเดียวที่ปรากฏในตารางที่เผยแพร่ของทั้งสองค่ายและมีค่าฐานที่ตรงกัน นั่นเป็นเหตุผลที่ส่วนที่เหลือต้องคงการเปรียบเทียบเชิงคุณภาพไว้ Fable 5 นำทั้งสาม

ดังนั้น บนทุกผลทดสอบที่พอจะวางเทียบกันได้ Fable 5 ทำคะแนนนำหน้า Fugu Ultra ราว 6–9 คะแนน ซึ่งสอดคล้องกับจุดที่ Fable 5 ถูกสร้างมาให้ชนะ คือภารกิจระยะยาวที่ให้คะแนนตอนจบ ซึ่งโมเดลเดี่ยวที่แข็งแรงกว่าจะสะสมความผิดพลาดซ้อนทบน้อยกว่า

สรุป:

  1. ตัวเลขของ Fugu ทั้งหมดเป็นการรายงานด้วยตนเอง และยังไม่ปรากฏในลีดเดอร์บอร์ดของบุคคลที่สาม
  2. Sakana บรรยาย Fugu ว่า “ยืนเคียงบ่าเคียงไหล่” กับ Fable 5 และ Mythos Preview เมื่อดูจากช่องว่างด้านบน นั่นอาจพอป้องกันได้แต่ก็กว้างใจ “ใกล้เคียงแต่ตามหลัง” จะตรงกว่า
  3. ชุดเปรียบเทียบซ้อนทับกันเพียงบางส่วน Fable 5 เด่นด้านวิชัน (สามารถสร้างซอร์สของเว็บแอปจากภาพหน้าจอ) ซึ่ง Fugu ไม่ได้เน้นเลย; ขณะที่ Fugu เผยแพร่ผลทดสอบบริบทยาวและธนาคารที่ตารางของ Anthropic ไม่ครอบคลุม ดังนั้นทั้งสองจึงถูกปรับให้เหมาะกับงานคนละทรง

Sakana Fugu vs. Claude Fable 5: ความพร้อมใช้งานและการเข้าถึง

Claude Fable 5 ถูกระงับการใช้งานชั่วคราว Anthropic ถอนการเข้าถึง Fable 5 และ Mythos 5 เมื่อวันที่ 12 มิถุนายน ภายหลังคำสั่งควบคุมการส่งออกของรัฐบาลสหรัฐฯ และระบุว่ากำลังทำงานเพื่อกู้คืนการเข้าถึงโดยเร็วที่สุด โมเดลอื่นของ Anthropic อย่าง Opus 4.8 ยังใช้งานได้

Sakana Fugu พร้อมใช้งานแล้ว ผ่าน console.sakana.ai ด้วย API ที่เข้ากันได้กับ OpenAI — ยกเว้น ในสหภาพยุโรปและเขตเศรษฐกิจยุโรป ซึ่ง Sakana หยุดให้บริการชั่วคราวระหว่างดำเนินการให้สอดคล้องกับ GDPR ฉันยังไม่ได้ไทม์ไลน์ที่แน่ชัด

ณ ตอนนี้ ทีมในยุโรปอาจไม่สามารถใช้โมเดลใดโมเดลหนึ่งได้เลย

ข้อคิดส่งท้าย

บนกระดาษ นี่คือศึกที่สูสีและจริงจังระหว่างสองปรัชญา

Anthropic คิดเรื่องการสเกล — โมเดลระดับ Mythos เดียวที่ทรงพลังจนต้องมีระบบตัวจำแนกคู่ขนาน

Sakana เดิมพันกับการประสานงาน — ว่าผู้ประสานงานที่ผ่านการฝึกเหนือสระเอเจนต์ที่สลับได้จะสามารถอยู่ในระยะประชิดของโมเดลแนวหน้าเดี่ยวใด ๆ พร้อมทั้งถูกกว่า ยืดหยุ่นกว่า และไม่ยึดติดผู้ให้บริการ

หากยึดตัวเลขผลทดสอบตามที่รายงาน การเดิมพันของ Anthropic ให้ผลลัพธ์ที่แข็งแรงกว่าบนการทดสอบที่เทียบกันได้ ขณะที่ของ Sakana ให้สิ่งที่ พร้อมใช้งาน และราคาถูกกว่า

Sakana Fugu vs. Claude Fable คำถามที่พบบ่อย

Sakana Fugu ดีกว่า Claude Fable 5 ไหม?

บนผลทดสอบที่สามารถเปรียบเทียบแบบเคียงข้างกันได้ (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench) Fable 5 นำหน้า Fugu Ultra ราว 6–9 คะแนน

ทำไม Fable 5 ไม่อยู่ในตารางผลทดสอบของ Fugu?

Sakana ตัด Fable 5 และ Mythos Preview ออก เพราะไม่สามารถเข้าถึงได้สาธารณะและจึงไม่สามารถเป็นส่วนหนึ่งของสระเอเจนต์ของ Fugu ได้ การเปรียบเทียบทางการจึงเทียบกับ Opus 4.8, GPT-5.5 และ Gemini 3.1 Pro ซึ่ง Fugu Ultra ชนะ 10 จาก 11 รายการ

ตัวไหนถูกกว่า?

Fugu Ultra ที่ $5/ล้านโทเค็นขาเข้า และ $30/ล้านโทเค็นขาออก มีราคาประมาณครึ่งหนึ่งของ Fable 5 ที่ $10/ล้านโทเค็นขาเข้า และ $50/ล้านโทเค็นขาออก ทั้งสองมีแพ็กเกจสมัครสมาชิกรายเดือน $20/$100/$200

Fable 5 จะกลับมาไหม?

Anthropic ระบุว่ากำลังทำงานเพื่อกู้คืนการเข้าถึง Fable 5 และ Mythos 5 โดยเร็วที่สุด แต่ยังไม่ประกาศไทม์ไลน์ โมเดลอื่น ๆ รวมถึง Opus 4.8 ยังคงใช้งานได้ในระหว่างนี้

Fugu แก้ปัญหาการระงับของ Fable 5 ได้จริงหรือไม่?

ไม่โดยตรง — Fable 5 ไม่เคยอยู่ในสระของ Fugu ดังนั้น Fugu จึงไม่สามารถกู้คืนความสามารถเฉพาะของมันได้

หัวข้อ

เรียนรู้ AI กับ DataCamp

Tracks

AI สำหรับวิศวกรรมซอฟต์แวร์

7 ชม.
เขียนโค้ดและสร้างแอปพลิเคชันซอฟต์แวร์ได้เร็วขึ้นกว่าที่เคยด้วยเครื่องมือสำหรับนักพัฒนา AI ล่าสุด รวมถึง GitHub Copilot, Windsurf และ Replit.
ดูรายละเอียดRight Arrow
เริ่มหลักสูตร
ดูเพิ่มเติมRight Arrow