Track
Sakana Fugu को Fable 5 के बराबर बताता है, लेकिन अपने ही बेंचमार्क टेबल से Fable 5 को बाहर रखता है। इसलिए, हम इन दोनों मॉडलों की यथासंभव सीधे तुलना करने जा रहे हैं।
पृष्ठभूमि यह है: Anthropic ने Claude Fable 5 लॉन्च करने के मुश्किल से तीन दिन बाद ही अमेरिकी सरकार ने इसके सार्वजनिक एक्सेस को निलंबित कर दिया। और Fable 5 को इसका सबसे सक्षम मॉडल बताया गया था। अब, दो हफ्ते बाद, टोक्यो की Sakana AI ने बड़े दावों के साथ Fugu जारी किया है। एक दावा खास तौर पर चर्चा में रहा: Sakana AI का कहना है कि Fugu Ultra उद्योग के सबसे कठिन इंजीनियरिंग, विज्ञान, और तर्क-बेंचमार्क्स पर "Fable 5 और Mythos Preview जैसे अग्रणी मॉडलों के समकक्ष" खड़ा है, और वह भी बिना किसी निर्यात-नियंत्रण जोखिम के। CEO David Ha ने X पर कहा कि Fugu इस बात का सबूत है कि व्यवस्थित एजेंटों का स्वैपेबल पूल, Fable जैसे प्रतिबंधित फ्रंटियर मॉडलों की बराबरी कर सकता है।
इन दावों को परखना थोड़ा कठिन है क्योंकि Fable 5 Fugu के बेंचमार्क टेबल में है ही नहीं। Sakana इसे इसलिए बाहर रखता है क्योंकि यह सार्वजनिक रूप से सुलभ नहीं है। हम जो संभव है, वह कर रहे हैं: हम उन चंद बेंचमार्क्स की जांच कर रहे हैं जो दोनों लैब्स की प्रकाशित तालिकाओं में मिलते हैं और जिनके बेसलाइन समान हैं। और अंत में, हम कीमतों और एक्सेस की स्थिति पर बात करेंगे।
यदि आप दोनों सिस्टम्स की अलग-अलग पृष्ठभूमि चाहते हैं, तो हमारे ब्लॉग पढ़ें: हमारा Claude Fable 5 कवरेज और Sakana Fugu विवरण देखें।
Sakana Fugu क्या है?
Sakana Fugu पारंपरिक अर्थों में एक एकल प्रशिक्षित मॉडल नहीं है। यह एक ऑर्केस्ट्रेटर है: ऐसा मॉडल जो आपका अनुरोध प्राप्त करता है, तय करता है कि सीधे उत्तर देना है या पूल में मौजूद विशेषज्ञ मॉडलों को सौंपना है, सत्यापन और संयोजन का प्रबंध करता है, और एक OpenAI-संगत API के माध्यम से एकल उत्तर लौटाता है। बाहर से आप एक एंडपॉइंट कॉल करते हैं; अंदर एक समन्वित फ्रंटियर मॉडलों का सेट काम करता है।
यह दो वेरिएंट में आता है। Fugu गुणवत्ता और कम विलंबता का संतुलन करता है और कोडिंग, रिव्यू और इंटरैक्टिव सेवाओं के लिए रोज़मर्रा का डिफ़ॉल्ट माना गया है। Fugu Ultra विशेषज्ञ एजेंटों के एक गहरे पूल का समन्वय करता है और कठिन, बहु-चरण समस्याओं — पेपर पुनरुत्पादन, साइबर सुरक्षा विश्लेषण, Kaggle-शैली डेटा विज्ञान, पेटेंट जांच — पर अधिकतम उत्तर-गुणवत्ता के लिए ट्यून किया गया है।
यह विचार दरअसल दो विचार हैं।
- पहला, सीखा हुआ ऑर्केस्ट्रेशन: समन्वयक को यह तय करने के लिए प्रशिक्षित किया जाता है कि कब डेलीगेट करना है और आउटपुट्स को कैसे संयोजित करना है, न कि किसी हाथ से लिखी पाइपलाइन चलाने के लिए।
- दूसरा, स्वैपेबल एजेंट पूल: जब कोई नया फ्रंटियर मॉडल सार्वजनिक रूप से उपलब्ध होता है, तो Sakana को उसे शामिल करने में लगभग दो सप्ताह लगने की उम्मीद है। (लेख के बाकी हिस्से के लिए महत्वपूर्ण: Fable 5 उस पूल में नहीं है क्योंकि यह सार्वजनिक रूप से सुलभ नहीं है।)
Claude Fable 5 क्या है?
Claude Fable 5 एक Mythos-श्रेणी का मॉडल है, जो Anthropic की Opus श्रेणी से ऊपर स्थित टियर है, जिसे क्लासिफ़ायरों के सेट के माध्यम से सामान्य उपयोग के लिए सुरक्षित बनाया गया है। यह Claude Mythos 5 जैसा ही आधारभूत मॉडल है; अंतर यह है कि Fable 5 सुरक्षा क्लासिफ़ायर सक्रिय अवस्था में चलता था, जबकि Mythos 5 में कुछ क्लासिफ़ायर हटाए गए हैं और वह Project Glasswing पार्टनर्स और चुनिंदा जीवविज्ञान शोधकर्ताओं तक सीमित है।
Anthropic का दावा था कि Fable 5, Anthropic द्वारा ट्रैक किए जाने वाले लगभग हर बेंचमार्क पर अत्याधुनिक है, और लंबे, अधिक जटिल कार्यों पर बढ़त और भी बढ़ जाती है। मुख्य व्यावहारिक बात: जब कोई क्वेरी साइबर सुरक्षा, जीवविज्ञान/रसायन, या मॉडल डिस्टिलेशन से संबद्ध होती है, तो दो-स्तरीय क्लासिफ़ायर प्रतिक्रिया को Claude Opus 4.8 की ओर निर्देशित करता है और उपयोगकर्ता को इसकी सूचना देता है।
Sakana Fugu बनाम Claude Fable 5: बेंचमार्क्स
Sakana की प्रकाशित तुलना तालिका में Fable 5 और Mythos Preview को शामिल नहीं किया गया है, यह कहते हुए कि वे सार्वजनिक रूप से सुलभ नहीं हैं और इसलिए Fugu के पूल में नहीं हो सकते। इसलिए Fugu के आधिकारिक आंकड़ों की तुलना Opus 4.8, GPT-5.5, और Gemini 3.1 Pro से की गई है, जो आप नीचे तालिका में देख सकते हैं। इसमें आप 11 में से 10 बेंचमार्क्स पर इसकी बढ़त देख सकते हैं।
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 † | Gemini 3.1 Pro † | GPT-5.5 † |
|---|---|---|---|---|---|
| SWE-Bench Pro * | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
* mini-swe-agent स्कैफ़ोल्डिंग। † प्रदाता-रिपोर्टेड बेसलाइन्स। सभी Fugu स्कोर Sakana द्वारा रिपोर्ट किए गए हैं और अभी स्वतंत्र रूप से पुनरुत्पादित नहीं हुए हैं।
Fable 5 को तस्वीर में लाने के लिए, मैंने उन बेंचमार्क्स का क्रॉस-रेफ़रेंस किया जो Anthropic और Sakana, दोनों की तालिकाओं में आते हैं, और यह भी देखा कि साझा बेसलाइन्स मेल खाते हैं। SWE-Bench Pro और Humanity's Last Exam (नो टूल्स) पर, Opus 4.8, GPT-5.5, और Gemini 3.1 Pro के आंकड़े दोनों स्रोतों में एक समान हैं — इसलिए ये दोनों तुलना साफ़ हैं। केवल दो सिस्टम्स तक सीमित करने पर, आमने-सामने नतीजा इस तरह दिखता है:
| Benchmark | Sakana Fugu | Sakana Fugu Ultra | Claude Fable 5 | लीडर |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0 | 73.7 | 80.3 | Fable 5 (+6.6) |
| Humanity's Last Exam (नो टूल्स) | 47.2 | 50.0 | 59.0 | Fable 5 (+9.0) |
| Terminal-Bench 2.1 ‡ | 80.2 | 82.1 | 88.0 | Fable 5 (+5.9) |
‡ दोनों लैब्स TerminalBench के लिए अलग बेसलाइन्स रिपोर्ट करती हैं और अलग स्कैफ़ोल्ड्स का उपयोग करती हैं, इसलिए परिस्थितियाँ समान नहीं हैं।
ये तीन ही वे बेंचमार्क्स हैं जो दोनों लैब्स की प्रकाशित तालिकाओं में मिलते हैं और जिनके बेसलाइन्स मेल खाते हैं, इसलिए बाकी तुलना गुणात्मक ही रहनी पड़ती है। तीनों पर Fable 5 आगे है।
तो, जिन भी बेंचमार्क्स पर आमने-सामने तुलना संभव है, उनमें Fable 5, Fugu Ultra से लगभग 6–9 अंक आगे आता है। यह उसी दिशा से मेल खाता है जहाँ Fable 5 जीतने के लिए बना है: लंबे क्षितिज वाले, अंत में ग्रेड होने वाले कार्य, जहाँ एकल अधिक सक्षम मॉडल चूँ-चूँ कर जुड़ने वाली गलतियों को कम करता है।
संक्षेप में:
- सभी Fugu आंकड़े स्वयं-रिपोर्टेड हैं और अभी तृतीय-पक्ष लीडरबोर्ड्स पर नहीं दिखे हैं।
- Sakana, Fugu को Fable 5 और Mythos Preview के "समकक्ष" के रूप में वर्णित करता है। ऊपर दिए गए अंतर देखते हुए, यह बचाव योग्य पर उदार व्याख्या है। "क़रीब, पर पीछे" अधिक सटीक है।
- तुलना सेट्स आंशिक रूप से ही ओवरलैप करते हैं। Fable 5 विज़न पर आगे है (यह स्क्रीनशॉट्स से वेब ऐप का सोर्स फिर से बना सकता है), जिसे Fugu बिल्कुल जोर नहीं देता; Fugu लंबे-संदर्भ और बैंकिंग बेंचमार्क्स प्रकाशित करता है जिन्हें Anthropic की तालिका कवर नहीं करती। इसलिए वे थोड़े-बहुत अलग तरह के कार्यों के लिए अनुकूलित हैं।
Sakana Fugu बनाम Claude Fable 5: उपलब्धता और एक्सेस
Claude Fable 5 फिलहाल निलंबित है। Anthropic ने 12 जून को अमेरिकी निर्यात-नियंत्रण निर्देश के बाद Fable 5 और Mythos 5 दोनों की पहुंच हटा दी, और कहता है कि वह यथाशीघ्र एक्सेस बहाल करने पर काम कर रहा है। Anthropic के अन्य मॉडल, जैसे Opus 4.8, अभी भी उपलब्ध हैं।
Sakana Fugu अभी उपलब्ध है console.sakana.ai के माध्यम से OpenAI-संगत API के साथ — सिवाय EU और EEA में, जहाँ Sakana ने GDPR अनुपालन पूरा होने तक उपलब्धता रोक रखी है। मैं इसकी सटीक समय-सीमा नहीं जान सका।
इस समय, एक यूरोपीय टीम दोनों में से किसी भी मॉडल का उपयोग नहीं कर सकती।
अंतिम विचार
कागज पर, यह दो विचारधाराओं के बीच एक नज़दीकी, वास्तविक मुकाबला है।
Anthropic स्केल के बारे में सोच रहा है — एक ऐसा Mythos-श्रेणी का मॉडल जो इतना सक्षम है कि उसे समानांतर क्लासिफ़ायर सिस्टम की ज़रूरत पड़ती है।
Sakana समन्वय पर दांव लगा रहा है — कि स्वैपेबल पूल पर एक प्रशिक्षित ऑर्केस्ट्रेटर किसी भी एकल फ्रंटियर मॉडल के क़रीब बना रह सकता है, जबकि वह सस्ता, अधिक लचीला, और प्रदाता-निर्पेक्ष हो।
बेंचमार्क्स, सतही रूप से लिए जाएँ, तो कहते हैं कि Anthropic की बाज़ी तुलनात्मक परीक्षणों पर अधिक शक्तिशाली आर्टिफ़ैक्ट देती है, जबकि Sakana की बाज़ी अधिक उपलब्ध और सस्ती साबित होती है।
Sakana Fugu बनाम Claude Fable FAQs
क्या Sakana Fugu, Claude Fable 5 से बेहतर है?
जिन बेंचमार्क्स पर आमने-सामने तुलना संभव है (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), वहाँ Fable 5, Fugu Ultra से लगभग 6–9 अंक आगे है।
Fugu के बेंचमार्क टेबल में Fable 5 क्यों नहीं है?
Sakana, Fable 5 और Mythos Preview को इसलिए बाहर रखता है क्योंकि वे सार्वजनिक रूप से सुलभ नहीं हैं और इसलिए Fugu के एजेंट पूल का हिस्सा नहीं हो सकते। इसकी आधिकारिक तुलना Opus 4.8, GPT-5.5, और Gemini 3.1 Pro से है, जिनमें से 11 में से 10 बेंचमार्क्स पर Fugu Ultra आगे है।
कौन सस्ता है?
Fugu Ultra की कीमत $5/M इनपुट और $30/M आउटपुट है, जो लगभग Fable 5 की $10/M इनपुट और $50/M आउटपुट कीमत का आधा है। दोनों $20/$100/$200 मासिक सब्सक्रिप्शन टियर्स ऑफ़र करते हैं।
क्या Fable 5 वापस आएगा?
Anthropic कहता है कि वह Fable 5 और Mythos 5 की एक्सेस यथाशीघ्र बहाल करने पर काम कर रहा है, लेकिन समय-सीमा प्रकाशित नहीं की है। इस बीच, इसके अन्य मॉडल, जिनमें Opus 4.8 शामिल है, उपलब्ध हैं।
क्या Fugu वाकई Fable 5 के निलंबन को रूट-आराउंड करता है?
सीधे तौर पर नहीं — Fable 5 कभी भी Fugu के पूल में नहीं था, इसलिए Fugu इसकी विशिष्ट क्षमताएँ रिकवर नहीं कर सकता।