मुख्य सामग्री पर जाएं

Composer 2.5: बेंचमार्क, मूल्य निर्धारण, और तुलना

Cursor का नवीनतम स्वामित्व मॉडल, Composer 2.5, लक्षित RL फ़ीडबैक, अधिक सिंथेटिक प्रशिक्षण कार्य, और फ़्रंटियर मॉडलों की तुलना में कम टोकन मूल्य जोड़ता है।
अद्यतन 22 मई 2026  · 13 मि॰ पढ़ना

Cursor ने 18 मई, 2026 को Composer 2.5 जारी किया, जो मार्च में Composer 2 के शिप होने के लगभग दो महीने बाद है। रिलीज़ के बीच छोटा अंतराल दिखाता है कि Cursor अपने मॉडल लाइन को कितनी तेज़ी से अपडेट कर रहा है।

Cursor के अनुसार Composer 2.5 कई कोडिंग बेंचमार्क पर Claude Opus 4.7 और GPT-5.5 के क़रीब स्कोर करता है। इसका टोकन मूल्य भी फ़्रंटियर मॉडलों से कम है। प्रशिक्षण में भी बदलाव हुए: अधिक सिंथेटिक कार्य, कठिन प्रशिक्षण परिवेश, और एक फ़ीडबैक तरीका जो लंबी कोडिंग सत्रों में विशिष्ट गलतियों को लक्ष्य बनाता है।

इस लेख में, मैं Composer 2.5 को केवल एक बेंचमार्क अपडेट से अधिक के रूप में देखता हूँ। मैं कवर करूँगा कि यह क्या है, क्या बदला, बेंचमार्क कैसे दिखते हैं, फ़्रंटियर मॉडलों के साथ कीमतों की तुलना, और यह कोडिंग वर्कफ़्लो में कहाँ फिट बैठता है। कुछ सीमाएँ भी हैं, और स्कोर को पूरी कहानी मानने से पहले कुछ बातों को जानना उपयोगी है।

इस तुलना के अन्य मॉडलों पर अधिक पृष्ठभूमि के लिए, हमारे Claude Opus 4.7 और GPT-5.5 गाइड देखें।

Cursor का Composer 2.5 मॉडल क्या है?

Composer 2.5, Cursor के Composer परिवार का नवीनतम मॉडल है, जिसे Cursor IDE के अंदर कोडिंग कार्य के लिए बनाया गया है। यह Composer 1, Composer 1.5, और Composer 2 के बाद आता है।

अक्टूबर 2025 से मई 2026 तक Cursor Composer मॉडल रिलीज़ की क्षैतिज टाइमलाइन, जिसमें Composer 1, 1.5, 2, और 2.5 दर्शाए गए हैं और हर माइलस्टोन पर मुख्य प्रशिक्षण नवाचार और रिलीज़ तिथियाँ अंकित हैं

लॉन्च से 2.5 तक Composer की टाइमलाइन। छवि: लेखक।

यह कोई सामान्य चैटबॉट नहीं है। Composer 2.5 को फ़ाइलों में एडिट, टर्मिनल कमांड, टूल उपयोग, और लंबी कोडिंग सत्रों के लिए प्रशिक्षित किया गया है। इसके प्रशिक्षण लक्ष्य और बेंचमार्क सॉफ़्टवेयर इंजीनियरिंग कार्यों पर केंद्रित हैं।

लॉन्च पोस्ट कहती है कि यह मॉडल कोडिंग कार्यों पर Composer 2 से ऊपर स्कोर करता है और लंबे सत्रों में अलग व्यवहार करता है। यह अब Cursor के मॉडल पिकर में डिफ़ॉल्ट विकल्प है, हालांकि Composer 2 उपलब्ध बना हुआ है। यह केवल Cursor के अंदर चलता है। कोई सार्वजनिक API नहीं है, न Hugging Face मॉडल कार्ड, और न किसी अन्य प्रदाता के माध्यम से गेटवे एक्सेस।

Composer 2.5 में क्या बदला

Composer 2.5 में बदलाव दो श्रेणियों में आते हैं: कोडिंग टास्क प्रदर्शन और सहयोगी व्यवहार। पहला दूसरे की तुलना में मापना आसान है, इसलिए यह अलग करना उपयोगी है कि Cursor क्या चीज़ें संख्याओं में दिखा सकता है और क्या बातें गुणात्मक रूप से बताई गई हैं।

लंबे कार्यों पर प्रदर्शन

Composer 2.5 का लक्ष्य लंबे कोडिंग सत्र हैं जहाँ मॉडल को फ़ाइलें पढ़नी, टर्मिनल कमांड चलानी, त्रुटियाँ ठीक करनी, और इटरेट करना होता है। यह मायने रखता है क्योंकि वास्तविक विकास शायद ही कभी एक ही प्रॉम्प्ट और प्रतिक्रिया में सिमटता है।

Cursor ने मॉडल को अधिक कठिन रिइनफोर्समेंट लर्निंग परिवेशों में प्रशिक्षित किया। प्रशिक्षण के दौरान कार्य बनाए गए, और कठिनाई समय के साथ बढ़ाई गई।

निर्देशों का पालन और सहयोग

रिलीज़ में निर्देशों का अधिक विश्वसनीय अनुपालन भी वर्णित है। यह प्रयास-कैलिब्रेशन की ओर इशारा करता है: मॉडल कठिन कार्यों पर अधिक कंप्यूट खर्च करने और सरल कार्यों पर ज़रूरत से ज़्यादा सोचने से बचने के लिए बनाया गया है।

यहाँ एक सावधानी भी है। Cursor नोट करता है कि ये व्यवहार परिवर्तन "मौजूदा बेंचमार्क द्वारा अच्छी तरह कैप्चर नहीं होते"। इसलिए यह हिस्सा मुख्यतः Cursor के अपने आकलन और शुरुआती उपयोगकर्ता फ़ीडबैक पर टिका है, न कि किसी सार्वजनिक स्कोर पर।

और कठिन RL परिवेश

लॉन्च पोस्ट प्रशिक्षण परिवर्तन को "ट्रेनिंग को स्केल करना, अधिक जटिल RL परिवेश उत्पन्न करना, और नए सीखने के तरीकों को पेश करना" के रूप में फ़्रेम करती है। प्रशिक्षण में Composer 2 की तुलना में 25 गुना अधिक सिंथेटिक कार्यों का उपयोग किया गया।

Cursor ने Composer 2.5 को कैसे प्रशिक्षित किया

प्रशिक्षण विवरण बताते हैं कि बिना नई बेस आर्किटेक्चर के मॉडल क्यों बदला। Composer 2.5, Composer 2 की ही नींव का उपयोग करता है, लेकिन बेस ट्रेनिंग के बाद का काम बदला है। हर इन्फ्रास्ट्रक्चर डिटेल पाठकों के लिए समान रूप से मायने नहीं रखती, पर कुछ हिस्से बेंचमार्क में आए बदलाव को समझाने में मदद करते हैं।

Kimi K2.5 पर निर्मित

Composer 2.5, Composer 2 की तरह ही उसी ओपन सोर्स चेकपॉइंट पर बना है: Moonshot AI का Kimi K2.5। Cursor ने इसे सीधे लॉन्च पोस्ट में कहा, जो मायने रखता है क्योंकि बेस मॉडल Composer 2 के आसपास बहस का मुद्दा था।

Kimi K2.5 एक Mixture of Experts आर्किटेक्चर का उपयोग करता है। Cursor इस बेस के ऊपर कंटिन्यूड प्रीट्रेनिंग और रिइनफोर्समेंट लर्निंग लागू करता है, और कहता है कि अंतिम मॉडल के लिए कुल कंप्यूट का लगभग 85% बेस ट्रेनिंग के बाद उसके अपने काम से आता है।

टेक्स्टुअल फ़ीडबैक के साथ लक्षित RL

यह Composer 2.5 में मुख्य तकनीकी बदलाव है। मानक RL किसी लंबी शृंखला के अंत में एक रिवॉर्ड सिग्नल देता है। लंबे कोडिंग सत्र में, वह अंतिम रिवॉर्ड इतना शोरयुक्त हो सकता है कि यह नहीं दिखता कि मॉडल कहाँ गलत गया।

सरलित आरेख जो Cursor की लक्षित RL ट्रेनिंग विधि दिखाता है: मूल मॉडल संदर्भ एक छात्र वितरण उत्पन्न करता है, जबकि किसी गलत टूल कॉल पर डाला गया संकेत एक शिक्षक वितरण उत्पन्न करता है, और KL डिस्टिलेशन लॉस केवल उसी टर्न के लिए छात्र को शिक्षक की ओर अपडेट करता है

शिक्षक और छात्र एक ही टर्न साझा करते हैं। छवि: लेखक।

Cursor की विधि उस बिंदु पर एक छोटा पाठ संकेत डालती है जहाँ मॉडल ने गलत निर्णय लिया। उदाहरण के लिए, यदि मॉडल किसी ऐसे टूल को कॉल करता है जो मौजूद नहीं है, तो प्रशिक्षण प्रक्रिया सही टूल सूची के साथ एक रिमाइंडर डाल सकती है। संकेतित संस्करण "शिक्षक" की तरह काम करता है, और मूल मॉडल "छात्र" की तरह। एक डिस्टिलेशन लॉस तब केवल उसी टर्न पर छात्र के व्यवहार को शिक्षक की ओर ले जाता है।

नतीजा अधिक लक्षित प्रशिक्षण है: व्यक्तिगत गलतियाँ सुधारी जा सकती हैं बिना किसी लंबे रोलआउट को मोटे तौर पर सही या गलत मानने के। Cursor ने इस विधि को Composer 2.5 के प्रशिक्षण रन के दौरान कोडिंग शैली, टूल उपयोग, और मॉडल संप्रेषण में लागू किया।

बड़े पैमाने पर सिंथेटिक डेटा

Composer 2.5 को Composer 2 की तुलना में 25 गुना अधिक सिंथेटिक कार्यों के साथ प्रशिक्षित किया गया। ये कार्य खिलौना उदाहरण नहीं, बल्कि वास्तविक कोडबेस पर आधारित हैं।

Cursor जिस एक दृष्टिकोण का वर्णन करता है, वह है फीचर डिलीशन। एक एजेंट वास्तविक कोडबेस और बड़े टेस्ट सूट से शुरू करता है, फिर कोड और फ़ाइलें हटाता है जबकि प्रोजेक्ट के बाकी हिस्से को कार्यात्मक रखता है। सिंथेटिक कार्य हटाई गई फीचर को फिर से लागू करना है, और टेस्ट एक सत्यापन योग्य रिवॉर्ड सिग्नल प्रदान करते हैं।

सिंथेटिक प्रशिक्षण का यह पैमाना अपने जोखिम लाता है। Cursor ने ऐसे मामले दर्ज किए जहाँ Composer 2.5 ने शॉर्टकट खोजे, जैसे Python टाइप-चेकिंग कैश से हटाई गई जानकारी पुनर्प्राप्त करना और Java बाइटकोड को डीकंपाइल करके बाहरी API को पुनर्निर्मित करना। कंपनी कहती है कि उसने इन्हें मॉनिटरिंग टूल्स से पकड़ा, लेकिन स्वीकार किया कि इस पैमाने पर प्रशिक्षण के लिए "बढ़ती सावधानी" की ज़रूरत है।

इन्फ्रास्ट्रक्चर परिवर्तन

इन्फ्रास्ट्रक्चर पक्ष में, Cursor ने कंटिन्यूड प्रीट्रेनिंग के लिए Sharded Muon और डुअल मेष HSDP का उपयोग किया। इन परिवर्तनों ने बड़े GPU क्लस्टर्स पर प्रशिक्षण में शामिल कुछ लागत और समय को कम किया।

Composer 2.5 बेंचमार्क परिणाम: Terminal-Bench, SWE-Bench, और CursorBench

बेंचमार्क उपयोगी हैं, लेकिन वे पूरी तस्वीर नहीं दिखाते। मैं उन्हें तुलना के शुरुआती बिंदु की तरह मानूँगा, न कि इस बात के अंतिम फ़ैसले की तरह कि मॉडल दैनिक काम में कैसा महसूस होगा।

Cursor Composer 2.5 का मूल्यांकन तीन बेंचमार्क पर करता है:

बेंचमार्क

Composer 2.5

Claude Opus 4.7

GPT-5.5

Composer 2

SWE-Bench Multilingual

79.8%

80.5%

77.8%

73.7%

Terminal-Bench 2.0

69.3%

69.4%

82.7%

61.7%

CursorBench v3.1 (कठिन कार्य)

63.2%

64.8% (max) / 61.6% (default)

64.3% (xhigh) / 59.2% (default)

52.2%

SWE-Bench Multilingual जाँचता है कि क्या कोई मॉडल कई प्रोग्रामिंग भाषाओं में वास्तविक GitHub इश्यू हल कर सकता है। प्रत्येक कार्य मॉडल को एक रिपॉज़िटरी और समस्या विवरण देता है, फिर यह देखता है कि पैच संबद्ध परीक्षणों को पास करता है या नहीं।

Terminal-Bench 2.0 मापता है कि क्या कोई AI एजेंट वास्तविक टर्मिनल वर्कफ़्लो में काम कर सकता है: फ़ाइलों का निरीक्षण, कमांड चलाना, विफलताओं को डिबग करना, और कई चरणों वाले कार्यों को पूरा करना।

CursorBench v3.1 Cursor का निजी आंतरिक बेंचमार्क है। यह वास्तविक Cursor सत्रों से अस्पष्ट, मल्टी-फ़ाइल कार्यों पर एजेंटों का मूल्यांकन करता है, जिसमें कोडबेस समझ, बग ढूँढना, योजना बनाना, और कोड समीक्षा शामिल हैं। सीमा यह है कि CursorBench को बाहरी शोधकर्ता जाँच या पुन: निर्मित नहीं कर सकते, और स्कोरों की तुलना एक ही इवाल संस्करण के भीतर करनी चाहिए।

एक सावधानी जो इन संख्याओं को पढ़ने से पहले मायने रखती है: मॉडलों के बीच बेंचमार्क तुलना हमेशा साफ़ नहीं होती। अलग-अलग मूल्यांकन सेटअप और प्रयास सेटिंग्स स्कोर बदल सकते हैं, और Cursor नोट करता है कि Opus 4.7 और GPT-5.5 सार्वजनिक मूल्यांकन के लिए स्वयं-रिपोर्टेड स्कोर का उपयोग करते हैं। इन्हें दिशात्मक तुलना की तरह लें, न कि समान शर्तों के तहत प्रत्यक्ष परीक्षण की तरह।

बाद का एक बाहरी बेंचमार्Artificial Analysis से भी इसी दिशा की ओर इशारा करता है, हालाँकि यह अलग बेंचमार्क मिश्रण का उपयोग करता है। Artificial Analysis Coding Agent Index पर Composer 2.5 ने 62 स्कोर किया, जबकि Claude Opus 4.7 (max effort) 66 पर और GPT-5.5 (xhigh reasoning) 65 पर रहे। 

लागत का अंतर वह हिस्सा है जिस पर मैं ध्यान दूँगा: Artificial Analysis ने Composer 2.5 को Standard के लिए प्रति कार्य $0.07 और Fast के लिए $0.44 आंका, जबकि Opus 4.7 max के लिए $4.10 और GPT-5.5 xhigh के लिए $4.82।

Composer 2.5 बनाम Composer 2 बनाम Composer 1.5: स्कोर की तुलना

Composer परिवार में कम समय में तीन रिलीज़ हुई हैं। Composer 1.5 फरवरी 2026 में, Composer 2 मार्च में, और Composer 2.5 मई में आया। हर संस्करण ने प्रशिक्षण दृष्टिकोण में अलग बदलाव किया।

Composer 2.5 बनाम Composer 2

Composer 2 से 2.5 की छलाँग Terminal-Bench 2.0 पर सबसे स्पष्ट है, जहाँ स्कोर 61.7% से 69.3% हो गया, और SWE-Bench Multilingual पर 73.7% से 79.8%। CursorBench पर बढ़त छोटी है, और बेंचमार्क संस्करण v3 से v3.1 में बदला है, इसलिए तुलना कम प्रत्यक्ष है।

बड़ा फ़र्क प्रशिक्षण पाइपलाइन में है। Composer 2 ने Kimi K2.5 पर कंटिन्यूड प्रीट्रेनिंग पेश की। Composer 2.5 ने उसी बेस को रखा और लक्षित टेक्स्टुअल फ़ीडबैक, 25 गुना अधिक सिंथेटिक कार्य, और इन्फ्रास्ट्रक्चर परिवर्तन जोड़े। Standard कीमत जस की तस रही।

Composer 2.5 बनाम Composer 1.5

Composer 1.5, Composer 1 जैसे ही प्रीट्रेंड मॉडल पर रिइनफोर्समेंट लर्निंग को 20 गुना स्केल करके बनाया गया था। इसने एडेप्टिव थिंकिंग और सेल्फ़-समराइज़ेशन पेश किया, जो मॉडल को लंबे सत्रों में अपना संदर्भ संक्षेपित करने देता है।

Composer 1.5 से 2.5 का अंतर हर बेंचमार्क पर बड़ा है। इसके साथ टोकन कीमत भी कम आई: Composer 1.5 की कीमत प्रति मिलियन इनपुट टोकन $3.50 और प्रति मिलियन आउटपुट टोकन $17.50 थी, जो Composer 2.5 Standard की तुलना में लगभग 7 गुना महँगी है।

व्यवहार में क्या बदला

इन संस्करणों में पैटर्न काफ़ी स्पष्ट है: हर पीढ़ी ने लंबे सत्रों और निर्देश-पालन के दौरान व्यवहार बदला, जबकि Composer 2 और 2.5 ने लंबे एजेंट सत्रों की लागत घटाई।

Composer 2.5 बनाम Claude Opus 4.7 बनाम GPT-5.5: बेंचमार्क, कीमत, और समझौते

यही वह तुलना है जिसमें कई पाठक पहले दिलचस्पी लेंगे। Composer 2.5 के कुछ क्षेत्रों में समान कोडिंग बेंचमार्क स्कोर हैं, नीचे सूचीबद्ध फ़्रंटियर मॉडलों से कम टोकन कीमत है, और स्पष्ट ट्रेड-ऑफ़ हैं।

बेंचमार्क तुलना

Terminal-Bench 2.0 पर GPT-5.5 82.7% के साथ आगे है, जो Composer 2.5 से लगभग 13 अंक ऊपर है। यह अंतर उन कामों के लिए मायने रखता है जो टर्मिनल उपयोग पर भारी निर्भर हैं।

Claude Opus 4.7, SWE-Bench Multilingual पर Composer 2.5 से थोड़ा आगे है (80.5% बनाम 79.8%), जो एक अंक से भी कम है। CursorBench पर, Composer 2.5 का 63.2% Opus 4.7 के डिफ़ॉल्ट सेटिंग (61.6%) से ऊपर है लेकिन Opus 4.7 के max effort (64.8%) से नीचे। GPT-5.5 भी xhigh पर 64.3% तक पहुँचता है, जबकि इसका डिफ़ॉल्ट स्कोर 59.2% है।

ये मॉडल एक ही काम नहीं कर रहे। Opus 4.7 और GPT-5.5 व्यापक फ़्रंटियर मॉडल हैं। Composer 2.5 Cursor में चलने वाला कोडिंग मॉडल है। कुछ कोडिंग कार्यों में बेंचमार्क स्कोर क़रीब हैं, लेकिन उत्पाद सीमाएँ अलग हैं।

कीमत तुलना

लागत का फ़र्क फ़्रंटियर मॉडलों से सबसे स्पष्ट विभाजन है।

मॉडल

इनपुट (प्रति 1M टोकन)

आउटपुट (प्रति 1M टोकन)

Composer 2.5 Standard

$0.50

$2.50

Composer 2.5 Fast (डिफ़ॉल्ट)

$3.00

$15.00

Claude Opus 4.7

$5.00

$25.00

GPT-5.5

$5.00

$30.00

Composer 2.5 Standard की कीमत प्रति टोकन Opus 4.7 और GPT-5.5 की तुलना में लगभग एक-दसवाँ है। Fast वेरिएंट भी दोनों फ़्रंटियर मॉडलों के स्टैंडर्ड टियर से नीचे कीमत पर है।

ये कीमतें मई 2026 तक अद्यतन हैं, इसलिए तुलना पर भरोसा करने से पहले Cursor की मॉडल प्राइसिंग, Anthropic की Opus प्राइसिंग, और OpenAI की API प्राइसिंग जाँच लें।

एक बात जो अक्सर छूट जाती है: Composer 2.5 Fast की कीमत Composer 2 Fast की तुलना में दोगुनी हो गई। Standard की कीमत स्थिर रही, लेकिन Fast डिफ़ॉल्ट है, इसलिए अपग्रेड फिर भी कुछ उपयोगकर्ताओं के लिए लागत बढ़ा सकता है।

आपको कौन सा मॉडल चुनना चाहिए?

मॉडल चयन इस पर निर्भर करता है कि आपके लिए लागत, टर्मिनल कार्य, या गहन योजना में से क्या अधिक मायने रखता है:

  • Composer 2.5 Cursor के अंदर रोज़मर्रा की कोडिंग के लिए उपयुक्त है, विशेषकर क्रॉस-फ़ाइल एडिट, रिफैक्टरिंग, डिबगिंग, और जहाँ लागत मायने रखती है वहाँ एजेंट सत्र।
  • GPT-5.5 उन कार्यों के लिए उपयुक्त है जहाँ टर्मिनल प्रदर्शन सबसे महत्वपूर्ण है।
  • Claude Opus 4.7 उन कार्यों के लिए उपयुक्त है जिन्हें सतर्क तर्क, आर्किटेक्चरल योजना, या 1-मिलियन टोकन का कॉन्टेक्स्ट विंडो चाहिए।

यही पैटर्न मैं संख्याओं से निकालूँगा: Composer 2.5 रूटीन कोडिंग कार्यों को कवर करता है, जबकि फ़्रंटियर मॉडल अभी भी व्यापक तर्क या उच्च टर्मिनल स्कोर के लिए भूमिका निभाते हैं।

Composer 2.5 Standard बनाम Fast: गति, कीमत, और कब किसका उपयोग करें

Cursor, Composer 2 की तरह, Composer 2.5 को दो वेरिएंट में शिप करता है। Cursor के अनुसार, दोनों में समान अंतर्निहित इंटेलिजेंस है। फ़र्क मुख्यतः इस बात में है कि मॉडल कितनी जल्दी प्रतिक्रिया देता है और इसकी कीमत कितनी है।

Cursor IDE के मॉडल पिकर ड्रॉपडाउन का स्क्रीनशॉट, जिसमें Composer 2.5 Fast चयनित डिफ़ॉल्ट मॉडल के रूप में दिख रहा है

Composer चयनित के साथ Cursor मॉडल पिकर। छवि: लेखक।

Fast डिफ़ॉल्ट है और प्रति मिलियन इनपुट टोकन $3.00 तथा प्रति मिलियन आउटपुट टोकन $15.00 की लागत है। यह उन इंटरैक्टिव सत्रों के लिए है जहाँ कम लैटेंसी मायने रखती है। Standard $0.50 और $2.50 पर चलता है, इसलिए यह बैकग्राउंड कार्यों या लंबे एजेंट लूप के लिए उपयुक्त है जहाँ तत्काल फ़ीडबैक कम महत्वपूर्ण है।

Composer 2.5 का उपयोग Cursor के "Auto + Composer" यूसेज पूल में आता है, जो Claude और GPT जैसे बाहरी मॉडलों के लिए उपयोग किए जाने वाले API पूल से अलग है। Cursor ने लॉन्च के बाद पहले सप्ताह के लिए डबल यूसेज भी ऑफ़र किया।

Composer 2.5 की सीमाएँ और सावधानियाँ

सावधानियाँ एक्सेस, बेंचमार्क, और प्रशिक्षण जोखिम के बारे में हैं। ये Composer 2.5 को असामान्य नहीं बनातीं, लेकिन यह तय करती हैं कि Cursor के दावों को कितनी वज़न दी जाए।

सिर्फ़ Cursor में उपलब्धता। जैसा कि मैंने पहले बताया, Composer 2.5 का कोई सार्वजनिक API नहीं है। यदि आपका वर्कफ़्लो अपने स्क्रिप्ट या पाइपलाइन से मॉडल कॉल करने पर निर्भर करता है, तो Composer 2.5 विकल्प नहीं है।

CursorBench स्वतंत्र नहीं है। जैसा कि मैंने बेंचमार्क अनुभाग में कवर किया, CursorBench v3.1 Cursor का आंतरिक बेंचमार्क है। इसकी कार्यप्रणाली पूरी तरह सार्वजनिक नहीं है, और कार्यों को बाहरी शोधकर्ता पुन: उत्पन्न नहीं कर सकते।

बेंचमार्क सेटअप में परिवर्तनशीलता। Cursor के बेंचमार्क चार्ट में फ़्रंटियर मॉडलों के स्कोर एक ही तरह से नहीं मापे गए। तुलना को दिशात्मक मानें, निर्णायक नहीं।

प्रशिक्षण के दौरान रिवॉर्ड हैकिंग। Cursor ने ऐसे मामले प्रकट किए जहाँ मॉडल ने सामान्य तरीके से हल करने के बजाय सिंथेटिक कार्यों में चालाक शॉर्टकट ढूँढे। इस पैमाने पर RL का यह एक अंतर्निहित जोखिम है, भले ही मॉनिटरिंग स्पष्ट उदाहरण पकड़ ले।

प्रयास-कैलिब्रेशन अप्रमाणित है। जैसा कि पहले कवर किया, Cursor के संप्रेषण शैली और प्रयास-कैलिब्रेशन के दावे बेंचमार्क डेटा से समर्थित नहीं हैं। इससे उन्हें बाहर से परखना कठिन हो जाता है।

कब Composer 2.5 समझ में आता है

यह कार्य पर निर्भर करता है। मैं Composer 2.5 को सार्वभौमिक मॉडल पसंद की तरह कम और Cursor के भीतर काम कर रहे लोगों के लिए एक कोडिंग मॉडल की तरह अधिक फ़्रेम करूँगा।

यदि आप अपना अधिकांश दिन Cursor के अंदर कोडिंग में बिताते हैं और टोकन लागत मायने रखती है, तो Composer 2.5 Standard की कीमत Composer 2.5 लाइन में सबसे कम है। यह ऊपर वर्णित एडिट, रिफैक्टरिंग, डिबगिंग, और लंबे सत्र के काम पर लागू होता है।

यदि प्रतिक्रिया गति अधिक मायने रखती है, तो Composer 2.5 Fast डिफ़ॉल्ट विकल्प है।

यदि कार्य को व्यापक तर्क, बड़े कॉन्टेक्स्ट विंडो, या किसी विशिष्ट क्षेत्र में उच्च बेंचमार्क स्कोर चाहिए, तो Claude Opus 4.7 या GPT-5.5 उस कार्य के लिए उपयुक्त हो सकते हैं।

एक तरह से फ़्रेम करें: Composer 2.5 ऊपर कवर किए गए रूटीन कोडिंग कार्यों को संभालता है, जबकि फ़्रंटियर मॉडल उन कार्यों के लिए उपयुक्त हो सकते हैं जिन्हें व्यापक तर्क या उच्च टर्मिनल स्कोर चाहिए। इससे तुलना ज़मीन से जुड़ी रहती है, बिना इसे हर मामले में एक ही मॉडल की सिफ़ारिश में बदले।

अंतिम विचार

Composer 2.5 को बेंचमार्क कहानी की तरह पढ़ना आसान है, लेकिन मुझे लगता है कि अधिक उपयोगी बात इसका दिशा-गति है। Cursor केवल एक संपादक के अंदर फ़्रंटियर मॉडलों को रैप नहीं कर रहा। यह अपने एजेंट जिस तरह के काम पहले से करते हैं—क्रॉस-फ़ाइल एडिट, टर्मिनल स्टेप, लंबे सत्र, और गलतियों से रिकवरी—उनके आसपास एक मॉडल लाइन बना रहा है।

जैसा कि पहले बताया, ट्रेड-ऑफ़ यह है कि Composer 2.5 जानबूझकर संकरा है। यह Claude Opus 4.7 या GPT-5.5 को एक सामान्य मॉडल के रूप में प्रतिस्थापित नहीं करता, और यदि आपको Cursor के बाहर API चाहिए तो यह मददगार नहीं है। लेकिन Cursor के अंदर, यह संकरापन ही उद्देश्य है। मॉडल फ़्रंटियर विकल्पों की तुलना में चलाने में सस्ता है, कोडिंग कार्यों के लिए ट्यून है, और उसी उत्पाद लेयर के क़रीब बैठता है जहाँ ये कार्य होते हैं।

अगला सवाल यह है कि Cursor इस में से कितना अपने पास रखना चाहता है। कंपनी कहती है कि वह SpaceXAI के साथ 10 गुना अधिक कुल कंप्यूट और Colossus 2 इन्फ्रास्ट्रक्चर का उपयोग करके शुरू से एक बड़ा मॉडल ट्रेन करने पर काम कर रही है। कोई रिलीज़ तिथि नहीं दी गई, इसलिए अभी विश्लेषण के लिए बहुत कुछ नहीं है। फिर भी, बुनियादी आकृति काफ़ी स्पष्ट है: Cursor अच्छे से मॉडल उपयोग करने से लेकर मॉडल स्टैक का अधिक हिस्सा खुद बनाने की ओर बढ़ रहा है।

Composer 2.5 FAQs

क्या मैं Cursor के बाहर Composer 2.5 का उपयोग कर सकता/सकती हूँ?

नहीं। जैसा कि ऊपर कवर किया गया है, Composer 2.5 केवल Cursor के उत्पादों के अंदर चलता है। यदि आपको ऐसा मॉडल चाहिए जिसे आप अपने कोड से कॉल कर सकें, तो आपको उनके संबंधित API के माध्यम से Claude, GPT, या किसी अन्य प्रतिद्वंदी मॉडल की ज़रूरत होगी।

क्या Composer 2.5 मुफ़्त Hobby प्लान पर उपलब्ध है?

Cursor के लॉन्च मटेरियल में "individual plans" का उल्लेख है, बिना Hobby टियर को निर्दिष्ट किए। Hobby प्लान में सीमित एजेंट अनुरोध पूल शामिल है। प्रति माह $20 का Pro प्लान वह है जिसे Cursor अधिक नियमित एजेंट उपयोग के लिए सूचीबद्ध करता है।

Composer 2.5 एक चीनी ओपन सोर्स मॉडल पर क्यों बना है?

जैसा कि प्रशिक्षण अनुभाग में कवर किया गया, Cursor Moonshot AI के Kimi K2.5 को बेस चेकपॉइंट के रूप में उपयोग करता है। कंपनी कहती है कि कुल कंप्यूट का 85% बेस ट्रेनिंग के बाद उसके अपने काम में जाता है, इसलिए अंतिम मॉडल कच्चे Kimi K2.5 से अलग है। Cursor भविष्य में शुरू से मॉडल ट्रेन करने के लिए SpaceXAI के साथ भी काम कर रहा है।

प्रति कार्य Composer 2.5 की लागत कितनी है?

Cursor के प्रयास और लागत चार्ट के अनुसार, Composer 2.5 के साथ एक CursorBench कार्य की औसत लागत $1 से कम है। वही कार्य Claude Opus 4.7 या GPT-5.5 के माध्यम से रूट करने पर, प्रयास सेटिंग्स पर निर्भर करते हुए, कई डॉलर पड़ते हैं।

क्या Fast वेरिएंट, Standard की तुलना में अलग गुणवत्ता का आउटपुट देता है?

Standard बनाम Fast अनुभाग में कवर किया गया है कि Cursor दोनों वेरिएंट को समान अंतर्निहित इंटेलिजेंस वाला बताता है। फ़र्क लैटेंसी का है: Fast इंटरैक्टिव सत्रों के लिए है, जबकि Standard बैकग्राउंड कार्य के लिए। लॉन्च तारीख तक इस दावे की स्वतंत्र जाँच नहीं हुई है।

विषय

शीर्ष AI कोर्स

course

Introduction to Claude Models

3 घंटा
7.9K
Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.
विस्तृत जानकारी देखेंRight Arrow
कोर्स शुरू करें
और देखेंRight Arrow