course
GPT-5.4 5 मार्च, 2026 को OpenAI के प्रोफेशनल काम के फ्लैगशिप के रूप में लॉन्च हुआ, जिसने कोडिंग और रीजनिंग को एक सामान्य प्रयोजन मॉडल में समेकित कर दिया। छह हफ्ते बाद, 16 अप्रैल को, Anthropic ने Claude Opus 4.7 जारी किया, जो एक अलग दांव पर बना है: ऐसा मॉडल जो लंबी-अवधि की इंजीनियरिंग को स्वायत्त रूप से संभालता है और उन सत्रों में सुसंगत रहता है जहाँ ज्यादातर एजेंट लड़खड़ा जाते हैं।
यह उन्हें सीधे तुलना करने का अच्छा समय है, हालांकि एक बात स्पष्ट कर दें: यह लेख Opus 4.7 के उसी दिन प्रकाशित हुआ, इसलिए नीचे दिए गए आमने‑सामने के कई आंकड़े मुख्यतः वेंडर‑रिपोर्टेड हैं। इन्हें अंतिम निर्णय नहीं, शुरुआती आधार मानें।
अपडेट: OpenAI ने GPT-5.4 का उत्तराधिकारी मॉडल प्रकाशित किया है। इसके बारे में सब कुछ हमारे GPT-5.5 गाइड में पढ़ें।
Opus 4.7 बनाम GPT-5.4: आमने‑सामने तुलना
प्रत्येक क्षेत्र में जाने से पहले एक त्वरित संदर्भ यहाँ है। सबसे दिलचस्प बारीकियाँ प्राइसिंग में हैं, जिसे हम अलग सेक्शन में कवर करेंगे।

दोनों मॉडलों के प्रमुख स्पेक्स की तुलना। इमेज: लेखक।
Gemini 3.1 Pro वास्तविक विकल्प है यदि आपकी प्राथमिक ज़रूरत भारी दस्तावेज़ प्रसंस्करण या लंबा कानूनी विश्लेषण है; यह 2M कॉन्टेक्स्ट विंडो के साथ प्रति‑टोकन कम लागत पर चलता है। यह लेख Anthropic बनाम OpenAI की तुलना पर केंद्रित रहता है।
प्रत्येक वेंडर अपने मॉडल को कैसे पेश करता है, इससे बहुत कुछ पता चलता है कि वे इसे किसके लिए उपयोग करने की अपेक्षा करते हैं।
मॉडल की पोज़िशनिंग और लक्षित उपयोग
OpenAI GPT-5.4 को एकीकृत सामान्य प्रयोजन मॉडल के रूप में प्रस्तुत करता है। यह वे कोडिंग क्षमताएँ समाहित करता है जो पहले GPT-5.3-Codex में थीं, जिससे डेवलपर्स को अब टास्क के प्रकार के अनुसार अलग‑अलग एंडपॉइंट पर रिक्वेस्ट रूट करने की ज़रूरत नहीं। एक मॉडल, एक एंडपॉइंट, चाहे जो काम हो।
Anthropic का Opus 4.7 के लिए प्रस्ताव संकरा है: "कोडिंग, एजेंट्स, कंप्यूटर यूज़, और एंटरप्राइज़ वर्कफ़्लो" के लिए ऑप्टिमाइज़्ड मॉडल, जिसमें लंबी-अवधि की स्वायत्तता मुख्य भेद है। आप कठिन इंजीनियरिंग कार्य सौंपते हैं और भरोसा करते हैं कि यह रिपोर्ट करने से पहले अपनी त्रुटियाँ खुद पकड़ेगा। ध्यान देने योग्य है कि Opus 4.7 Anthropic का सबसे सक्षम सामान्य रूप से उपलब्ध मॉडल है, पर शीर्ष नहीं; Claude Mythos Preview इससे ऊपर बैठता है, जो रक्षात्मक साइबरसुरक्षा वर्कफ़्लो तक सीमित है।
यह अंतर चरम स्थितियों में दिखता है: बहुत लंबी चलने वाली कोडिंग सत्र, या दर्जनों टूल्स को जोड़ने वाली पाइपलाइंस।
कोडिंग और एजेंटिक वर्कफ़्लो
रिपॉज़िटरी‑स्तर की कोडिंग पर, Opus 4.7 उन बेंचमार्क पर आगे है जिन्हें प्रत्येक वेंडर ने रिपोर्ट करने के लिए चुना (पूरे नंबर नीचे)। इसने सेल्फ‑आउटपुट वेरिफिकेशन पेश किया, यानी मॉडल रिपोर्ट करने से पहले अपना काम खुद जाँचता है, और Genspark ने विशेष रूप से इसके लूप रेज़िस्टेंस की सराहना की: Opus 4.7 एक ही समस्या पर चक्कर काटने में फँसने की संभावना कम रखता है। ऐसी चीज़ तब मायने रखती है जब आपने किसी एजेंट को 40 मिनट तक बेकार लूप करते देखा हो।
Terminal-Bench 2.0 पर GPT-5.4 करीब छह अंकों से आगे है (75.1% बनाम 69.4%), हालांकि Anthropic संकेत देता है कि GPT-5.4 का नंबर स्व‑रिपोर्टेड हार्नेस से आया है। GPT-5.4 ने Interactive Thinking के जरिए मिड‑रिस्पॉन्स प्लान एडजस्टमेंट भी पेश किया: जटिल तर्क के दौरान, आप जनरेशन पूरी होने से पहले ही दखल देकर दिशा बदल सकते हैं। Opus 4.7 में इसका समकक्ष नहीं है। SWE-bench का अंतर वास्तविक है, हालांकि: वेंडर‑चुने बेंचमार्क पर छह अंक उपयोगी संकेत हैं, अंतिम फैसला नहीं।
कॉन्टेक्स्ट विंडो और लंबा‑कॉन्टेक्स्ट कार्य
दोनों मॉडल लगभग 1M टोकन सपोर्ट करते हैं; फर्क यह है कि जब आप वह कॉन्टेक्स्ट इस्तेमाल करते हैं तो बिल पर क्या असर होता है। Opus 4.7 पूरे विंडो में फ्लैट रेट लेता है, इसलिए 900K‑टोकन रिक्वेस्ट का प्रति‑टोकन खर्च 9K वाले के बराबर है। GPT-5.4 272K इनपुट टोकन से कम पर प्रति मिलियन $2.50 चार्ज करता है, लेकिन वह सीमा पार करते ही पूरी सेशन की रीप्राइसिंग हो जाती है। सटीक नंबर प्राइसिंग सेक्शन में कवर करूंगा।
एक टोकनाइज़र पेच भी है: Opus 4.7 एक ही टेक्स्ट को 4.6 की तुलना में अधिकतम 35% ज़्यादा टोकन में मैप कर सकता है। प्रति‑टोकन कीमत समान है, पर प्रति‑कार्य प्रभावी लागत बढ़ सकती है।
वास्तविक लंबा‑कॉन्टेक्स्ट प्रदर्शन पर, पार्टनर टेस्टिंग ने Opus 4.7 को छह रिसर्च मॉड्यूल्स में 0.715 की उच्चतम कंसिस्टency स्कोर पर टाई पर रखा। 1M लिमिट के करीब भरने वाली RAG पाइपलाइंस पर वेंडर बेंचमार्क पर निर्भर होने से पहले अपने वर्कलोड पर टेस्ट करें।
टूल यूज़, मल्टिमोडैलिटी, और परिवेश इंटरेक्शन
कागज़ पर टूल सरफेस मिलते‑जुलते दिखते हैं और व्यवहार में ज़्यादा अलग पड़ते हैं। OSWorld-Verified (डेस्कटॉप कंप्यूटर यूज़) पर, Opus 4.7 अब 78.0% पर आगे है जबकि GPT-5.4 75.0% पर है, और दोनों 72.4% मानव विशेषज्ञ बेसलाइन से ऊपर हैं। ब्राउज़र‑आधारित वेब रिसर्च पर तस्वीर उलटती है: BrowseComp (Pro वैरिएंट) पर GPT-5.4 89.3% तक पहुँचता है जबकि Opus 4.7 79.3% पर है। एकल "कंप्यूटर यूज़" हेडलाइन डेस्कटॉप बनाम ब्राउज़र के विभाजन को छुपा देती है।
Opus 4.7 का प्रमुख मल्टिमॉडल अपग्रेड विज़न रेज़ोल्यूशन है: लंबे किनारे पर 2,576 पिक्सेल तक की इमेज, लगभग 3.75 मेगापिक्सेल, जो पहले के Claude मॉडलों से तीन गुना से अधिक है, और यह बिना किसी API पैरामीटर के स्वतः उच्च निष्ठा पर प्रोसेस होती है। सुरक्षा परीक्षण पार्टनर XBOW ने विज़ुअल एक्यूटी को Opus 4.6 पर 54.5% से 4.7 पर 98.5% तक छलांग लगाते हुए रिपोर्ट किया, जो इस रिलीज़ की किसी भी पार्टनर इवैल्यूएशन में सबसे तेज़ सिंगल‑बेंचमार्क बढ़त है।
दोनों टूल आर्किटेक्चर में भी अलग हैं। GPT-5.4 का टूल सर्च सिस्टम डिफिनिशन को ऑन‑डिमांड लोड करता है, बजाय उन्हें प्रॉम्प्ट में एम्बेड करने के, जिससे बड़े टूल इकोसिस्टम में टोकन ओवरहेड घटता है। Opus 4.7 टूल्स की ओर बढ़ने से पहले समस्या पर तर्क करता है, कुल मिलाकर कम टूल कॉल करता है; उच्च प्रयास स्तरों पर टूल यूज़ बढ़ता है।
स्टियरएबिलिटी, विश्वसनीयता, और आउटपुट शैली
Opus 4.7 निर्देशों को शाब्दिक रूप से लेता है। यह एक आइटम से दूसरे पर सामान्यीकरण नहीं करेगा या वे अनुरोध नहीं मानेगा जो आपने किए नहीं हैं, इसलिए 4.6 के लिए लिखे प्रॉम्प्ट अप्रत्याशित व्यवहार कर सकते हैं; Anthropic पुनः‑ट्यूनिंग की सलाह देता है। फायदा यह है कि लंबे एजेंटिक लूप्स में विश्वसनीयता बढ़ती है: Ramp की इंजीनियरिंग टीम ने मल्टी‑टूल वर्कफ़्लो में स्टेप‑बाय‑स्टेप गाइडेंस की ज़रूरत में उल्लेखनीय कमी नोट की, और Hexagon की टेस्टिंग में कम प्रयास पर Opus 4.7 लगभग Opus 4.6 के मीडियम के बराबर पाया गया।
Anthropic ने xhigh को high और max के बीच नए प्रयास स्तर के रूप में पेश किया, और Claude Code का डिफ़ॉल्ट सभी प्लान पर xhigh पर बढ़ाया। नए टोकनाइज़र के साथ मिलकर, बाद की एजेंटिक टर्न्स पर आउटपुट टोकन काउंट 4.6 की तुलना में ज़्यादा चल सकते हैं; टास्क बजट (अब पब्लिक बीटा में) आपको किसी सत्र में एजेंट के खर्च पर कैप लगाने देते हैं। GPT-5.4 की स्टियरएबिलिटी कहानी का केंद्र Interactive Thinking है, जैसा कि मैंने कोडिंग सेक्शन में कवर किया, और OpenAI की प्रॉम्प्ट गाइड नोट करती है कि स्पष्ट आउटपुट कॉन्ट्रैक्ट दिए जाने पर मॉडल अच्छा प्रदर्शन करता है।
Anthropic के अपने सेफ्टी इवैल्यूएशन की एक टिप्पणी: Opus 4.7 ने ईमानदारी और प्रॉम्प्ट इंजेक्शन रेज़िस्टेंस में 4.6 पर सुधार किया, लेकिन नियंत्रित पदार्थों पर अत्यधिक विस्तृत हानि‑न्यूनन सलाह का प्रतिरोध करने में थोड़ा गिरावट आई। Anthropic का समग्र आकलन: "काफी हद तक अच्छी तरह संरेखित और भरोसेमंद, हालांकि व्यवहार में पूरी तरह आदर्श नहीं।"
बेंचमार्क टेस्ट पर Opus 4.7 बनाम GPT-5.4
बेंचमार्क ध्यान से देखने लायक हैं, और एक सीमा तक ही भरोसे लायक। दोनों वेंडरों ने वे बेंचमार्क चुने जो उन्हें फ़ायदा देते हैं, और Vals.ai व Artificial Analysis ने इस लेखन के समय तक Opus 4.7 को इंडेक्स नहीं किया था। इनसे निष्कर्ष निकालने से पहले अपने कार्यों पर टेस्ट करें।
कोडिंग बेंचमार्क
नीचे दी तालिका प्रत्येक वेंडर की रिलीज़ सामग्री से सबसे प्रासंगिक कोडिंग साक्ष्य कवर करती है।
|
बेंचमार्क |
Claude Opus 4.7 |
GPT-5.4 |
नोट्स |
|
SWE-bench Pro |
64.3% |
57.7% |
वेंडर‑रिपोर्टेड; अलग हार्नेस कॉन्फ़िगरेशन |
|
SWE-bench Verified |
87.6% |
प्रकाशित नहीं |
OpenAI ने इस वैरिएंट पर आधिकारिक स्कोर जारी नहीं किया |
|
CursorBench |
~70% |
प्रकाशित नहीं |
Cursor Anthropic पार्टनर है; स्वतंत्र नहीं |
|
Terminal-Bench 2.0 |
69.4% |
75.1% |
Anthropic नोट करता है कि GPT-5.4 का नंबर स्व‑रिपोर्टेड हार्नेस से है; GPT-5.4 GPT-5.3-Codex (77.3%) से भी पीछे हटा |
|
GPQA Diamond |
94.2% |
94.4% (Pro) |
व्यवहारिक रूप से बराबरी; इस स्तर पर लगभग संतृप्त |

कोडिंग बेंचमार्क स्पष्ट रूप से Opus 4.7 के पक्ष में हैं। इमेज: लेखक।
SWE-bench के कई वैरिएंट हैं और दोनों वेंडरों ने वह हाईलाइट किया जहाँ वे सबसे अच्छा करते हैं। Anthropic ने मेमोराइज़ेशन स्क्रीन लगाए और रिपोर्ट किया कि फ़्लैग किए गए प्रॉब्लम हटाने पर भी Opus 4.7 की बढ़त बनी रहती है। संदर्भ के लिए: Z.ai का ओपन‑वेट GLM-5.1 ने अप्रैल 2026 की शुरुआत में SWE-bench Pro पर 58.4% के साथ संक्षेप में बढ़त ली थी, जो Opus 4.7 के 64.3% आने से पहले थी, इसलिए यहाँ कोई भी "स्टेट ऑफ द आर्ट" दावा कम समय का है।
एजेंट और कंप्यूटर‑यूज़ बेंचमार्क
Opus 4.7 की रिलीज़ के साथ, Anthropic ने अधिकांश एजेंटिक बेंचमार्क्स पर दोनों मॉडलों के तुलनात्मक नंबर प्रकाशित किए। तस्वीर एकतरफा नहीं, मिश्रित है।
|
बेंचमार्क |
Claude Opus 4.7 |
GPT-5.4 |
नोट्स |
|
OSWorld-Verified |
78.0% |
75.0% |
डेस्कटॉप कंप्यूटर यूज़; दोनों 72.4% मानव विशेषज्ञ बेसलाइन से ऊपर |
|
BrowseComp |
79.3% |
89.3% (Pro) |
मल्टी‑हॉप रीजनिंग के साथ वेब रिसर्च; GPT-5.4 आगे |
|
MCP-Atlas |
77.3% |
68.1% |
कई कनेक्टेड सेवाओं में स्केल्ड टूल यूज़ |
|
WebArena-Verified |
प्रकाशित नहीं |
67.3% |
स्वायत्त वेब नेविगेशन टास्क |
|
Toolathlon |
प्रकाशित नहीं |
54.6% |
मल्टी‑स्टेप टूल ऑर्केस्ट्रेशन; GPT-5.2 के 46.3% से ऊपर |
|
Finance Agent v1.1 |
64.4% |
61.5% (Pro) |
लंबा‑कॉन्टेक्स्ट वित्तीय रिसर्च एजेंट |
|
GDPval-AA |
1753 Elo |
1674 Elo |
प्रोफेशनल नॉलेज वर्क; Opus 4.7 79 Elo अंकों से आगे |
|
BigLaw Bench |
उच्च प्रयास पर 90.9% |
प्रकाशित नहीं |
कानूनी दस्तावेज़ कार्य; Harvey पार्टनर इवैल्यूएशन |
तस्वीर परिवेश के हिसाब से बंटती है: डेस्कटॉप, टूल यूज़ और नॉलेज वर्क पर Opus 4.7 जीतता है; ब्राउज़र रिसर्च पर GPT-5.4। कई GPT-5.4 नंबर Pro वैरिएंट से आते हैं, इसलिए स्टैंडर्ड टियर कम स्कोर कर सकता है। साझा स्कैफोल्ड पर स्वतंत्र रन अगला कदम हैं।
Opus 4.7 बनाम GPT-5.4: प्राइसिंग
हेडलाइन्स रेट सरल दिखते हैं। वास्तविक लागत तस्वीर ऐसी नहीं है।
API प्राइसिंग स्ट्रक्चर
प्राइसिंग का अंतर कुछ ठोस परिदृश्यों से सबसे आसानी से समझ आता है।
100K‑टोकन इनपुट और 10K‑टोकन आउटपुट रिक्वेस्ट (GPT-5.4 की 272K सीमा से काफी कम) पर, GPT-5.4 लगभग $0.40 पड़ता है जबकि Opus 4.7 का $0.75। शॉर्ट‑टू‑मीडियम कॉन्टेक्स्ट कार्य के लिए लगभग आधी कीमत।
500K इनपुट और 20K आउटपुट पर, जो GPT-5.4 की सीमा के पार है, दोनों मॉडलों की लागत लगभग बराबर है: $2.95 बनाम $3.00। 900K इनपुट और 10K आउटपुट पर तो लगभग एक जैसी।
272K रीप्राइसिंग सीमा वह हिस्सा है जो लोगों को अनजान में पकड़ लेता है: यह पूरे सेशन पर लागू होती है, सिर्फ कटऑफ से ऊपर के टोकन पर नहीं। जो पाइपलाइन नियमित रूप से 280K‑टोकन प्रॉम्प्ट भेजती है, वह हर एक रिक्वेस्ट पर पूरा लॉन्ग‑कॉन्टेक्स्ट रेट चुकाती है, न कि सिर्फ अतिरिक्त 8K पर। यह सेशन‑लेवल रीप्राइस है, मार्जिनल सरचार्ज नहीं।

272K टोकन के बाद GPT-5.4 की लागत बढ़ती है। इमेज: लेखक।
जैसा मैंने कॉन्टेक्स्ट विंडो सेक्शन में बताया, नया टोकनाइज़र वही इनपुट 4.6 की तुलना में अधिकतम 35% ज़्यादा टोकन में मैप कर सकता है। प्रति‑टोकन कीमत समान है, पर आपकी वास्तविक प्रति‑टास्क लागत बढ़ सकती है। वास्तविक ट्रैफ़िक पर मापें; 4.6 बेसलाइन से एक्सट्रपोलेट करने पर नंबर कम पड़ेगा।
दोनों प्लेटफॉर्म कैश्ड इनपुट टोकन पर लगभग 90% छूट देते हैं: Opus 4.7 के लिए प्रति मिलियन $0.50, GPT-5.4 के लिए 272K के नीचे प्रति मिलियन $0.25। बैच API गैर‑जरूरी कार्यों के लिए लगभग 50% और कम कर देते हैं। असिंक्रोनस वर्कलोड्स के लिए, ये छूट किसी भी प्लेटफ़ॉर्म पर सबसे बड़ा लीवर हैं।
कुछ प्रति‑टूल लागतें भी हैं जो अक्सर छूट जाती हैं। Anthropic 1,000 वेब सर्च पर $10 चार्ज करता है, साथ ही प्राप्त कंटेंट के स्टैंडर्ड टोकन कॉस्ट। OpenAI फाइल सर्च स्टोरेज और क्वेरी के लिए अलग‑अलग चार्ज करता है। टूल‑हेवी पाइपलाइंस में ये जोड़ खाते हैं।
विभिन्न वर्कलोड्स के लिए लागत
शॉर्ट‑कॉन्टेक्स्ट, हाई‑वॉल्यूम कार्य (100K टोकन से कम API कॉल, बैच क्लासिफिकेशन, रैपिड इटरेशन) के लिए GPT-5.4 सस्ता है। इनपुट कॉस्ट का गैप 2x तक पहुँच सकता है।
272K टोकन के बाद, बढ़त उलट जाती है। Opus 4.7 की फ्लैट रेट बजट बनाना आसान करती है और कुल लागत में GPT-5.4 से लगभग मेल खाती है।
दोनों प्लेटफ़ॉर्म डेटा‑रेज़िडेंसी पर छोटा प्रीमियम लेते हैं (दोनों तरफ़ लगभग 10%)। उस स्तर पर, यह प्राइसिंग नहीं, कॉम्प्लायंस का निर्णय है। एजेंटिक Claude Code सत्रों के लिए, टास्क बजट (स्टियरएबिलिटी सेक्शन में कवर) टोकन खर्च का मुख्य लीवर हैं।
क्या Claude Opus 4.7 GPT-5.4 से बेहतर है?
कोई सार्वभौमिक उत्तर नहीं है, और जो भी लेख आपको ऐसा बताए, वह कुछ बेच रहा है।
Claude Opus 4.7 चुनें यदि आपका प्राथमिक काम लंबे समय तक चलने वाली सॉफ्टवेयर इंजीनियरिंग है जहाँ सेल्फ‑वेरिफिकेशन मायने रखता है, आपका एजेंट डेस्कटॉप एप्लिकेशन चलाता है, आपके प्रॉम्प्ट नियमित रूप से 272K टोकन से ऊपर जाते हैं, आपका वर्कफ़्लो घने स्क्रीनशॉट या तकनीकी डायग्राम पढ़ता है, या आप पहले से Claude Code, Cursor, Replit, या Devin पर हैं।
GPT-5.4 चुनें यदि आपका एजेंट भारी ब्राउज़र‑आधारित वेब रिसर्च करता है, आपके वर्कलोड 272K टोकन के भीतर रहते हैं और लागत मायने रखती है, आप बड़े टूल इकोसिस्टम पर डिफर्ड टूल लोडिंग चाहते हैं, या आपकी टीम पहले से OpenAI Responses API पर है।
दोनों का परीक्षण करने पर विचार करें यदि आपका काम स्वायत्त वेब रिसर्च और लंबी‑फॉर्म कोडिंग के बीच बंटता है। GPT-5.4 की ब्राउज़र और टर्मिनल ताकतें एजेंटिक वेब वर्कफ़्लो के अनुकूल हैं; Opus 4.7 की लूप रेज़िस्टेंस और फ्लैट‑रेट प्राइसिंग गहन इंजीनियरिंग सत्रों और दस्तावेज़‑हेवी पाइपलाइंस के लिए बेहतर काम करती हैं।

अपने वर्कफ़्लो के लिए सही मॉडल चुनना। इमेज: लेखक।
एक बात दोनों विकल्पों पर लागू होती है: असिंक्रोनस वर्कलोड्स के लिए बैच API छूट मॉडल चयन से भी ज़्यादा मायने रख सकती है। और चूँकि Opus 4.7 के स्वतंत्र बेंचमार्क अभी पकड़ बना रहे हैं, अपने वास्तविक काम के एक हिस्से पर पायलट करना किसी भी तुलना लेख, जिसमें यह भी शामिल है, से ज़्यादा मूल्यवान है।
निष्कर्ष
Claude Opus 4.7 और GPT-5.4 के बीच का अंतर इस बात से अधिक है कि आप किस प्रकार का काम कर रहे हैं, न कि कौन‑सा मॉडल अधिक स्मार्ट है।
Anthropic ने स्वायत्तता पर दांव लगाया: ऐसा मॉडल जो लंबी इंजीनियरिंग रन पर सुसंगति बनाए रखे और अपना आउटपुट खुद जाँचे। OpenAI ने विस्तार पर दांव लगाया: व्यापक टूल सरफेस और उन अधिकांश प्रॉम्प्ट्स के लिए सस्ती दरें जो 272K टोकन के भीतर रहती हैं।
प्राइसिंग वह जगह है जहाँ ज्यादातर टीमें चौंक जाती हैं, और जैसा मैंने पहले कवर किया, 272K सेशंस पर प्राइसिंग बदलना खास जाल है। जो चीज़ वास्तव में मासिक खर्च को बेस रेट चयन से अधिक हिलाती है, वह आमतौर पर कैशिंग और दोनों प्लेटफॉर्म पर बैच API की छूट है।
बेंचमार्क के गैप एकल अंकों के हैं, और दोनों वेंडर हर कुछ हफ्तों में नए मॉडल भेज रहे हैं। वह चुनें जो आपके वास्तविक स्टैक में फ़िट बैठता हो और एक महीने में फिर से देखें।
यदि आप इन मॉडलों को काम में लगाने पर गहराई से जाना चाहते हैं, तो हमारा Software Development with Cursor कोर्स AI‑सहायता प्राप्त कोडिंग वर्कफ़्लो को व्यवहार में कवर करता है।
FAQs
क्या Claude Opus 4.7 Anthropic की API के बाहर उपलब्ध है?
हाँ। Opus 4.7 Amazon Bedrock, Google Cloud Vertex AI, और Microsoft Foundry पर मॉडल ID claude-opus-4-7 के तहत उपलब्ध है। क्षेत्रीय उपलब्धता और कैश्ड‑टोकन प्राइसिंग क्लाउड के बीच बदल सकती है, इसलिए यदि आपके डिप्लॉयमेंट के लिए डेटा‑रेज़िडेंसी मायने रखती है तो प्रदाता का पेज देखें।
Opus 4.6 से Opus 4.7 पर माइग्रेट करते समय क्या मुझे अपनी API कोड अपडेट करनी होगी?
हाँ, तीन ब्रेकिंग बदलाव। temperature, top_p, या top_k को नॉन‑डिफ़ॉल्ट वैल्यू पर सेट करना अब 400 एरर लौटाता है। पुराना budget_tokens पैरामीटर फेल होता है; इसे थिंकिंग को एडेप्टिव मोड पर सेट करके बदलें। और नया टोकनाइज़र प्रति रिक्वेस्ट ज़्यादा टोकन जनरेट करता है, इसलिए कोई भी हार्डकोडेड max_tokens सीलिंग जो 4.6 पर टाइट थी, 4.7 पर आउटपुट काट सकती है। अपने प्रॉम्प्ट भी फिर से ट्यून करें: 4.7 निर्देशों को 4.6 की तुलना में अधिक शाब्दिक लेता है।
कोडिंग के लिए कौन‑सा मॉडल बेहतर है?
Opus 4.7 SWE-bench Pro पर आगे है (64.3% बनाम 57.7%) और SWE-bench Verified पर (87.6%; OpenAI ने यहाँ स्कोर प्रकाशित नहीं किया)। Terminal-Bench 2.0 पर GPT-5.4 75.1% बनाम 69.4% से आगे है, हालांकि Anthropic बताता है कि यह नंबर स्व‑रिपोर्टेड हार्नेस से है। रिपॉज़िटरी‑लेवल इंजीनियरिंग के लिए Opus 4.7, टर्मिनल‑हेवी वर्कफ़्लो के लिए GPT-5.4। साझा स्कैफोल्ड पर स्वतंत्र इवैल्यूएशन अभी लंबित हैं।
Opus 4.7 टोकनाइज़र बदलाव का लागत पर क्या प्रभाव पड़ता है?
रेंज 1.0 से 1.35x है, फ्लैट 35% नहीं, इसलिए असर कंटेंट टाइप पर निर्भर है। कम स्पष्ट कारक: 4.7 बाद की एजेंटिक टर्न्स पर उच्च प्रयास स्तरों पर ज़्यादा "सोचता" भी है, इसलिए टोकन काउंट सेशन भर में कंपाउंड होते हैं। टास्क बजट व्यावहारिक हार्ड स्टॉप हैं।
क्या GPT-5.4, Claude Opus 4.7 की तुलना में टूल्स का बेहतर उपयोग करता है?
अलग‑अलग तरीकों से। GPT-5.4 में व्यापक बिल्ट‑इन टूल सरफेस है (वेब सर्च, फाइल सर्च, कोड इंटरप्रेटर, कंप्यूटर यूज़) और ऑन‑डिमांड टूल लोडिंग है। Opus 4.7 कम टूल कॉल करता है और पहले से तर्क करता है। Notion ने रिपोर्ट किया कि Opus 4.7 उनके इम्प्लिसिट‑नीड टेस्ट पास करने वाला पहला मॉडल था और इसने 4.6 की तुलना में एक‑तिहाई टूल त्रुटियाँ पैदा कीं। MCP-Atlas (स्केल्ड टूल यूज़) पर, Opus 4.7 77.3% बनाम 68.1% से आगे है, इसलिए व्यापक सरफेस अपने‑आप बेहतर ऑर्केस्ट्रेशन नहीं दर्शाता।