एजेंट हार्नेस क्या है? AI एजेंट्स को टूल्स, मेमोरी और नियंत्रण कैसे मिलते हैं

जानें कि एजेंट हार्नेस क्या है, AI एजेंट्स को इसकी क्यों जरूरत होती है, यह फ्रेमवर्क्स और रंटाइम्स से कैसे अलग है, और डेवलपर्स ऐसे हार्नेस-जैसे सिस्टम बनाने के लिए किन टूल्स का उपयोग कर सकते हैं।

अद्यतन 15 मई 2026 · 11 मि॰ पढ़ना

यह विचार बिल्कुल नया नहीं है। डेवलपर्स वर्षों से मॉडलों के चारों ओर रैपर्स, स्कैफोल्ड्स और एक्जिक्यूशन एन्वायरनमेंट बना रहे थे। यह लेबल तब फैला जब HashiCorp के सह-संस्थापक Mitchell Hashimoto ने फरवरी 2026 की एक ब्लॉग पोस्ट में अपने AI वर्कफ़्लो के संदर्भ में "हर्नेस इंजीनियरिंग" शब्द का उपयोग किया। उनका तर्क सरल था: जब कोई एजेंट गलती करता है, तो परिवेश को इस तरह बदलें कि वह गलती दोबारा न हो सके। OpenAI ने उसी सप्ताह इसे अपने Codex कार्य में अपनाया, और LangChain ने भी वही रूपरेखा अपनाई।

इस लेख में, मैं समझाऊंगा कि एजेंट हार्नेस क्या है, AI एजेंट्स को इसकी क्यों जरूरत होती है, यह फ्रेमवर्क्स और रंटाइम्स से कैसे भिन्न है, और डेवलपर्स ऐसे हार्नेस-जैसे सिस्टम बनाने के लिए किन टूल्स का उपयोग करते हैं।

एजेंट हार्नेस क्या है?

एक परिभाषा LangChain से आती है: "यदि आप मॉडल नहीं हैं, तो आप हार्नेस हैं।" व्यवहार में, एजेंट हार्नेस भाषा मॉडल के चारों ओर रहने वाला सॉफ़्टवेयर है: टूल्स, मेमोरी, स्टेट, एक्जिक्यूशन, गार्डरेल्स और ऑब्ज़र्वेबिलिटी।

Agent = Model + Harness

मॉडल तर्क करता है। हार्नेस उस तर्क को कार्य करने, याद रखने, परिणाम जाँचने और नियमों का पालन करने की जगह देता है।

कार्यरत एजेंट हार्नेस के भीतर मॉडल। चित्र: लेखक।

यह फ़ॉर्मूला उपयोगी है, लेकिन यह एक मानसिक मॉडल है, कोई उद्योग मानक नहीं। कुछ विक्रेता अब भी "हार्नेस", "फ्रेमवर्क" और "स्कैफोल्ड" को लगभग एक ही अर्थ में प्रयोग करते हैं।

AI एजेंट्स को हार्नेस की क्यों जरूरत होती है

जब आप किसी भाषा मॉडल से कई चरणों में काम करने के लिए कहते हैं, तो कच्चे मॉडल की सीमाएँ सामने आती हैं। यह अपने आप टिकाऊ स्टेट नहीं रखता, अपने आप टूल्स नहीं चलाता, बढ़ती संदर्भ विंडो का प्रबंधन नहीं करता, या असफल टूल कॉल से बिना मदद के उबर नहीं पाता।

कल्पना कीजिए कि किसी एजेंट को एक Python प्रोजेक्ट में फेल हो रहे टेस्ट को ठीक करने के लिए कहा गया है। हार्नेस के बिना, मॉडल ऐसा समाधान लिख सकता है जो देखने में सही लगे, पर वह वास्तविक टेस्ट फ़ाइल नहीं पढ़ सकता, pytest नहीं चला सकता, असली त्रुटि नहीं देख सकता, फेल हो रहे फ़ंक्शन में संपादन नहीं कर सकता, या यह पुष्टि नहीं कर सकता कि फ़िक्स पास हो गया। हार्नेस के साथ, पूरा लूप कुछ मिनटों का स्वचालित काम बन जाता है, और हर चरण कहीं लॉग होता है जिसे इंसान देख सकता है।

फिर भी Anthropic की सलाह लागू होती है: सबसे सरल तरीके से शुरू करें और केवल तब ही हिस्से जोड़ें जब कार्य को उनकी जरूरत पड़े।

एजेंट हार्नेस किन चीज़ों से बनता है

घटक अलग-अलग हो सकते हैं, पर अधिकांश में कुछ सामान्य बिल्डिंग ब्लॉक्स होते हैं। इन्हें एक चेकलिस्ट की तरह देखें, न कि किसी सख्त प्रोडक्ट स्पेसिफिकेशन की तरह। एक छोटा एजेंट इनमें से कुछ ही हिस्सों से काम चला सकता है, जबकि प्रोडक्शन एजेंट को अधिक की आवश्यकता पड़ेगी।

सिस्टम प्रॉम्प्ट्स और व्यवहार नियम

हार्नेस आमतौर पर मॉडल के बेसलाइन निर्देशों को नियंत्रित करता है। इसमें सिस्टम प्रॉम्प्ट शामिल होता है, लेकिन इसमें प्रोजेक्ट नियम, कोडिंग मानक, भूमिका संबंधी सीमाएँ और सुरक्षा नीतियाँ भी शामिल हो सकती हैं। उदाहरण के लिए, LangChain के Deep Agents में एक AGENTS.md फ़ाइल कार्य शुरू होने से पहले मूल नियम तय कर सकती है।

2026 के कुछ हार्नेस निर्देशों के लिए प्रोग्रेसिव डिस्क्लोज़र भी अपनाते हैं। स्टार्टअप पर हर टूल विवरण को संदर्भ में लोड करने के बजाय, हार्नेस केवल उपलब्ध चीज़ों का सारांश जोड़ता है। किसी टूल के पूर्ण निर्देश तभी लोड होते हैं जब मॉडल को वास्तव में उस टूल की जरूरत पड़ती है।

टूल्स: एजेंट दुनिया से कैसे इंटरैक्ट करते हैं

टूल्स एजेंट को टेक्स्ट जनरेशन से आगे जाकर काम करने देते हैं। सामान्य उदाहरण हैं वेब सर्च, फ़ाइल पढ़ना-लिखना, डेटाबेस क्वेरी, API कॉल्स, ब्राउज़र एक्शन, कोड एक्जिक्यूशन और टर्मिनल कमांड्स। हार्नेस नियंत्रित करता है कि कौन से टूल उपलब्ध हैं, मॉडल उन्हें कब कॉल कर सकता है, और परिणाम कैसे फॉर्मैट होकर एजेंट के संदर्भ में लौटते हैं।

Model Context Protocol (MCP) 2026 में इसके लिए एक मानक इंटरफ़ेस बन गया है। कई हार्नेस, जिनमें Anthropic Agent SDK, LangChain Deep Agents और OpenAI Agents SDK शामिल हैं, अलग-अलग टूल सर्वरों से जुड़ने के लिए MCP का उपयोग करते हैं ताकि हर एक के लिए कस्टम इंटीग्रेशन कोड न लिखना पड़े।

मेमोरी और स्टेट

एजेंट्स को यह जानना होता है कि कार्य में पहले क्या हुआ। हार्नेस सक्रिय बातचीत में अल्पकालिक स्टेट रख सकता है और दीर्घकालिक स्टेट फ़ाइलों, लॉग्स, सारांशों या सहेजी गई प्राथमिकताओं में रख सकता है। कुछ हार्नेस लंबा इतिहास छोटे सारांशों में समेटते हैं ताकि मॉडल संदर्भ में हर विवरण न ढोए।

एक्जिक्यूशन एन्वायरनमेंट: जहाँ एजेंट चलता और कार्य करता है

कई उपयोगी एजेंट्स को वास्तव में काम करने के लिए कोई जगह चाहिए। वह फ़ाइलसिस्टम, कंटेनर, सैंडबॉक्स्ड टर्मिनल, ब्राउज़र इंस्टेंस, या क्लाउड रंटाइम हो सकता है। हार्नेस द्वारा प्रबंधित एक्जिक्यूशन एन्वायरनमेंट के बिना, टूल कॉल्स के पास जाने की कोई जगह नहीं होती।

कई हार्नेस अब आइसोलेटेड सैंडबॉक्स कंटेनर्स का उपयोग करते हैं: एकल सत्र तक सीमित, अल्पकालिक एन्वायरनमेंट, जो कार्य के अंत में साफ़ कर दिए जाते हैं, ताकि किसी एक एजेंट कार्य से फ़ाइल लिखना, पैकेज इंस्टॉलेशन और नेटवर्क कॉल्स दूसरे में न घुलें-मिलें।

ऑर्केस्ट्रेशन और प्लानिंग

कुछ कार्य एक सीधी रेखा में फिट नहीं होते। हार्नेस एक प्लानिंग टूल दे सकता है जो लक्ष्य को उप-कार्यों में बाँटता है और उनकी स्थिति ट्रैक करता है। यह ऐसे सबएजेंट भी बना सकता है जो काम के एक हिस्से को संभालें और केवल सारांश मुख्य एजेंट को लौटाएँ।

उदाहरण के लिए, LangChain Deep Agents प्लान स्टेप्स को फ़ाइलसिस्टम पर एक फ़ाइल में ट्रैक करता है और टास्क के चलने के साथ प्रत्येक चरण को pending से completed में अपडेट करता है।

गार्डरेल्स और परमिशन्स

नियम यहीं रखे जाते हैं: मानव अनुमोदन, ब्लॉक्ड टूल कॉल्स, भूमिका-आधारित परमिशन्स और आउटपुट चेक्स। OpenAI Agents SDK, LangChain Deep Agents और Microsoft Agent Framework इस तरह के नियंत्रण का समर्थन करते हैं। सुरक्षित पैटर्न यह है कि इनपुट, आउटपुट और टूल परमिशन्स को अलग-अलग जाँचा जाए।

ऑब्ज़र्वेबिलिटी और ट्रेसिंग

जब पचास-चरण का एजेंट कार्य सैंतीसवें चरण पर असफल होता है, तो एक ट्रेस बताता है कि क्या हुआ। ट्रेसिंग पूरे रन में मॉडल कॉल्स, टूल कॉल्स, हैंडऑफ़्स, एरर्स, लेटेंसी और कॉस्ट रिकॉर्ड करती है। OpenAI Agents SDK डिफ़ॉल्ट रूप से ट्रेसिंग ऑन रखता है। LangSmith इसके ऊपर डिबगिंग और मूल्यांकन डैशबोर्ड जोड़ता है। OpenTelemetry विक्रेता-न्यूट्रल फ़ॉर्मेट में ट्रेसेज़ एक्सपोर्ट करने का मानक बन गया है, ताकि आप किसी एक ऑब्ज़र्वेबिलिटी टूल में लॉक न हों।

एजेंट हार्नेस बनाम फ्रेमवर्क बनाम रंटाइम: फर्क क्या है?

यह सवाल अक्सर उठता है, और इसका जवाब उतना साफ़ नहीं है जितना अधिकांश एक्सप्लेनर्स बताते हैं। यह वर्गीकरण उपयोगी है, लेकिन स्थिर नहीं।

तीन लेयर्स, नीचे से ऊपर बढ़ती एब्स्ट्रैक्शन। चित्र: लेखक।

मैं फ्रेमवर्क से शुरू करूंगा, क्योंकि कई डेवलपर्स पहले से किसी न किसी का उपयोग कर चुके हैं।

एजेंट फ्रेमवर्क क्या है?

एक एजेंट फ्रेमवर्क डेवलपर्स को एजेंट बनाने के लिए बिल्डिंग ब्लॉक्स देता है। यह मॉडल कॉल्स, टूल परिभाषाएँ, मेमोरी पैटर्न और एजेंट लूप संरचना को कवर करता है। उदाहरण हैं शुरुआती LangChain, CrewAI और Google ADK। एक फ्रेमवर्क आपको बताता है कि एजेंट को कैसे स्ट्रक्चर करें, लेकिन यह हमेशा नहीं बताता कि उसे प्रोडक्शन में भरोसेमंद तरीके से कैसे चलाएँ।

एजेंट रंटाइम क्या है?

एजेंट रंटाइम वह लेयर है जो किसी एजेंट को समय के साथ भरोसेमंद रूप से चलाने में मदद करती है। यह ड्यूरेबल एक्जिक्यूशन, स्टेट परसिस्टेंस, रिट्राईज़, ह्यूमन-इन-द-लूप स्टेप्स और स्ट्रीमिंग संभालती है। LangGraph, Temporal और Inngest इसके उदाहरण हैं। Harrison Chase ने यह उपमा दी: यदि Node.js रंटाइम है और Express फ्रेमवर्क है, तो हार्नेस Next.js जैसा है।

हार्नेस अलग कैसे है?

हार्नेस फ्रेमवर्क से अधिक उच्च-स्तरीय होता है। जहाँ फ्रेमवर्क आपको कंपोनेंट्स देता है, वहीं हार्नेस आमतौर पर अधिक पहले से किए गए निर्णयों के साथ आता है: टूल्स, प्लानिंग, फ़ाइलसिस्टम एक्सेस, और कॉन्टेक्स्ट मैनेजमेंट।

एजेंट हार्नेस उपयोग मामले: कोडिंग, रिसर्च, डेटा और एंटरप्राइज़

एक ही बिल्डिंग ब्लॉक्स बहुत अलग नौकरियों में दिखते हैं, लेकिन फर्क मिश्रण में होता है। कोडिंग एजेंट और एंटरप्राइज़ वर्कफ़्लो एजेंट दोनों को हार्नेस चाहिए, पर वे इसके अलग-अलग हिस्सों पर ज़ोर डालते हैं। ये श्रेणियाँ औपचारिक मानक नहीं हैं—ये व्यावहारिक तरीके हैं यह देखने के कि एक ही विचार सामने वाले काम के अनुसार कैसे ढलता है।

कोडिंग एजेंट हार्नेस

कोडिंग एजेंट अच्छा उदाहरण हैं क्योंकि हार्नेस स्पष्ट दिखता है। उपयोगी कोडिंग कार्य करने के लिए एजेंट को फ़ाइल एक्सेस, git संदर्भ, टर्मिनल एक्जिक्यूशन, टेस्ट रनिंग, डिपेंडेंसी इंस्टॉलेशन और प्रोजेक्ट नियमों की जरूरत होती है। Claude Code और Codex इस पैटर्न के उदाहरण हैं: दोनों बहुत से हार्नेस कोड पर चलते हैं, कोई साधारण मॉडल API पर नहीं।

अच्छे और औसत दर्जे के कोडिंग हार्नेस में फर्क अक्सर छोटी-छोटी बातों में दिखता है: असफल टेस्ट से यह कैसे उबरता है, क्या यह खराब एडिट को रोल बैक कर सकता है, यह git इतिहास को मॉडल के सामने कितनी साफ़ तरह रखता है। असल इंजीनियरिंग मेहनत इन्हीं विवरणों में जाती है।

रिसर्च एजेंट हार्नेस

रिसर्च एजेंट्स को अलग टूलसेट चाहिए: वेब सर्च, स्रोत ट्रैकिंग, नोट-टेकिंग, सिटेशन मैनेजमेंट और समरीकरण। हार्नेस यह प्रबंधित करता है कि सर्च परिणाम कैसे संग्रहीत हों, स्रोतों का श्रेय कैसे दिया जाए, और लंबे दस्तावेज़ों को कैसे खंडों में बाँटकर ऑफ़लोड किया जाए ताकि पूरी संदर्भ विंडो एक साथ न खप जाए।

डेटा विश्लेषण एजेंट हार्नेस

डेटा एजेंट्स को डेटासेट्स, SQL डेटाबेस, Python एक्जिक्यूशन एन्वायरनमेंट्स और स्कीमा संदर्भ तक पहुँच चाहिए ताकि वे क्वेरी लिखने से पहले जान सकें कि कौन-सी टेबल्स और कॉलम उपलब्ध हैं। हार्नेस परमिशन सीमाओं को भी लागू करता है, जो तब महत्वपूर्ण होती हैं जब एजेंट प्रोडक्शन डेटा को छू सकता है।

एंटरप्राइज़ वर्कफ़्लो हार्नेस

एंटरप्राइज़ डिप्लॉयमेंट्स एक और परत जोड़ते हैं: ऑथेंटिकेशन, ऑडिट लॉग्स, अप्रूवल वर्कफ़्लो, भूमिका-आधारित ऐक्सेस कंट्रोल, और आंतरिक प्रणालियों से लिंक। AWS AgentCore इस श्रेणी में एक प्रबंधित उदाहरण है, जिसमें आइडेंटिटी, VPC नेटवर्किंग और ऑब्ज़र्वेबिलिटी शामिल हैं। Microsoft Agent Framework Azure या .NET वातावरण में टीमों के लिए इसी तरह की ज़मीन कवर करता है।

2026 में एजेंट हार्नेस सिस्टम बनाने के टूल्स

मध्य-2026 में कुछ ही प्रोडक्ट्स सबसे अधिक सामने आते हैं। वे फ्रेमवर्क–रंटाइम–हार्नेस स्पेक्ट्रम के अलग-अलग बिंदुओं पर बैठते हैं, और सीमाएँ अब भी बदल रही हैं।

LangChain Deep Agents

LangChain Deep Agents LangGraph (इसके रंटाइम) पर बना LangChain का ओपन-सोर्स हार्नेस है। यह प्लानिंग टूल, वर्चुअल फ़ाइलसिस्टम, सबएजेंट स्पॉनिंग, स्वचालित कॉन्टेक्स्ट कम्पैक्शन, और ह्यूमन-इन-द-लूप अप्रूवल व PII डिटेक्शन के लिए मिडलवेयर के साथ आता है। यह मॉडल-अज्ञेयवादी है, OpenAI-संगत एंडपॉइंट्स का समर्थन करता है, और कोड एक्जिक्यूशन के लिए Modal, Runloop और Daytona जैसे सैंडबॉक्स प्रदाताओं से जुड़ता है।

Anthropic Agent SDK

Anthropic Agent SDK (पैकेज नाम: claude-agent-sdk) Claude Code से निकाला गया और स्टैंडअलोन विकल्प के रूप में जारी किया गया। इसमें बिल्ट-इन एजेंट लूप, bash एक्जिक्यूशन, फ़ाइल पढ़ना-लिखना, वेब सर्च, MCP इंटीग्रेशन और कॉन्टेक्स्ट कम्पैक्शन के टूल्स शामिल हैं। यह केवल Claude मॉडलों के साथ काम करता है—Anthropic के API, Amazon Bedrock, Vertex AI और Azure पर।

OpenAI Agents SDK

जैसा कि ऊपर उल्लेख किया, OpenAI Agents SDK अपनी फीचर सेट बढ़ने के साथ फ्रेमवर्क से हार्नेस क्षेत्र में आ गया। अप्रैल 2026 की रिलीज़ ने नेटिव सैंडबॉक्स एक्जिक्यूशन, मेमोरी कम्पैक्शन और फ़ाइलसिस्टम टूल्स जोड़े। Python और TypeScript में उपलब्ध, SDK टूल उपयोग, एजेंट हैंडऑफ़्स और गार्डरेल्स को सपोर्ट करता है।

Google Agent Development Kit

Google ADK में मल्टी-एजेंट ऑर्केस्ट्रेशन के लिए बिल्ट-इन क्लासेस हैं—सीक्वेंशियल, पैरेलल और लूप-आधारित एजेंट संरचनाओं हेतु। इसमें इवैल्यूएशन टूल्स शामिल हैं, मैनेज्ड डिप्लॉयमेंट के लिए Vertex AI के साथ काम करता है, और टूल कनेक्टिविटी के लिए MCP सपोर्ट करता है। Python, Java, TypeScript और Go में उपलब्ध, यह Gemini मॉडलों के लिए ट्यून है, पर इसे मॉडल-अज्ञेयवादी बताया गया है।

Microsoft Agent Framework

Microsoft Agent Framework AutoGen प्रोजेक्ट्स के लिए Microsoft का वर्तमान माइग्रेशन पथ है। यह Python और .NET को सपोर्ट करता है, Azure AI सेवाओं के साथ काम करता है, और टूल कनेक्टिविटी के लिए MCP सपोर्ट शामिल है।

CrewAI

CrewAI मल्टी-एजेंट सिस्टम्स के लिए भूमिका-आधारित दृष्टिकोण अपनाता है। आप विशिष्ट भूमिकाओं वाले एजेंट्स परिभाषित करते हैं, कार्य सौंपते हैं, क्रू बनाते हैं, और डिक्लेरेटिव रूप से मेमोरी व गार्डरेल्स कॉन्फ़िगर करते हैं। यह उन समस्याओं पर फिट बैठता है जो स्वाभाविक रूप से विशेषज्ञों की टीम पर मैप होती हैं।

Temporal और Inngest

ये अपने आप में एजेंट हार्नेस नहीं हैं। ये ड्यूरेबल एक्जिक्यूशन प्लेटफ़ॉर्म हैं जो संभालते हैं कि जब किसी एजेंट का कार्य घंटों या दिनों तक बिना स्टेट खोए चलना पड़े तो क्या हो। विफलता पर, इंजन शुरुआत से शुरू करने के बजाय अंतिम सफल चेकपॉइंट से रीप्ले करता है।

एजेंट हार्नेस की चुनौतियाँ और समझौते

हार्नेस जोड़ने से सिस्टम अधिक कर सकता है, लेकिन हर नया टूल, परमिशन और एजेंट चीज़ों के टूटने का एक और रास्ता जोड़ देता है। जैसे-जैसे कार्य लंबे होते हैं, गार्डरेल्स, ट्रेसिंग और ड्यूरेबल स्टेट वैकल्पिक नहीं रहते—वे वही बन जाते हैं जो लंबे रन को रिकवर करने योग्य बनाए रखते हैं।

एक कपलिंग जोखिम भी है जो टीमों को चौंका देता है। LangChain ने tau2-bench के एक सबसेट पर 10 से 20 अंकों की छलांग की रिपोर्ट दी, मॉडल-विशिष्ट हार्नेस प्रोफाइल्स जोड़ने के बाद। Artificial Analysis ने अपने Coding Agent Index में भी यही बात कही: कोडिंग-एजेंट के परिणाम मॉडल और हार्नेस—दोनों पर निर्भर करते हैं, और लागत, टोकन उपयोग, तथा प्रति टास्क समय संयोजनों के अनुसार बहुत बदलते हैं। मॉडल नहीं बदला। आस-पास के प्रॉम्प्ट्स, टूल्स और मिडलवेयर बदले। वही प्रोफाइल बनाना भी हार्नेस का काम है।

क्या आपको वाकई एक एजेंट हार्नेस चाहिए?

यह सोचने का एक सीधा तरीका यहाँ है कि आपको इसकी जरूरत है या नहीं।

यदि आपका सिस्टम इनमें से एक या अधिक शर्तें पूरी करता है, तो आपको संभवतः हार्नेस चाहिए:

इसे बाहरी टूल्स का उपयोग करना है
इसे सत्रों के पार प्रगति याद रखनी है
इसे वास्तविक एन्वायरनमेंट में कोड चलाना है
यह एक से अधिक एजेंट्स का समन्वय करता है
इसे आंशिक विफलताओं से उबरते हुए काम नहीं खोना है
इसे मानव अनुमोदन की आवश्यकता है

यदि कार्य एक पूर्वानुमेय वर्कफ़्लो है जहाँ हर चरण पहले से तय है, तो संभवतः आपको हार्नेस की जरूरत नहीं।

एक उपयोगी कसौटी: यदि कार्य एक ही मॉडल कॉल से, या कुछ गिने-चुने कंडीशनल स्टेटमेंट्स वाले एक छोटे निर्धारक स्क्रिप्ट से संभाला जा सकता है, तो हार्नेस शायद ओवरकिल है। जिस क्षण कार्य एजेंट से निर्णय लेने, टूल्स का उपयोग करने और समय के साथ परिणामों पर प्रतिक्रिया देने की मांग करता है, हार्नेस असल काम करना शुरू कर देता है।

मैं एक पैटर्न बार-बार देख रहा हूँ: टीमें बहुत जल्दी हार्नेस की ओर बढ़ती हैं—ट्रेसिंग और सैंडबॉक्सिंग बना लेती हैं—जबकि काम वास्तव में एक वन-शॉट टेक्स्ट जनरेशन टास्क होता है। उलटी गलती ज़्यादा तकलीफ़देह होती है: सीधे मॉडल को शिप कर देना और फिर दूसरे असफल टेस्ट, तीसरे टूल कॉल, या पाँचवीं रीस्टार्ट पर महसूस करना कि बैकअप के लिए कोई इन्फ्रास्ट्रक्चर है ही नहीं।

अंतिम विचार

जैसा कि पहले कहा, सभी विक्रेता एक ही चीज़ों के लिए एक जैसे शब्द नहीं इस्तेमाल करते, और फ्रेमवर्क, रंटाइम और एजेंट हार्नेस के बीच की सीमा अब भी बदल रही है।

वन-शॉट जनरेशन के लिए, रैपर ओवरकिल है। उन एजेंट्स के लिए जिन्हें लंबी सत्रों में कार्य करना, याद रखना और रिकवर करना पड़ता है, एजेंट हार्नेस सिस्टम का प्रमुख हिस्सा बन जाता है। सही हार्नेस चुनना अब बढ़ते हुए सही मॉडल चुनने से अलग निर्णय बनता जा रहा है। मैं उत्सुक हूँ कि अगली पीढ़ी के मॉडल इस लेयर का कितना हिस्सा अपने भीतर समेटते हैं, क्योंकि OpenAI और Anthropic की कुछ चालें बताती हैं कि सीमा आगे भी खिसकती रहेगी। मूल विचार वैसा ही है: एक एजेंट = मॉडल + एजेंट हार्नेस।

यदि आप एजेंट सिस्टम बनाना सीखना चाहते हैं, तो हमारा Building Scalable Agentic Systems कोर्स टूल उपयोग, ऑर्केस्ट्रेशन और लंबे समय तक चलने वाले एजेंट वर्कफ़्लोज़ के पीछे के पैटर्न कवर करता है।

एजेंट हार्नेस और सिस्टम प्रॉम्प्ट में क्या अंतर है?

सिस्टम प्रॉम्प्ट वह इनपुट है जिसे एजेंट शुरुआत में पढ़ता है। एजेंट हार्नेस वह व्यापक परत है जो टूल्स, स्टेट, परमिशन्स और फ़ेल्योर हैंडलिंग को मैनेज करती है। सबसे सरल ढांचा जो मुझे मिला: सिस्टम प्रॉम्प्ट मॉडल को बताता है कि क्या करना है, जबकि एजेंट हार्नेस नियंत्रित करता है कि वह क्या कर सकता है। आपके पास एक खूबसूरती से लिखा सिस्टम प्रॉम्प्ट हो सकता है और कोई एजेंट हार्नेस न हो—अंत में वह एक स्टेटलेस API कॉल ही रह जाएगा। एजेंट हार्नेस ही प्रॉम्प्ट को सिस्टम में बदलता है।

क्या मैं शुरुआत से अपना एजेंट हार्नेस बना सकता/सकती हूँ?

सिद्धांततः, हाँ। अपने सबसे सरल रूप में, हार्नेस एक लूप है: मॉडल को कॉल करें, प्रतिक्रिया पार्स करें, यदि उसने कोई टूल कॉल बनाए हैं तो उन्हें चलाएँ, परिणाम लौटाएँ, दोहराएँ। यह लूप कुछ दर्जन पंक्तियों के Python में एक दोपहर में लिखा जा सकता है। कठिनाई लूप के बाद आती है: कॉन्टेक्स्ट ओवरफ़्लो, असफल टूल कॉल्स, रीस्टार्ट पर स्टेट खोना, परमिशन लागू करना, और ट्रेसिंग। व्यवहार में, यह "पोस्ट-लूप" काम हमेशा टीमों के बजट से ज़्यादा समय लेता है—इसीलिए ओपन-सोर्स हार्नेस छोटे होने के बजाय बड़े होते जा रहे हैं।

क्या मॉडल जानता है कि वह हार्नेस के अंदर है?

स्पष्ट रूप से नहीं। कुछ हार्नेस सिस्टम प्रॉम्प्ट के जरिए मॉडल को बताते हैं कि कौन से टूल उपलब्ध हैं, पर मॉडल के पास अपने चारों ओर मौजूद हार्नेस का कोई अवधारणा नहीं होती। वह बस दिए गए संदर्भ को देखता है, प्रतिक्रिया जनरेट करता है, और कभी-कभी एक टूल कॉल बनाता है। एक साइड-इफ़ेक्ट: जब कुछ टूटता है, तो मॉडल अक्सर यह नहीं बता पाता कि क्यों, क्योंकि उसे पता ही नहीं कि हार्नेस अस्तित्व में है। किसी एजेंट को डिबग करना अंततः ज़्यादातर हार्नेस को डिबग करना होता है, मॉडल को नहीं।

मॉडल का चुनाव इस बात को कैसे प्रभावित करता है कि मुझे कौन-सा हार्नेस उपयोग करना चाहिए?

उतना जितना लोग सोचते हैं, उससे ज़्यादा। अग्रणी कोडिंग मॉडल्स को कभी-कभी उनके अपने एजेंट हार्नेस के साथ पोस्ट-ट्रेंड किया जाता है, इसलिए अलग हार्नेस लगाने से प्रदर्शन घट सकता है। व्यावहारिक नियम: यदि आपकी टीम एक मॉडल फैमिली पर प्रतिबद्ध है, तो एजेंट हार्नेस की शॉर्टलिस्ट अक्सर खुद-ब-खुद तय हो जाती है। कठिन मामला बाद में मॉडल बदलना है—जो आम तौर पर केवल एक कॉन्फ़िग मान बदलने के बजाय हार्नेस लॉजिक को फिर से लिखने का मतलब होता है।

क्या यह उस चीज़ से अलग है जिसे पहले लोग "LLM स्कैफोल्डिंग" कहते थे?

ज्यादा नहीं। यह उसी विचार का नया नाम है। "LLM स्कैफोल्डिंग", "एजेंट रैपर" और "एक्जिक्यूशन एन्वायरनमेंट" सब एक ही दिशा में इशारा करते हैं। 2026 में सूक्ष्म बदलाव यह है कि "स्कैफोल्डिंग" एक अस्थायी संरचना का संकेत देता है जो मॉडल पर्याप्त अच्छा होने पर हटा दी जाती है, जबकि "एजेंट हार्नेस" उस चीज़ का संकेत देता है जो मॉडल अपने चारों ओर बनाए रखता है। इससे टीमें काम के लिए बजट कैसे बनाती हैं, यह बदलता है: स्कैफोल्डिंग हटाई जाती है, एजेंट हार्नेस सिस्टम का हिस्सा बन जाते हैं।

विषय

एआई एजेंट्स