मुख्य सामग्री पर जाएं

इंटरैक्शन मॉडल: TML-Interaction-Small की असल मजबूती

मीरा मुराती की थिंकिंग मशीन्स लैब ने एक ऐसा मॉडल बनाया है जो एक साथ सुनता और बोलता है। हम इसकी विशेषताओं को समझते हैं और इसे GPT-Realtime-2 के मुकाबले बेंचमार्क करते हैं।
अद्यतन 13 मई 2026  · 10 मि॰ पढ़ना

पिछले हफ्ते ही, OpenAI का GPT-Realtime-2 अपनी लॉन्चिंग के साथ GPT-5-स्तरीय तर्क-क्षमता और 128K कॉन्टेक्स्ट विंडो के कारण वॉइस AI के लिए नया मानक बन गया। अब, मीरा मुराती की थिंकिंग मशीन्स लैब एक अलग बात कह रही है: प्रतिक्रिया-क्षमता और बुद्धिमत्ता को शुरू से ही एक ही मॉडल में प्रशिक्षित किया जाना चाहिए—उन्हें वॉयस-एक्टिविटी-डिटेक्शन हार्नेस और डायलॉग मैनेजमेंट कॉम्पोनेंट्स से बाद में जोड़ने की बजाय।

लैब इस नए प्रकार के मॉडल को “इंटरैक्शन मॉडल” कहती है।

उनका रिसर्च प्रीव्यू, TML-Interaction-Small, इसी दृष्टिकोण का पहला नतीजा है। यह 276B पैरामीटर वाला मिक्स्चर-ऑफ-एक्सपर्ट्स मॉडल है, जिसमें 12B सक्रिय पैरामीटर हैं। यह ऑडियो, वीडियो और टेक्स्ट को लगातार 200ms के माइक्रो-टर्न्स में प्रोसेस करता है—अर्थात यह वक्ता के पूरा करने का इंतजार करने के बजाय एक ही समय में ग्रहण करता है और प्रतिक्रिया देता है। 

इस लेख में, मैं बताऊंगा कि TML-Interaction-Small क्या है, इसकी प्रमुख आर्किटेक्चरल विशेषताएं समझाऊंगा, इसे सीधे GPT-Realtime-2 से तुलना करूंगा, और बेंचमार्क परिणामों को विस्तार से देखूंगा।

इंटरैक्शन मॉडल क्या होते हैं?

थिंकिंग मशीन्स लैब इंटरैक्शन मॉडल को ऐसे सिस्टम के रूप में परिभाषित करता है जिसमें इंटरैक्टिविटी मॉडल का ही हिस्सा होती है, किसी बाहरी हार्नेस में लागू की गई चीज़ नहीं। मूल सिद्धांत यह है कि प्रतिक्रिया-क्षमता और बुद्धिमत्ता को शुरुआत से ही सतत ऑडियो और वीडियो स्ट्रीम्स पर साथ-साथ ट्रेन किया जाना चाहिए, न कि बाद में किसी टेक्स्ट-आधारित मॉडल पर चिपकाया जाना चाहिए। 

ज्यादातर मौजूदा रियल-टाइम वॉइस AI सिस्टम प्रतिक्रिया-क्षमता को सिम्युलेट करने के लिए वॉयस-एक्टिविटी-डिटेक्शन कॉम्पोनेंट्स, अलग एन्कोडर्स और डायलॉग मैनेजमेंट लेयर्स को जोड़ते हैं। थिंकिंग मशीन्स लैब का तर्क है कि यह तरीका उन मॉडलों से हमेशा पीछे रहेगा जो इंटरैक्शन को नैटिव तरीके से संभालते हैं, क्योंकि कृत्रिम टर्न-बाउंड्रीज़ गैर-इंटरैक्टिव मॉडल की क्षमता सीमित कर देती हैं।

उपयोगकर्ता इनपुट को क्रमवार खपाने और फिर पूरा उत्तर जनरेट करने के बजाय, लैब के इंटरैक्शन मॉडल मानवीय संवेदन के अधिक करीब डिज़ाइन किए गए हैं। वे इनपुट और आउटपुट दोनों टोकनों को स्ट्रीम्स की तरह मानते हैं, और दोनों को हर 200 मिलीसेकंड लंबे माइक्रो-टर्न में इंटरलीव किया जाता है।

Sequential token sequence vs human perceptionनतीजतन, एक इंटरैक्शन मॉडल वक्ता के खत्म होने का इंतजार किए बिना, इनपुट और आउटपुट को समानांतर में प्रोसेस करते हुए, एक साथ ग्रहण करता है और प्रतिक्रिया देता है। इससे कुछ बढ़िया क्षमताएं सक्षम होती हैं:

  • सुनते-सुनते बोलना
  • बिना पूछे विजुअल संकेतों पर प्रतिक्रिया देना
  • बीते हुए समय को सीधे ट्रैक करना

ये सब वे बातें हैं जिन्हें टर्न-आधारित मॉडल बाहरी हार्नेस के साथ, चाहे उनके पास कितनी भी तर्क-क्षमता क्यों न हो, नकल नहीं कर सकते।

TML-Interaction-Small क्या है?

TML-Interaction-Small, थिंकिंग मशीन्स लैब का पहला सार्वजनिक मॉडल रिलीज़ है और उनके इंटरैक्शन मॉडल आर्किटेक्चर का पहला इम्प्लीमेंटेशन है।

यह 276B पैरामीटर वाला मिक्स्चर-ऑफ-एक्सपर्ट्स मॉडल है जिसमें 12B सक्रिय पैरामीटर हैं, जिसे सतत ऑडियो और वीडियो स्ट्रीम्स पर शुरू से ट्रेन किया गया है, उसी मल्टी-स्ट्रीम माइक्रो-टर्न डिज़ाइन का उपयोग करते हुए जिसका मैंने ऊपर वर्णन किया—जहां इनपुट और आउटपुट 200ms के खंडों में प्रोसेस किए जाते हैं।

साझा कॉन्टेक्स्ट वाले दो मॉडलों का संयोजन प्रतिक्रिया-क्षमता और बुद्धिमत्ता—दोनों—प्रदान करता है। उपयोगकर्ताओं को इंटरैक्शन मॉडल से रियल-टाइम में जवाब मिलते हैं, जबकि योजना, टूल-उपयोग और गहन तर्क-प्रक्रिया बैकग्राउंड मॉडल को सौंपी जाती है, जो असिंक्रोनस रूप से चलता है।

इसके बाद इंटरैक्शन मॉडल बैकग्राउंड परिणामों को आते ही बातचीत में पिरो देता है, बिना बातचीत से बाहर हुए।

TML-Interaction-Small की विशेषताएं

जहां मौजूदा वॉइस AI मॉडल बारी-बारी से काम करते हैं (आप बोलते हैं, वे जवाब देते हैं), TML-Interaction-Small एक मानवीय वार्तालाप साथी की तरह काम करता है। यहां चार क्षमताएं हैं जो इसे अलग बनाती हैं।

एक साथ बोलें और सुनें

TML-Interaction-Small उपयोगकर्ता के बोलते समय भी वाणी उत्पन्न कर सकता है। इससे साथ-साथ अनुवाद संभव हो जाता है: आप एक भाषा में बोलते हैं, और मॉडल आपके वाक्य खत्म करने से पहले ही अनुवाद शुरू कर देता है। इसका मतलब यह भी है कि मॉडल गलती पकड़ने पर बीच में टोक सकता है, या आपके समझाते समय ही मौखिक संकेत दे सकता है ("समझ गया", "आगे बताइए")।

यह तब भी कारगर है जब किसी विशेष प्रेरित इवेंट पर रियल-टाइम कस्टम प्रतिक्रियाएं चाहिए हों। उदाहरण के लिए, रिलीज़ नोट्स के एक क्लिप में दिखाया गया है कि जब भी उपयोगकर्ता भुगतान का जिक्र करता है, मॉडल EUR राशियों को USD में बदलकर तुरंत बता देता है।

बिना पूछे वीडियो देखना और प्रतिक्रिया देना

TML-Interaction-Small ऑडियो के साथ-साथ वीडियो को भी प्रोसेस करता है और जो दिखता है उसके आधार पर, बिना किसी मौखिक प्रॉम्प्ट के, वाणी शुरू कर सकता है।

अगर आप कैमरे पर पुश-अप्स कर रहे हैं, तो यह होते-होते रेप्स को जोर से गिन सकता है। अगर किसी वीडियो स्ट्रीम में कोई प्रासंगिक वस्तु दिखती है, तो उसके दिखाई देते ही उसे इंगित कर सकता है। हालांकि, यह सुविधा अभी सुधार योग्य है, जैसा कि आंतरिक RepCount-A स्कोर से दिखता है, जिसमें केवल लगभग एक-तिहाई (33.4%) उदाहरण ग्राउंड ट्रुथ से एक रेप के भीतर थे।

एक रिलीज़ क्लिप (जो मेरी राय में थोड़ा अलग-सा लगता है) इसे काम में दिखाती है: जब उपयोगकर्ता की पोश्चर पर ध्यान देने को कहा गया, तो मॉडल ने लैपटॉप पर झुककर बैठने को तुरंत पहचान लिया और उसे सुधारने की याद दिलाई।

मौजूदा कमर्शियल रियल-टाइम API केवल ऑडियो-आधारित हैं। वे बोले गए टर्न्स पर प्रतिक्रिया देते हैं, पर विजुअल बदलावों पर स्वतः प्रतिक्रिया देने का कोई तरीका नहीं है। यह क्षमता आज GPT-Realtime-2 या Gemini Live में मौजूद नहीं है।

बाधाओं और स्वयं-संशोधनों को स्वाभाविक रूप से संभालना

यदि आप एक वाक्य शुरू करते हैं, फिर विचार बदलते हैं और बीच में खुद को सुधारते हैं, तो TML-Interaction-Small उस सुधार को ट्रैक करता है और उसी पर जवाब देता है जो आपका वास्तविक आशय था। यह बैकचैनलिंग (जब यह बोल रहा हो तब आपका "हूं-हूं" या "ठीक है" कहना) को संभालता है और यह फर्क कर सकता है कि कोई उससे बात कर रहा है या कमरे में किसी और से।

ये ऐसे परिदृश्य हैं जहां टर्न-आधारित मॉडल अक्सर टूट जाते हैं। वे या तो तब बोलना बंद कर देते हैं जब नहीं करना चाहिए, या कही गई बात के गलत हिस्से पर प्रतिक्रिया दे देते हैं। देखना होगा कि TML-Interaction-Small रोजमर्रा की स्थितियों में, क्यूरेटेड डेमो वीडियोज़ जितना ही अच्छा प्रदर्शन कर पाता है या नहीं।

मौजूद रहते हुए बैकग्राउंड में जटिल काम चलाना

बैकग्राउंड मॉडल इंटरैक्शन मॉडल को सिर्फ तेज ही नहीं, बल्कि बुद्धिमान भी बनाता है। आप बैकग्राउंड टास्क चलते समय भी फॉलो-अप सवाल पूछ सकते हैं या विषय बदल सकते हैं। जब परिणाम तैयार हो जाते हैं, तो मॉडल बिना अचानक कॉन्टेक्स्ट स्विच किए, उन्हें स्वाभाविक लम्हे पर बातचीत में वापस पिरो देता है।

मतलब, आपको तेज़ संवादात्मक उत्तर मिलते हैं और साथ ही बहु-चरणीय कार्यों को संभालने की क्षमता भी—जिनके लिए सामान्यतः मॉडल को कई सेकंड के लिए चुप रहना पड़ता। एक क्विज़ डेमो क्लिप में, यह काफी अच्छा काम करता दिखता है: तीन उपयोगकर्ता तेज़ रफ्तार से ट्रिविया सवाल पूछते हैं, और मॉडल अधिकांशतः उनकी गति के साथ बना रहता है।

TML-Interaction-Small के बेंचमार्क

थिंकिंग मशीन्स दो श्रेणियों में नतीजे रिपोर्ट करता है: स्ट्रीमिंग बेंचमार्क जो इंटरैक्टिविटी नापते हैं, और टर्न-आधारित बेंचमार्क जो बुद्धिमत्ता नापते हैं। मॉडल के सबसे मजबूत नतीजे स्ट्रीमिंग पक्ष पर हैं—यही वह जगह है जहां इसकी आर्किटेक्चरल पसंदों की सीधी परीक्षा होती है।

इंटरैक्टिविटी

FD-bench v1.5 मॉडल को प्री-रिकॉर्डेड ऑडियो देता है और चार स्थितियों में उसके व्यवहार को मापता है:

  • उपयोगकर्ता द्वारा बाधा डालना
  • उपयोगकर्ता बैकचैनल
  • दूसरों से बात करना
  • पृष्ठभूमि में बोलना

TML-Interaction-Small का स्कोर 77.8 है, जबकि न्यूनतम सेटिंग पर Gemini-3.1-flash-live-preview का 54.3 और GPT-Realtime-2.0 का 46.8 है। यहां तक कि GPT-Realtime-2.0 अपनी सबसे ऊंची तर्क-सेटिंग (xhigh) पर भी केवल 47.8 स्कोर करता है।

यह वह बेंचमार्क है जो सबसे सीधे उस चीज़ को मापता है जिसकी ओर थिंकिंग मशीन्स निर्माण कर रहा है। निकटतम प्रतिद्वंद्वी से 30-अंक का अंतर मामूली नहीं है। सवाल यह है कि क्या FD-bench v1.5 व्यवहार में मायने रखने वाली इंटरैक्टिविटी की पूरी रेंज को कैप्चर करता है—जिसे थिंकिंग मशीन्स खुद भी एक खुला शोध प्रश्न मानता है।

टर्न-टेकिंग लैटेंसी

TML-Interaction-Small FD-bench v1 में 0.40 सेकंड की टर्न-टेकिंग लैटेंसी हासिल करता है, जो तुलना किए गए सभी मॉडलों में सबसे तेज है। 0.57 सेकंड के साथ Gemini-3.1-flash-live-preview सबसे करीब आता है। न्यूनतम सेटिंग पर भी, GPT-Realtime-2.0 को लगभग तीन गुना समय लगता है (1.18 सेकंड); xhigh तर्क-सेटिंग पर GPT-Realtime-2.0 1.63 सेकंड तक पहुंचता है।

वॉइस इंटरैक्शन के लिए लैटेंसी उतनी ही अहम है जितनी कि टेक्स्ट के लिए नहीं। उपयोगकर्ता के बोलना खत्म करने और मॉडल के जवाब शुरू करने के बीच 1.2 सेकंड का अंतर न केवल महसूस होता है, बल्कि बाधक भी है। 0.40 सेकंड का परिणाम TML-Interaction-Small को मानवीय वार्तालाप प्रतिक्रिया समय के करीब लाता है।

बुद्धिमत्ता और निर्देशों का पालन

Audio MultiChallenge ऑडियो में बुद्धिमत्ता और निर्देश-पालन को मापता है। TML-Interaction-Small का स्कोर 43.4% है, जो GPT-Realtime-1.5 (34.7%) और Gemini-3.1-flash-live-preview (26.8%) से ऊपर है, पर GPT-Realtime-2.0 के xhigh (48.5%) से नीचे। यही वह बेंचमार्क है जहां बुद्धिमत्ता-इंटरैक्टिविटी का ट्रेड-ऑफ दिखता है।

TML-Interaction-Small और GPT-Realtime-2.0 (xhigh) के बीच 5.1 प्रतिशत अंक का अंतर है। यह महत्वपूर्ण है, पर बहुत बड़ा नहीं—और GPT-Realtime-2.0 की ओर पर्याप्त लैटेंसी-लागत के साथ आता है (1.63 सेकंड बनाम 0.40 सेकंड)। यह ट्रेड-ऑफ कितना उचित है, यह एप्लिकेशन पर निर्भर करता है।

रिस्पॉन्स क्वालिटी और टूल-उपयोग

FD-bench v3 ऑडियो-प्लस-टूल्स परिदृश्यों में प्रतिक्रिया-गुणवत्ता और टूल-कॉल सटीकता मापता है। बैकग्राउंड एजेंट सक्षम होने पर TML-Interaction-Small 82.8% प्रतिक्रिया-गुणवत्ता और 68.0% pass@1 स्कोर करता है, जबकि GPT-Realtime-2.0 न्यूनतम सेटिंग पर 80.0% / 52.0% और xhigh पर 81.0% / 58.0% स्कोर करता है।

यहां pass@1 का अंतर (68.0% बनाम 58.0%) सबसे मायने रखने वाला है, क्योंकि यह मापता है कि मॉडल टूल-निर्भर कार्यों को वास्तव में सही तरीके से पूरा करता है या नहीं। लगता है कि उपयोगकर्ता इंटरैक्शन से टूल-कॉल्स को अलग करने वाली द्वि-आर्किटेक्चर का फायदा मिल रहा है।

नए इंटरैक्टिविटी बेंचमार्क: TimeSpeak, CueSpeak, और विजुअल प्रोक्टिविटी

थिंकिंग मशीन्स ने इंटरैक्टिविटी क्षमताओं को सीधे नापने के लिए दो आंतरिक बेंचमार्क बनाए और तीन कम प्रचलित बेंचमार्क्स को अनुकूलित किया। इन्हें ध्यान से देखना चाहिए, क्योंकि किसी भी प्रतिद्वंद्वी मॉडल का इनमें अर्थपूर्ण प्रदर्शन नहीं दिखता।

  • TimeSpeak (समयबद्ध वाणी-आरंभ): TML-Interaction-Small का स्कोर 64.7% मैक्रो-एक्यूरेसी।
  • CueSpeak (वर्बल क्यू-ट्रिगर्ड वाणी): TML-Interaction-Small का स्कोर 81.7% मैक्रो-एक्यूरेसी।
  • RepCount-A (विजुअल एक्शन काउंटिंग): TML-Interaction-Small का स्कोर 33.4% ऑफ-बाय-वन एक्यूरेसी।
  • ProactiveVideoQA (विजुअल क्यू-ट्रिगर्ड वाणी): TML-Interaction-Small का स्कोर 31.5 PAUC (नो-रिस्पॉन्स बेसलाइन = 25.0%)।
  • Charades टेम्पोरल लोकलाइजेशन (विजुअल एक्शन टाइमिंग): TML-Interaction-Small का स्कोर 30.4 mIoU।

इनमें से ज्यादातर नए बेंचमार्क्स पर GPT realtime-2.0 पूरी तरह विफल रहता है—या तो शून्य के करीब, या शून्य (Charades बेंचमार्क पर, जहां वीडियो के सही पलों पर “start” और “stop” कहना होता है)।

मेरे लिए कहना कठिन है कि ये नतीजे कितने सार्थक हैं, क्योंकि ये बेंचमार्क नए हैं और अभी स्वतंत्र रूप से मान्य नहीं हुए हैं—लेकिन ये आर्किटेक्चरल फर्कों और तुलनीय बेंचमार्क नतीजों की समग्र तस्वीर के अनुरूप ही दिखते हैं।

TML-Interaction-Small की कीमत और उपलब्धता

TML-Interaction-Small फिलहाल सीमित रिसर्च प्रीव्यू में है, और कीमत के विवरण की घोषणा नहीं हुई है। थिंकिंग मशीन्स 2026 के बाद के चरण में व्यापक एक्सेस देने की योजना बना रहा है। इच्छुक शोधकर्ता और डेवलपर्स interaction@thinkingmachines.ai पर टीम से संपर्क कर एक्सेस का अनुरोध कर सकते हैं।

तुलना के लिए, GPT-Realtime-2 की कीमत प्रति एक मिलियन ऑडियो इनपुट टोकन $32 और प्रति एक मिलियन ऑडियो आउटपुट टोकन $64 है, जैसा कि हमने अपने GPT-Realtime-2 ओवरव्यू में कवर किया था। TML-Interaction-Small की कीमत संभवतः व्यापक रिलीज़ के साथ घोषित की जाएगी।

जैसा कि आपने नोट किया होगा, मॉडल के नाम में "-Small" प्रत्यय है—और आप सही हैं कि थिंकिंग मशीन्स इसके बाद बड़े मॉडल जारी करेगा। वे अभी सर्व करने के लिए बहुत धीमे हैं, पर 2026 के अंत तक रिलीज़ की योजना है।

TML-Interaction-Small बनाम GPT-Realtime-2

दोनों मॉडलों के बीच अधिक दिलचस्प अंतर इंटरैक्टिविटी बेंचमार्क्स में है। FD-bench v1.5 पर—जो उपयोगकर्ता बाधा, बैकचैनलिंग, दूसरों से बात करना और पृष्ठभूमि में बोलना—जैसे व्यवहारों को मापता है—TML-Interaction-Small का स्कोर 77.8 है। GPT-Realtime-2.0 न्यूनतम सेटिंग पर 46.8 और अपनी सबसे ऊंची तर्क-सेटिंग (xhigh) पर 47.8 स्कोर करता है। यह उस बेंचमार्क पर 30-अंक का अंतर है जो सीधे-सीधे उसी चीज़ को मापता है जिसे थिंकिंग मशीन्स ऑप्टिमाइज़ कर रहा है।

बुद्धिमत्ता का एक ट्रेड-ऑफ है, लेकिन यहां अंतर इंटरैक्टिविटी जितना बड़ा नहीं। Audio MultiChallenge पर GPT-Realtime-2.0 (xhigh) 48.5% स्कोर करता है, जबकि TML-Interaction-Small 43.4% पर है। BigBench Audio पर GPT-Realtime-2.0 (high) 96.6% के मुकाबले TML-Interaction-Small 75.7% स्कोर करता है (हालांकि बैकग्राउंड एजेंट सक्षम होने पर TML-Interaction-Small 96.5% तक पहुंचता है)।

कुल मिलाकर तस्वीर यह है कि TML-Interaction-Small प्रतिक्रिया-क्षमता और इंटरैक्टिविटी में आगे है, जबकि GPT-Realtime-2.0 उच्च तर्क-सेटिंग्स पर कच्चे बुद्धिमत्ता बेंचमार्क्स में लीड करता है।

Benchmark TML-Interaction-Small GPT-Realtime-2.0 (minimal) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (minimal)
FD-bench v1 टर्न-टेकिंग लैटेंसी (से.) 0.40 1.18 1.63 0.57
FD-bench v1.5 औसत 77.8 46.8 47.8 54.3
FD-bench v3 रिस्पॉन्स क्वालिटी (%) 82.8* 80.0 81.0 68.5
Audio MultiChallenge APR (%) 43.4 37.6 48.5 26.8
BigBench Audio एक्यूरेसी (%) 75.7 / 96.5* 71.8 96.6 71.3
IFEval (VoiceBench) एक्यूरेसी (%) 82.1 81.7 83.2 67.6
IFEval टेक्स्ट एक्यूरेसी (%) 89.7 89.6 95.2 85.8

* बैकग्राउंड एजेंट सक्षम होने पर।

OpenAI के ऑडियो मॉडल परिवार को काम में देखते के लिए, हमारा GPT-Realtime-2 API ट्यूटोरियल देखें।

अंतिम विचार

TML-Interaction-Small उम्मीदें जगाता है। यदि यह रिलीज़ नोट्स में किए गए दावों पर खरा उतरता है, तो नया मॉडल कम लैटेंसी के साथ इंटरैक्टिविटी में उल्लेखनीय सुधार लाता है, बिना प्रतिक्रिया-गुणवत्ता या तर्क-क्षमता की कुर्बानी दिए। एक साथ बोलने, सुनने और विजुअल संकेतों पर प्रतिक्रिया देने की इसकी क्षमता अब तक अनोखी है और कई संभावनाएं खोलती है। मैं उत्सुक हूं कि सार्वजनिक रिलीज़ पर इसकी कीमत कैसी होगी।

GPT-Realtime-2 के मुकाबले बुद्धिमत्ता का अंतर वास्तविक है, पर इंटरैक्टिविटी के अंतर जितना चौड़ा नहीं। जिन एप्लिकेशनों में बातचीत को प्राकृतिक महसूस कराना जरूरी है, वहां लैटेंसी का फर्क बुद्धिमत्ता के अंतर से अधिक मायने रखता है। जिनमें कठिन तर्क-कार्यों की सटीकता प्राथमिकता है, वहां उच्च तर्क-सेटिंग्स पर GPT-Realtime-2.0 अभी भी आगे है।

यदि आप AI मॉडलों के व्यापक परिदृश्य और उनके साथ प्रभावी ढंग से काम करना सीखना चाहते हैं, तो हमारे AI Fundamentals स्किल ट्रैक से शुरुआत करने की सलाह देता हूं।

TML-Interaction-Small FAQs

इंटरैक्शन मॉडल क्या है?

इंटरैक्शन मॉडल वह वॉइस AI सिस्टम है जिसमें इंटरैक्टिविटी मॉडल के भीतर ही अंतर्निहित होती है, न कि वॉयस-एक्टिविटी डिटेक्शन और डायलॉग मैनेजमेंट जैसे बाहरी घटकों के जरिए जोड़ी जाती है। यह इनपुट और आउटपुट को एक साथ प्रोसेस करता है, इसलिए टर्न का इंतजार करने के बजाय एक ही समय में सुन और बोल सकता है।

थिंकिंग मशीन्स लैब के पीछे कौन है?

थिंकिंग मशीन्स लैब का नेतृत्व मीरा मुराती कर रही हैं, जो पहले OpenAI की CTO थीं। TML-Interaction-Small लैब का पहला सार्वजनिक मॉडल रिलीज़ है, जिसे उनके इंटरैक्शन मॉडल आर्किटेक्चर के रिसर्च प्रीव्यू के रूप में वर्णित किया गया है।

TML-Interaction-Small OpenAI के GPT-Realtime-2 से कैसे तुलना करता है?

TML-Interaction-Small इंटरैक्टिविटी में आगे है—FD-bench v1.5 पर इसका स्कोर 77.8 है, जबकि GPT-Realtime-2 अपनी उच्चतम सेटिंग पर 47.8 स्कोर करता है—और इसका टर्न-टेकिंग लैटेंसी भी तेज है (0.40 सेकंड बनाम 1.63 सेकंड)। कच्चे बुद्धिमत्ता बेंचमार्क्स जैसे Audio MultiChallenge पर GPT-Realtime-2 आगे है (48.5% बनाम 43.4%)।

क्या TML-Interaction-Small वीडियो प्रोसेस कर सकता है?

हां। यह ऑडियो के साथ वीडियो भी प्रोसेस करता है और उपयोगकर्ता के किसी मौखिक प्रॉम्प्ट के बिना ही विजुअल इवेंट्स पर प्रतिक्रिया दे सकता है—जैसे कैमरे पर एक्सरसाइज़ रेप्स गिनना या वस्तुओं का उनके दिखाई देते ही उल्लेख करना। यह विजुअल प्रोक्टिविटी GPT-Realtime-2 या Gemini Live में मौजूद नहीं है।

विषय

DataCamp के साथ AI सीखें!

Track

एआई मूलभूत बातें

10 घंटा
AI की मूल बातें जानें, काम के लिए AI का प्रभावी उपयोग करना सीखें, और ChatGPT जैसे मॉडल्स में गहराई से उतरकर गतिशील AI परिदृश्य को समझें।
विस्तृत जानकारी देखेंRight Arrow
कोर्स शुरू करें
और देखेंRight Arrow