Sariți la conținutul principal

Modele de interacțiune: ce face bine TML-Interaction-Small

Thinking Machines Lab, condus de Mira Murati, a construit un model care ascultă și vorbește în același timp. Analizăm funcțiile și îl comparăm cu GPT-Realtime-2.
Actualizat 13 mai 2026  · 10 min. citire

Săptămâna trecută, GPT-Realtime-2 de la OpenAI a ridicat ștacheta pentru AI vocal odată cu lansarea sa, oferind raționare de clasă GPT-5 și o fereastră de context de 128K. Acum, Thinking Machines Lab al Mirei Murati vine cu un alt argument: că receptivitatea și inteligența ar trebui antrenate împreună, în același model, de la zero, nu lipite ulterior prin hamuri de detectare a activității vocale și componente de gestionare a dialogului.

Laboratorul numește acest tip de model nou „Model de interacțiune”.

Previzualizarea lor de cercetare, TML-Interaction-Small, este primul rezultat al acestei abordări. Este un model Mixture-of-Experts cu 276 de miliarde de parametri și 12 miliarde de parametri activi. Procesează audio, video și text în micro-ture continue de 200 ms, ceea ce înseamnă că percepe și răspunde în același timp, în loc să aștepte ca vorbitorul să termine. 

În acest articol, voi explica ce este TML-Interaction-Small, voi parcurge principalele sale caracteristici arhitecturale, voi compara direct cu GPT-Realtime-2 și voi analiza în detaliu rezultatele benchmark-urilor.

Ce sunt modelele de interacțiune?

Thinking Machines Lab descrie un model de interacțiune ca pe un sistem în care interactivitatea face parte din modelul însuși, nu este implementată într-un ham înconjurător. Principiul de bază este că receptivitatea și inteligența ar trebui antrenate împreună de la zero, pe fluxuri continue de audio și video, în loc să fie atașate ulterior unui model bazat pe text.

Majoritatea sistemelor AI vocale în timp real existente îmbină componente de detectare a activității vocale, encodere separate și straturi de gestionare a dialogului pentru a simula receptivitatea. Thinking Machines Lab susține că această abordare va rămâne mereu în urmă față de modelele care gestionează interacțiunea în mod nativ, din cauza limitărilor impuse de granițele artificiale ale tururilor, care restrâng ceea ce poate face un model neinteractiv.

În loc să consume secvențial inputul utilizatorului și apoi să genereze un răspuns complet, modelele de interacțiune ale laboratorului sunt proiectate să fie mai aproape de percepția umană. Ele tratează atât tokenii de intrare, cât și cei de ieșire ca fluxuri, iar ambele sunt intercalate în fiecare dintre micro-turele de 200 de milisecunde.

Secvență de tokeni secvențială vs. percepție umanăLa rândul său, un model de interacțiune percepe și răspunde simultan, procesând intrarea și ieșirea în paralel, în loc să aștepte ca vorbitorul să termine. Acest lucru permite câteva abilități interesante:

  • Să vorbească în timp ce ascultă
  • Să reacționeze la indicii vizuale fără a fi solicitat
  • Să urmărească direct timpul scurs

Toate acestea sunt lucruri pe care modelele bazate pe ture, cu hamuri externe, nu le pot reproduce, indiferent de câtă capacitate de raționare au.

Ce este TML-Interaction-Small?

TML-Interaction-Small este prima lansare publică de model a Thinking Machines Lab și prima implementare a arhitecturii lor de model de interacțiune.

Este un model Mixture-of-Experts cu 276 de miliarde de parametri și 12 miliarde de parametri activi, antrenat de la zero pe fluxuri continue de audio și video folosind designul cu micro-ture multi-flux descris mai devreme, în care intrarea și ieșirea sunt procesate în bucăți de 200 ms.

Combinația dintre două modele cu un context comun oferă atât receptivitate, cât și inteligență. Utilizatorii primesc răspunsuri de la modelul de interacțiune în timp real, în timp ce planificarea, utilizarea de instrumente și raționarea mai profundă sunt delegate modelului de fundal, care rulează asincron.

Modelul de interacțiune integrează apoi rezultatele din fundal în conversație pe măsură ce acestea sosesc, fără a ieși din fluxul dialogului.

Funcții TML-Interaction-Small

În timp ce modelele vocale existente funcționează pe rând (dumneavoastră vorbiți, ele răspund), TML-Interaction-Small se comportă mai degrabă ca un partener de conversație uman. Iată cele patru capabilități care îl diferențiază.

Vorbește și ascultă în același timp

TML-Interaction-Small poate produce vorbire în timp ce utilizatorul încă vorbește. Acest lucru face posibilă traducerea simultană: vorbiți într-o limbă, iar modelul începe să traducă înainte să vă terminați propoziția. De asemenea, înseamnă că modelul poate interveni la jumătatea propoziției când observă o eroare sau poate da indicii verbale („am înțeles”, „continuați”) în timp ce încă explicați ceva.

Acest lucru este util și pentru răspunsuri personalizate în timp real ori de câte ori are loc un anumit eveniment menționat în prompt. Un clip din notele de lansare, de exemplu, arată cum modelul convertește sumele în EUR și spune sumele corespunzătoare în USD ori de câte ori utilizatorul menționează o plată.

Vede și reacționează la video fără a fi întrebat

TML-Interaction-Small procesează video alături de audio și poate iniția vorbire pe baza a ceea ce vede, fără niciun prompt verbal.

Dacă faceți flotări în fața camerei, poate număra cu voce tare repetările pe măsură ce se întâmplă. Dacă un obiect relevant apare într-un flux video, îl poate semnala în momentul în care devine vizibil. Totuși, aceasta este o funcție care mai poate fi îmbunătățită, după cum reiese din scorul intern RepCount-A, în care doar o treime (33,4%) dintre instanțe au fost la o repetare distanță de adevărul de bază.

Un clip din lansare (care pare puțin ciudat, după părerea mea) demonstrează acest lucru în acțiune: Când i s-a cerut să acorde atenție posturii utilizatoarei, modelul a detectat instantaneu cocoșarea la laptop și i-a amintit să o corecteze.

API-urile comerciale în timp real existente sunt doar audio. Ele răspund la turele vorbite, dar nu au cum să reacționeze proactiv la schimbări vizuale. Aceasta este o capabilitate care pur și simplu nu există astăzi în GPT-Realtime-2 sau Gemini Live.

Gestionează întreruperile și autocorectările în mod natural

Dacă începeți o propoziție, vă răzgândiți și vă corectați la jumătatea ideii, TML-Interaction-Small urmărește corecția și răspunde la ceea ce ați intenționat de fapt. Gestionează backchanneling-ul (dumneavoastră spuneți „mhm” sau „da” în timp ce el vorbește) și distinge între cineva care i se adresează lui versus cineva care vorbește cu altcineva din încăpere.

Acestea sunt scenarii în care modelele pe ture se împiedică frecvent. Fie se opresc din vorbit când nu ar trebui, fie răspund la partea greșită din ceea ce s-a spus. Va fi interesant de văzut dacă TML-Interaction-Small poate gestiona asta în situații de zi cu zi la fel de bine ca în videoclipurile demo curat selecționate.

Rulează sarcini complexe în fundal, rămânând prezent

Modelul de fundal este ceea ce face ca modelul de interacțiune să fie nu doar rapid, ci și inteligent. Puteți continua să puneți întrebări suplimentare sau să schimbați subiectul în timp ce sarcina de fundal rulează. Atunci când rezultatele sunt gata, modelul le reintroduce în conversație într-un moment natural, mai degrabă decât să vă întrerupă cu o schimbare bruscă de context.

Asta înseamnă că obțineți atât răspunsuri conversaționale rapide, cât și capacitatea de a gestiona sarcini în mai mulți pași care, în mod normal, ar necesita ca modelul să tacă timp de câteva secunde. Într-un clip demo tip quiz, acest lucru funcționează destul de bine: Trei utilizatori pun întrebări de cultură generală într-un ritm alert, iar modelul reușește în mare parte să țină pasul cu viteza lor.

Benchmark-uri TML-Interaction-Small

Thinking Machines raportează rezultate în două categorii: benchmark-uri de streaming care măsoară interactivitatea și benchmark-uri pe ture care măsoară inteligența. Cele mai puternice rezultate ale modelului sunt pe partea de streaming, acolo unde alegerile sale arhitecturale sunt testate cel mai direct.

Interactivitate

FD-bench v1.5 oferă modelului audio preînregistrat și îi măsoară comportamentul în patru scenarii:

  • Întreruperea utilizatorului
  • Backchannel din partea utilizatorului
  • Vorbirea cu alții
  • Vorbire de fundal

TML-Interaction-Small obține 77,8, comparativ cu 54,3 pentru Gemini-3.1-flash-live-preview la setări minimale și 46,8 pentru GPT-Realtime-2.0 la setări minimale. Chiar și GPT-Realtime-2.0 la cel mai înalt nivel de raționare (xhigh) obține doar 47,8.

Acesta este benchmark-ul care măsoară cel mai direct ceea ce își propune să construiască Thinking Machines. Un ecart de 30 de puncte față de cel mai apropiat competitor nu este o diferență marginală. Întrebarea este dacă FD-bench v1.5 surprinde întreaga gamă de interactivitate care contează în practică, lucru pe care chiar Thinking Machines îl recunoaște ca o întrebare deschisă de cercetare.

Latenta la schimbarea turei

TML-Interaction-Small atinge o latență la schimbarea turei de 0,40 secunde în FD-bench v1, cea mai rapidă dintre toate modelele comparate. Gemini-3.1-flash-live-preview se apropie cel mai mult, cu 0,57 secunde. Chiar și la setări minimale, GPT-Realtime-2.0 are nevoie de aproximativ de trei ori mai mult (1,18 secunde); la raționare xhigh, GPT-Realtime-2.0 ajunge la 1,63 secunde.

Latența contează pentru interacțiunea vocală într-un mod în care nu contează pentru text. Un decalaj de 1,2 secunde între momentul în care utilizatorul termină de vorbit și momentul în care modelul începe să răspundă nu este doar perceptibil, ci și disruptiv. Rezultatul de 0,40 secunde plasează TML-Interaction-Small mai aproape de timpii de răspuns ai conversației umane.

Inteligență și urmarea instrucțiunilor

Audio MultiChallenge măsoară inteligența și urmarea instrucțiunilor în audio. TML-Interaction-Small obține 43,4%, peste GPT-Realtime-1.5 (34,7%) și Gemini-3.1-flash-live-preview (26,8%), dar sub GPT-Realtime-2.0 la xhigh (48,5%). Acesta este benchmark-ul în care se vede compromis-ul inteligență-interactivitate.

Decalajul dintre TML-Interaction-Small și GPT-Realtime-2.0 la xhigh este de 5,1 puncte procentuale. Este o diferență semnificativă, dar nu uriașă, și vine cu un cost semnificativ de latență pe partea GPT-Realtime-2.0 (1,63 secunde față de 0,40 secunde). Dacă merită sau nu acest compromis depinde de aplicație.

Calitatea răspunsului și utilizarea instrumentelor

FD-bench v3 măsoară calitatea răspunsului și acuratețea apelurilor de instrumente în scenarii audio-plus-instrumente. TML-Interaction-Small obține 82,8% calitate a răspunsului și 68,0% pass@1 cu agentul de fundal activat, comparativ cu 80,0% / 52,0% pentru GPT-Realtime-2.0 la setări minimale și 81,0% / 58,0% la xhigh.

Diferența la pass@1 (68,0% față de 58,0%) este cel mai semnificativ număr aici, deoarece măsoară dacă modelul finalizează corect sarcinile dependente de instrumente. Se pare că arhitectura duală care separă apelurile de instrumente de interacțiunile cu utilizatorul dă roade.

Benchmark-uri noi de interactivitate: TimeSpeak, CueSpeak și proactivitate vizuală

Thinking Machines a creat două benchmark-uri interne și a adaptat trei benchmark-uri mai puțin utilizate pentru a măsura direct capabilitățile de interactivitate. Merită analizate cu atenție, deoarece niciun model concurent nu obține rezultate semnificative la vreunul dintre ele.

  • TimeSpeak (inițiere temporizată a vorbirii): TML-Interaction-Small obține 64,7% macro-accuratețe.
  • CueSpeak (vorbire declanșată de indicii verbale): TML-Interaction-Small obține 81,7% macro-accuratețe.
  • RepCount-A (numărare vizuală a acțiunilor): TML-Interaction-Small obține 33,4% acuratețe off-by-one.
  • ProactiveVideoQA (vorbire declanșată de indicii vizuale): TML-Interaction-Small obține 31,5 PAUC (baza fără răspuns = 25,0%).
  • Localizare temporală Charades (temporizarea acțiunilor vizuale): TML-Interaction-Small obține 30,4 mIoU.

La majoritatea acestor benchmark-uri noi, GPT Realtime-2.0 eșuează complet, cu un rezultat aproape de zero sau chiar zero (pe benchmark-ul Charades, care cere modelului să spună „start” și „stop” la momentele potrivite dintr-un video).

Îmi este greu să spun cât de relevante sunt aceste rezultate, deoarece aceste benchmark-uri sunt noi și încă nevalidate independent, dar ele se aliniază imaginii generale a diferențelor arhitecturale și rezultatelor comparabile din benchmark-uri.

Prețuri și disponibilitate TML-Interaction-Small

TML-Interaction-Small se află în prezent într-o previzualizare limitată pentru cercetare și nu au fost anunțate detalii de preț. Thinking Machines intenționează să deschidă accesul mai larg mai târziu în 2026. Cercetătorii și dezvoltatorii interesați pot contacta echipa la interaction@thinkingmachines.ai pentru a solicita acces.

Pentru comparație, GPT-Realtime-2 are un preț de 32 USD pe milion de tokeni audio de intrare și 64 USD pe milion de tokeni audio de ieșire, așa cum am menționat în prezentarea noastră GPT-Realtime-2. Prețurile pentru TML-Interaction-Small vor fi probabil anunțate odată cu lansarea mai largă.

După cum probabil ați observat, modelul are sufixul „-Small”, iar așteptarea dumneavoastră că Thinking Machines va lansa modele mai mari este justificată. Acestea sunt încă prea lente pentru producție, dar o lansare este planificată pentru sfârșitul lui 2026.

TML-Interaction-Small vs. GPT-Realtime-2

Diferența mai interesantă dintre cele două modele este la benchmark-urile de interactivitate. La FD-bench v1.5, care măsoară comportamentul în scenariile de întrerupere a utilizatorului, backchanneling, vorbirea cu alții și vorbirea de fundal, TML-Interaction-Small obține 77,8. GPT-Realtime-2.0 la setări minimale obține 46,8, iar la nivelul său cel mai înalt de raționare (xhigh) obține 47,8. Acesta este un ecart de 30 de puncte pe benchmark-ul care măsoară cel mai direct ceea ce optimizează Thinking Machines.

Există un compromis pe partea de inteligență, dar diferența aici este mult mai mică decât la interactivitate. GPT-Realtime-2.0 la xhigh obține 48,5% la Audio MultiChallenge, față de 43,4% pentru TML-Interaction-Small. Pe BigBench Audio, GPT-Realtime-2.0 la high obține 96,6% față de 75,7% pentru TML-Interaction-Small (deși TML-Interaction-Small ajunge la 96,5% cu agentul de fundal activat).

Imaginea generală care se conturează este că TML-Interaction-Small conduce la capitolele receptivitate și interactivitate, în timp ce GPT-Realtime-2.0 la setări înalte de raționare conduce pe benchmark-uri de inteligență pură.

Benchmark TML-Interaction-Small GPT-Realtime-2.0 (minimal) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (minimal)
FD-bench v1 latență schimbare tură (s) 0.40 1.18 1.63 0.57
FD-bench v1.5 medie 77.8 46.8 47.8 54.3
FD-bench v3 calitate răspuns (%) 82.8* 80.0 81.0 68.5
Audio MultiChallenge APR (%) 43.4 37.6 48.5 26.8
BigBench Audio acuratețe (%) 75.7 / 96.5* 71.8 96.6 71.3
IFEval (VoiceBench) acuratețe (%) 82.1 81.7 83.2 67.6
IFEval text acuratețe (%) 89.7 89.6 95.2 85.8

* Cu agentul de fundal activat.

Pentru a vedea familia de modele audio a OpenAI în acțiune, consultați tutorialul nostru despre API-ul GPT-Realtime-2.

Concluzii

TML-Interaction-Small arată promițător. Dacă își confirmă afirmațiile din notele de lansare, noul model aduce o interactivitate semnificativ îmbunătățită, cu o latență scurtă, fără a sacrifica calitatea răspunsurilor sau capacitatea de raționare. Abilitatea de a vorbi, asculta și răspunde simultan la indicii vizuale este, deocamdată, unică și oferă multe posibilități. Sunt curios să văd cum va arăta prețul când modelul va fi lansat public.

Diferența de inteligență față de GPT-Realtime-2 este reală, dar mai îngustă decât diferența de interactivitate. Pentru aplicații în care conversația trebuie să pară naturală, acea diferență de latență contează mai mult decât diferența de inteligență. Pentru aplicații în care prioritatea este acuratețea la sarcini de raționare dificile, GPT-Realtime-2.0 la setări înalte de raționare rămâne înainte.

Dacă doriți să vă puneți rapid la curent cu peisajul mai larg al modelelor AI și cum să lucrați eficient cu ele, vă recomandăm să începeți cu traseul de competențe AI Fundamentals.

Întrebări frecvente despre TML-Interaction-Small

Ce este un model de interacțiune?

Un model de interacțiune este un sistem de AI vocal în care interactivitatea este integrată în modelul propriu-zis, nu adăugată prin componente externe precum detectarea activității vocale și gestionarea dialogului. Procesează simultan intrarea și ieșirea, astfel încât poate asculta și vorbi în același timp, în loc să aștepte pe rând.

Cine se află în spatele Thinking Machines Lab?

Thinking Machines Lab este condus de Mira Murati, fosta CTO a OpenAI. TML-Interaction-Small este prima lansare publică de model a laboratorului, descrisă ca o previzualizare de cercetare a arhitecturii lor de model de interacțiune.

Cum se compară TML-Interaction-Small cu GPT-Realtime-2 de la OpenAI?

TML-Interaction-Small conduce la capitolul interactivitate, obținând 77,8 la FD-bench v1.5 față de 47,8 pentru GPT-Realtime-2 la setarea sa cea mai înaltă, cu o latență mai rapidă la schimbarea turei de 0,40 secunde față de 1,63 secunde. GPT-Realtime-2 conduce pe benchmark-uri de inteligență pură, precum Audio MultiChallenge (48,5% vs. 43,4%).

Poate TML-Interaction-Small să proceseze video?

Da. Procesează video alături de audio și poate reacționa la evenimente vizuale fără niciun prompt verbal din partea utilizatorului, de exemplu, numărând repetările de exerciții la cameră sau semnalând obiectele pe măsură ce apar. Această proactivitate vizuală nu există în GPT-Realtime-2 sau Gemini Live.

Subiecte

Învățați AI cu DataCamp!

track

Fundamentele AI

10 oră
Descoperă fundamentele AI, învață să folosești AI eficient la muncă și aprofundează modele precum ChatGPT pentru a naviga peisajul dinamic al AI.
Vezi detaliiRight Arrow
Începeți cursul
Vezi mai multRight Arrow