Ga naar hoofdinhoud

Interactie­modellen: wat TML-Interaction-Small goed doet

Mira Murati's Thinking Machines Lab bouwde een model dat tegelijk kan luisteren en praten. We zetten de features op een rij en vergelijken het met GPT-Realtime-2.
Bijgewerkt 13 mei 2026  · 10 min lezen

Nog maar vorige week legde OpenAI's GPT-Realtime-2 de lat hoger voor spraak-AI, met GPT-5-achtige redeneercapaciteiten en een contextvenster van 128K. Nu maakt Mira Murati's Thinking Machines Lab een andere case: dat responsiviteit en intelligentie vanaf nul in hetzelfde model getraind moeten worden, niet aan elkaar geschroefd met voice-activity-detection-harnassen en dialoogmanagementcomponenten.

Het lab noemt dit type nieuw model een "Interaction Model".

Hun research preview, TML-Interaction-Small, is het eerste resultaat van deze aanpak. Het is een Mixture-of-Experts-model met 276 miljard parameters en 12 miljard actieve parameters. Het verwerkt audio, video en tekst in continue microbeurten van 200 ms, wat betekent dat het tegelijkertijd waarneemt en reageert in plaats van te wachten tot een spreker klaar is. 

In dit artikel leg ik uit wat TML-Interaction-Small is, doorloop ik de belangrijkste architecturale kenmerken, vergelijk het direct met GPT-Realtime-2, en bekijk ik de benchmarkresultaten in detail.

Wat zijn interactiemodellen?

Thinking Machines Lab omschrijft een interactiemodel als een systeem waarbij interactiviteit onderdeel is van het model zelf, niet geïmplementeerd in een omliggend harnas. Het kernprincipe is dat responsiviteit en intelligentie samen, vanaf nul, getraind moeten worden op continue audio- en videostreams, in plaats van achteraf op een tekstgebaseerd model te worden geplakt. 

De meeste bestaande realtime spraak-AI-systemen naaien voice-activity-detectioncomponenten, aparte encoders en dialooglagen aan elkaar om responsiviteit te simuleren. Thinking Machines Lab betoogt dat deze aanpak altijd achter zal blijven bij modellen die interactie native afhandelen, vanwege kunstmatige beurtgrenzen die beperken wat het niet-interactieve model kan doen.

In plaats van gebruikersinput sequentieel te consumeren en dan een volledig antwoord te genereren, zijn de interactiemodellen van het lab ontworpen om dichter bij menselijke waarneming te staan. Ze behandelen zowel invoer- als uitvoertokens als streams, en die zijn in elke microbeurt van 200 milliseconden met elkaar vervlochten.

Sequentiële tokensequentie vs menselijke waarnemingDaardoor neemt een interactiemodel waar en reageert het tegelijk: het verwerkt input en output parallel in plaats van te wachten tot een spreker klaar is. Dit maakt een paar handige dingen mogelijk:

  • Praten terwijl het luistert
  • Reageren op visuele cues zonder te worden gevraagd
  • Verstreken tijd direct bijhouden

Dit zijn allemaal dingen die beurtgebaseerde modellen met externe harnassen niet kunnen repliceren, ongeacht hoeveel redeneervermogen ze hebben.

Wat is TML-Interaction-Small?

TML-Interaction-Small is de eerste publieke modelrelease van Thinking Machines Lab en de eerste implementatie van hun interactiemodelarchitectuur.

Het is een Mixture-of-Experts-model met 276 miljard parameters en 12 miljard actieve parameters, vanaf nul getraind op continue audio- en videostreams met het multi-stream microbeurt-ontwerp dat ik hierboven beschreef, waarbij input en output in blokken van 200 ms worden verwerkt.

De combinatie van twee modellen met een gedeelde context biedt zowel responsiviteit als intelligentie. Gebruikers krijgen realtime antwoorden van het interactiemodel, terwijl plannen, toolgebruik en dieper redeneren worden gedelegeerd aan het achtergrondmodel, dat asynchroon draait.

Het interactiemodel vlecht de achtergrondresultaten vervolgens in het gesprek zodra ze binnenkomen, zonder uit het gesprek te vallen.

Functies van TML-Interaction-Small

Waar bestaande spraak-AI-modellen om de beurt gaan (jij spreekt, zij reageren), werkt TML-Interaction-Small meer als een menselijke gesprekspartner. Dit zijn de vier mogelijkheden die het onderscheidend maken.

Tegelijk praten en luisteren

TML-Interaction-Small kan spraak produceren terwijl de gebruiker nog praat. Dit maakt simultaanvertaling mogelijk: je spreekt in de ene taal en het model begint te vertalen voordat je je zin af hebt. Het betekent ook dat het model halverwege kan interrumperen als het een fout opvangt, of verbale cues kan geven ("begrepen", "ga door") terwijl jij nog iets uitlegt.

Dit is ook handig voor aangepaste realtime reacties wanneer een specifieke gebeurtenis uit de prompt plaatsvindt. Een clip in de releasenotes laat bijvoorbeeld zien hoe het model EUR-bedragen omzet en de bijbehorende USD-bedragen noemt wanneer de gebruiker een betaling noemt.

Zien en reageren op video zonder dat erom wordt gevraagd

TML-Interaction-Small verwerkt video naast audio en kan spraak starten op basis van wat het ziet, zonder verbale prompt.

Als je op camera push-ups doet, kan het de herhalingen hardop meetellen terwijl ze gebeuren. Als er een relevant object in een videostream verschijnt, kan het dat aanstippen op het moment dat het zichtbaar wordt. Dit is echter een functie die nog kan worden verbeterd, wat te zien is aan de interne RepCount-A-score, waarbij slechts een derde (33,4%) van de gevallen binnen één herhaling van de ground truth zat.

Een releaseclip (die er naar mijn mening een beetje gek uitzien) demonstreert dit in de praktijk: Toen gevraagd werd op de houding van de gebruiker te letten, detecteerde het model onmiddellijk het ingezakt zitten aan de laptop en herinnerde haar eraan die te corrigeren.

Bestaande commerciële realtime-API's zijn alleen audio. Ze reageren op gesproken beurten maar kunnen niet proactief op visuele veranderingen reageren. Deze mogelijkheid bestaat simpelweg niet in GPT-Realtime-2 of Gemini Live vandaag.

Onderbrekingen en zelfcorrecties natuurlijk afhandelen

Als je een zin begint, van gedachten verandert en jezelf halverwege corrigeert, volgt TML-Interaction-Small de correctie en reageert het op wat je daadwerkelijk bedoelde. Het kan backchanneling aan (jij zegt "uh-huh" of "right" terwijl het praat) en onderscheidt iemand die tegen het model praat van iemand die tegen iemand anders in de kamer praat.

Dit zijn scenario's waarin beurtgebaseerde modellen vaak stuklopen. Ze stoppen met spreken wanneer dat niet zou moeten, of reageren op het verkeerde deel van wat er gezegd is. Het wordt interessant om te zien of TML-Interaction-Small dit in alledaagse situaties net zo goed aankan als in gecureerde demovideo's.

Complexe taken op de achtergrond draaien en toch aanwezig blijven

Het achtergrondmodel zorgt ervoor dat het interactiemodel niet alleen snel is, maar ook intelligent. Je kunt vervolgvragen blijven stellen of van onderwerp veranderen terwijl de achtergrondtaak draait. Wanneer resultaten klaar zijn, weeft het model ze op een natuurlijk moment terug in het gesprek, in plaats van je te onderbreken met een abrupte contextwissel.

Dit betekent dat je zowel snelle conversatiereacties krijgt als de mogelijkheid om meerstapstaken af te handelen die normaal gesproken vereisen dat het model enkele seconden stilvalt. In een quizdemoclip werkt dit behoorlijk goed: drie gebruikers stellen in hoog tempo triviavragen en het model kan hun snelheid grotendeels bijbenen.

TML-Interaction-Small-benchmarks

Thinking Machines rapporteert resultaten in twee categorieën: streamingbenchmarks die interactiviteit meten, en beurtgebaseerde benchmarks die intelligentie meten. De sterkste resultaten van het model liggen aan de streamingkant, waar de architecturale keuzes het meest direct worden getest.

Interactiviteit

FD-bench v1.5 geeft het model vooraf opgenomen audio en meet het gedrag in vier scenario's:

  • Gebruikersonderbreking
  • Gebruikers-backchannel
  • Praten met anderen
  • Achtergrondspraak

TML-Interaction-Small scoort 77,8, vergeleken met 54,3 voor Gemini-3.1-flash-live-preview op minimale instellingen en 46,8 voor GPT-Realtime-2.0 op minimale instellingen. Zelfs GPT-Realtime-2.0 op de hoogste redeneerinstelling (xhigh) scoort slechts 47,8.

Dit is de benchmark die het meest direct meet waar Thinking Machines naartoe werkt. Een kloof van 30 punten met de dichtstbijzijnde concurrent is geen marginaal verschil. De vraag is of FD-bench v1.5 het volledige spectrum van interactiviteit vastlegt dat in de praktijk telt, wat Thinking Machines zelf erkent als een open onderzoeksvraag.

Beurtname-latentie

TML-Interaction-Small behaalt een beurtname-latentie van 0,40 seconden in FD-bench v1, de snelste van alle vergeleken modellen. Gemini-3.1-flash-live-preview komt het dichtst in de buurt met 0,57 seconden. Zelfs op minimale instellingen doet GPT-Realtime-2.0 er ongeveer drie keer zo lang over (1,18 seconden); bij xhigh-redeneren komt GPT-Realtime-2.0 uit op 1,63 seconden.

Latentie is bij spraakinteractie belangrijker dan bij tekst. Een kloof van 1,2 seconde tussen het moment dat een gebruiker klaar is met spreken en het moment dat het model begint te reageren is niet alleen merkbaar, maar ook storend. Het resultaat van 0,40 seconde brengt TML-Interaction-Small dichter bij menselijke reactietijden in gesprekken.

Intelligentie en instructieopvolging

Audio MultiChallenge meet intelligentie en het opvolgen van instructies in audio. TML-Interaction-Small scoort 43,4%, boven GPT-Realtime-1.5 (34,7%) en Gemini-3.1-flash-live-preview (26,8%), maar onder GPT-Realtime-2.0 op xhigh (48,5%). Dit is de benchmark waar de trade-off tussen intelligentie en interactiviteit zichtbaar is.

De kloof tussen TML-Interaction-Small en GPT-Realtime-2.0 op xhigh is 5,1 procentpunt. Dat is significant, maar niet enorm, en het gaat gepaard met een aanzienlijke latentieprijs aan de kant van GPT-Realtime-2.0 (1,63 seconden tegenover 0,40 seconden). Of die trade-off het waard is, hangt af van de toepassing.

Antwoordkwaliteit en toolgebruik

FD-bench v3 meet antwoordkwaliteit en nauwkeurigheid van tool-calls in audio-plus-tools-scenario's. TML-Interaction-Small scoort 82,8% antwoordkwaliteit en 68,0% pass@1 met achtergrondagent ingeschakeld, vergeleken met 80,0% / 52,0% voor GPT-Realtime-2.0 op minimale instellingen en 81,0% / 58,0% op xhigh.

De pass@1-kloof (68,0% versus 58,0%) is hier het meest betekenisvolle getal, omdat dit meet of het model tool-afhankelijke taken daadwerkelijk correct voltooit. Het lijkt erop dat de dubbele architectuur die tool-calls scheidt van gebruikersinteracties zich uitbetaalt.

Nieuwe interactiviteitsbenchmarks: TimeSpeak, CueSpeak en visuele proactiviteit

Thinking Machines creëerde twee interne benchmarks en paste drie minder breed gebruikte benchmarks aan om interactiviteitsmogelijkheden direct te meten. Deze zijn het bekijken waard, omdat geen concurrerend model er betekenisvol op presteert.

  • TimeSpeak (getimede spraakinitiatie): TML-Interaction-Small scoort 64,7% macro-accuratesse.
  • CueSpeak (spraak getriggerd door verbale cue): TML-Interaction-Small scoort 81,7% macro-accuratesse.
  • RepCount-A (visuele actietelling): TML-Interaction-Small scoort 33,4% off-by-one-accuratesse.
  • ProactiveVideoQA (spraak getriggerd door visuele cue): TML-Interaction-Small scoort 31,5 PAUC (geen-respons-baseline = 25,0%).
  • Charades temporele lokalisatie (timing van visuele acties): TML-Interaction-Small scoort 30,4 mIoU.

Op de meeste van deze nieuwe benchmarks faalt GPT realtime-2.0 volledig, met een resultaat rond nul, of zelfs nul (op de Charades-benchmark, die vereist dat het model "start" en "stop" op de juiste momenten tijdens een video zegt).

Het is voor mij lastig te zeggen hoe betekenisvol deze resultaten zijn, aangezien die benchmarks nieuw zijn en nog niet onafhankelijk zijn gevalideerd, maar ze passen bij het algemene beeld van de architecturale verschillen en vergelijkbare benchmarkresultaten.

Prijzen en beschikbaarheid van TML-Interaction-Small

TML-Interaction-Small bevindt zich momenteel in een beperkte research preview, en er zijn geen prijsdetails aangekondigd. Thinking Machines is van plan om later in 2026 bredere toegang te openen. Geïnteresseerde onderzoekers en ontwikkelaars kunnen contact opnemen met het team via interaction@thinkingmachines.ai om toegang aan te vragen.

Ter vergelijking: GPT-Realtime-2 kost $32 per miljoen audio-invoertokens en $64 per miljoen audio-uitvoertokens, zoals we bespraken in onze GPT-Realtime-2-overview. De prijzen van TML-Interaction-Small worden waarschijnlijk aangekondigd bij de bredere release.

Zoals je waarschijnlijk hebt gezien, heeft het model het achtervoegsel "-Small", en het is terecht te verwachten dat Thinking Machines met grotere modellen zal volgen. Die zijn nog te traag om te serven, maar een release staat gepland voor eind 2026.

TML-Interaction-Small vs. GPT-Realtime-2

Het interessantere verschil tussen de twee modellen zit in interactiviteitsbenchmarks. Op FD-bench v1.5, dat gedrag meet rond gebruikersonderbreking, backchanneling, praten met anderen en achtergrondspraak, scoort TML-Interaction-Small 77,8. GPT-Realtime-2.0 op minimale instellingen scoort 46,8, en op de hoogste redeneerinstelling (xhigh) 47,8. Dat is een kloof van 30 punten op de benchmark die het meest direct meet waar Thinking Machines voor optimaliseert.

Er is een trade-off in intelligentie, maar die kloof is hier veel kleiner dan bij interactiviteit. GPT-Realtime-2.0 op xhigh scoort 48,5% op Audio MultiChallenge tegenover 43,4% voor TML-Interaction-Small. Op BigBench Audio scoort GPT-Realtime-2.0 op high 96,6% tegenover 75,7% voor TML-Interaction-Small (al haalt TML-Interaction-Small 96,5% met achtergrondagent ingeschakeld).

Het algemene beeld dat ontstaat is dat TML-Interaction-Small voorloopt op responsiviteit en interactiviteit, terwijl GPT-Realtime-2.0 op hoge redeneerniveaus voorloopt op ruwe intelligentiebenchmarks.

Benchmark TML-Interaction-Small GPT-Realtime-2.0 (minimal) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (minimal)
FD-bench v1 beurtname-latentie (s) 0,40 1,18 1,63 0,57
FD-bench v1.5 gemiddelde 77,8 46,8 47,8 54,3
FD-bench v3 antwoordkwaliteit (%) 82,8* 80,0 81,0 68,5
Audio MultiChallenge APR (%) 43,4 37,6 48,5 26,8
BigBench Audio nauwkeurigheid (%) 75,7 / 96,5* 71,8 96,6 71,3
IFEval (VoiceBench) nauwkeurigheid (%) 82,1 81,7 83,2 67,6
IFEval tekstnauwkeurigheid (%) 89,7 89,6 95,2 85,8

* Met achtergrondagent ingeschakeld.

Om de audiomodelfamilie van OpenAI in actie te zien, bekijk onze GPT-Realtime-2 API-tutorial.

Tot slot

TML-Interaction-Small oogt veelbelovend. Als het de claims in de releasenotes waarmaakt, brengt het nieuwe model significant verbeterde interactiviteit met korte latentie, zonder in te boeten aan antwoordkwaliteit of redeneervermogen. De mogelijkheid om tegelijk te spreken, te luisteren en op visuele cues te reageren is tot nu toe uniek en biedt veel mogelijkheden. Ik ben benieuwd hoe de prijs eruit zal zien wanneer het model publiek wordt uitgebracht.

De intelligentiekloof met GPT-Realtime-2 is reëel maar smaller dan de interactiviteitskloof. Voor toepassingen waarbij het gesprek natuurlijk moet aanvoelen, weegt dat latentieverschil zwaarder dan de intelligentiekloof. Voor toepassingen waar nauwkeurigheid op zware redeneertaken prioriteit heeft, ligt GPT-Realtime-2.0 op hoge redeneerniveaus nog voor.

Wil je snel bij zijn met het bredere landschap van AI-modellen en hoe je er effectief mee werkt, begin dan met onze AI Fundamentals skill track.

TML-Interaction-Small FAQ's

Wat is een interactiemodel?

Een interactiemodel is een spraak-AI-systeem waarbij interactiviteit in het model zelf is ingebouwd, in plaats van toegevoegd via externe componenten zoals voice-activity-detection en dialoogmanagement. Het verwerkt input en output gelijktijdig, zodat het tegelijk kan luisteren en spreken in plaats van op beurten te wachten.

Wie zit er achter Thinking Machines Lab?

Thinking Machines Lab staat onder leiding van Mira Murati, voorheen CTO van OpenAI. TML-Interaction-Small is de eerste publieke modelrelease van het lab, beschreven als een research preview van hun interactiemodelarchitectuur.

Hoe verhoudt TML-Interaction-Small zich tot OpenAI's GPT-Realtime-2?

TML-Interaction-Small loopt voorop in interactiviteit, met 77,8 op FD-bench v1.5 tegenover 47,8 voor GPT-Realtime-2 op de hoogste instelling, en een snellere beurtname-latentie van 0,40 seconden versus 1,63 seconden. GPT-Realtime-2 loopt voor op ruwe intelligentiebenchmarks zoals Audio MultiChallenge (48,5% vs. 43,4%)

Kan TML-Interaction-Small video verwerken?

Ja. Het verwerkt video naast audio en kan op visuele gebeurtenissen reageren zonder verbale prompt van de gebruiker, bijvoorbeeld het meetellen van oefenherhalingen op camera of objecten noemen zodra ze verschijnen. Deze visuele proactiviteit bestaat niet in GPT-Realtime-2 of Gemini Live.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom is data scientist en technisch docent. Hij schrijft en beheert de data science-tutorials en blogposts van DataCamp. Eerder werkte Tom in data science bij Deutsche Telekom.

Onderwerpen

Leer AI met DataCamp!

Leerpad

AI-basisprincipes

10 Hr
Ontdek de basis van AI, leer hoe je AI slim kunt gebruiken voor je werk en duik in modellen zoals ChatGPT om je weg te vinden in de dynamische wereld van AI.
Bekijk detailsRight Arrow
Begin met de cursus
Meer zienRight Arrow
Gerelateerd

blog

AI vanaf nul leren in 2026: een complete gids van de experts

Ontdek alles wat je moet weten om in 2026 AI te leren, van tips om te beginnen tot handige resources en inzichten van industrie-experts.
Adel Nehme's photo

Adel Nehme

15 min

Meer zienMeer zien