track
Bara förra veckan höjde OpenAI:s GPT-Realtime-2 ribban för röst-AI när den lanserades med GPT-5-klassad resonemangsförmåga och ett 128K kontextfönster. Nu driver Mira Muratis Thinking Machines Lab en annan tes: att responsivitet och intelligens ska tränas in i samma modell från grunden, inte skruvas på i efterhand med VAD-sele och dialoghanteringskomponenter.
Labbet kallar den här typen av ny modell för en ”interaktionsmodell”.
Deras forskningsförhandsvisning, TML-Interaction-Small, är det första resultatet av detta angreppssätt. Det är en Mixture-of-Experts-modell med 276 miljarder parametrar och 12 miljarder aktiva parametrar. Den bearbetar ljud, video och text i kontinuerliga mikrovarv på 200 ms, vilket innebär att den uppfattar och svarar samtidigt istället för att vänta på att talaren ska bli klar.
I den här artikeln går jag igenom vad TML-Interaction-Small är, går igenom dess viktigaste arkitekturegenskaper, jämför den direkt med GPT-Realtime-2, och tittar närmare på benchmarkresultaten.
Vad är interaktionsmodeller?
Thinking Machines Lab beskriver en interaktionsmodell som ett system där interaktivitet är en del av själva modellen, inte implementerad i en omgivande sele. Grundprincipen är att responsivitet och intelligens ska tränas tillsammans från grunden, på kontinuerliga ljud- och videoströmmar, istället för att bultas på en textbaserad modell i efterhand.
De flesta befintliga realtidsmodeller för röst-AI syr ihop röstaktivitetsdetektering, separata kodare och lager för dialoghantering för att simulera responsivitet. Thinking Machines Lab menar att detta angreppssätt alltid kommer att ligga efter modeller som hanterar interaktion inbyggt, på grund av artificiella turgränser som begränsar vad den icke-interaktiva modellen kan göra.
Istället för att sekventiellt konsumera användarinmatning och sedan generera ett fullständigt svar, är labbets interaktionsmodeller utformade för att ligga närmare mänsklig perception. De behandlar både in- och utdata som strömmar, och båda flätas samman i var och en av de 200 millisekunder långa mikrovarven.
I sin tur uppfattar och svarar en interaktionsmodell samtidigt, och bearbetar in- och utdata parallellt istället för att vänta på att talaren ska bli klar. Detta möjliggör ett par smarta förmågor:
- Tala samtidigt som den lyssnar
- Reagera på visuella signaler utan att bli uppmanad
- Hålla reda på förfluten tid direkt
Detta är sådant som turbaserade modeller med externa selar inte kan replikera, oavsett hur mycket resonemangsförmåga de har.
Vad är TML-Interaction-Small?
TML-Interaction-Small är Thinking Machines Labs första publika modellsläpp och den första implementeringen av deras arkitektur för interaktionsmodeller.
Det är en Mixture-of-Experts-modell med 276 miljarder parametrar och 12 miljarder aktiva parametrar, tränad från grunden på kontinuerliga ljud- och videoströmmar med den multiströmsdesign för mikrovarv jag beskrev tidigare, där in- och utdata bearbetas i 200 ms-block.

Kombinationen av två modeller med delad kontext ger både responsivitet och intelligens. Användare får svar från interaktionsmodellen i realtid, medan planering, verktygsanvändning och djupare resonemang delegeras till bakgrundsmodellen, som körs asynkront.
Interaktionsmodellen väver sedan in bakgrundsresultat i samtalet när de kommer, utan att tappa tråden.
Funktioner i TML-Interaction-Small
Där befintliga röst-AI-modeller turas om (du pratar, de svarar), fungerar TML-Interaction-Small mer som en mänsklig samtalspartner. Här är de fyra förmågorna som särskiljer den.
Tala och lyssna samtidigt
TML-Interaction-Small kan producera tal medan användaren fortfarande pratar. Detta gör simultantolkning möjlig: du talar på ett språk och modellen börjar översätta innan du är klar med meningen. Det innebär också att modellen kan avbryta mitt i en mening när den upptäcker ett fel, eller ge verbala signaler ("fattar", "fortsätt") medan du fortfarande förklarar något.
Detta är också användbart för skräddarsydda realtidssvar när en viss utlösande händelse inträffar. Ett klipp i versionsanteckningarna visar till exempel hur modellen konverterar EUR-belopp och säger motsvarande USD-belopp närhelst en betalning nämns av användaren.
Se och reagera på video utan att bli tillfrågad
TML-Interaction-Small bearbetar video tillsammans med ljud och kan initiera tal baserat på vad den ser, utan någon verbal uppmaning.
Om du gör armhävningar framför kameran kan den räkna repetitioner högt i realtid. Om ett relevant objekt dyker upp i en videoström kan den nämna det i samma ögonblick som det blir synligt. Detta är dock en funktion som fortfarande kan förbättras, vilket syns på det interna RepCount-A-resultatet, där bara en tredjedel (33,4 %) av instanserna låg inom en repetition från facit.
Ett versionsklipp (som ser lite knasigt ut, enligt min mening) demonstrerar detta i praktiken: När den ombeds att uppmärksamma användarens hållning, upptäckte modellen omedelbart att hon satt hopsjunken vid laptopen och påminde henne om att rätta till den.
Befintliga kommersiella API:er för realtid är endast ljudbaserade. De svarar på talade turer men har inget sätt att proaktivt reagera på visuella förändringar. Detta är en förmåga som helt enkelt inte finns i GPT-Realtime-2 eller Gemini Live idag.
Hantera avbrott och självkorrigeringar naturligt
Om du börjar en mening, ångrar dig och rättar dig själv mitt i tanken, håller TML-Interaction-Small reda på korrigeringen och svarar på vad du faktiskt menade. Den hanterar backchanneling (att du säger ”mm” eller ”just det” medan den pratar) och skiljer på om någon pratar med den eller med någon annan i rummet.
Detta är scenarier där turbaserade modeller ofta fallerar. De slutar tala när de inte borde, eller svarar på fel del av det som sades. Det blir intressant att se om TML-Interaction-Small klarar detta i vardagliga situationer lika bra som i kurerade demovideor.
Köra komplexa uppgifter i bakgrunden och samtidigt vara närvarande
Bakgrundsmodellen gör inte bara interaktionsmodellen snabb, utan också intelligent. Du kan fortsätta ställa följdfrågor eller byta ämne medan bakgrundsuppgiften körs. När resultaten är klara väver modellen in dem i samtalet vid ett naturligt tillfälle istället för att avbryta dig med ett tvärt kontextskifte.
Detta innebär att du får både snabba samtalssvar och förmågan att hantera flerstegsuppgifter som normalt skulle kräva att modellen blir tyst i flera sekunder. I ett quiz-demo fungerar detta ganska bra: Tre användare ställer snabbfrågor i högt tempo, och modellen hänger för det mesta med i deras fart.
TML-Interaction-Small – benchmarks
Thinking Machines rapporterar resultat i två kategorier: strömmande benchmark som mäter interaktivitet, och turbaserade benchmark som mäter intelligens. Modellens starkaste resultat ligger på den strömmande sidan, där dess arkitektoniska val testas mest direkt.
Interaktivitet
FD-bench v1.5 ger modellen förinspelat ljud och mäter dess beteende i fyra scenarier:
- Användaravbrott
- Backchannel från användaren
- Prata med andra
- Bakgrundstal
TML-Interaction-Small får 77,8, jämfört med 54,3 för Gemini-3.1-flash-live-preview på minimala inställningar och 46,8 för GPT-Realtime-2.0 på minimala inställningar. Även GPT-Realtime-2.0 på högsta resonemangsnivå (xhigh) får bara 47,8.
Detta är benchmarken som mest direkt mäter det Thinking Machines siktar på att bygga. Ett gap på 30 poäng jämfört med närmaste konkurrent är inte en marginell skillnad. Frågan är om FD-bench v1.5 fångar hela spektrat av interaktivitet som spelar roll i praktiken, vilket Thinking Machines själva medger är en öppen forskningsfråga.
Turbyteslatens
TML-Interaction-Small uppnår en turbyteslatens på 0,40 sekunder i FD-bench v1, snabbast av alla jämförda modeller. Gemini-3.1-flash-live-preview kommer närmast med 0,57 sekunder. Även på minimala inställningar tar GPT-Realtime-2.0 ungefär tre gånger så lång tid (1,18 sekunder); på xhigh-resonemang når GPT-Realtime-2.0 1,63 sekunder.
Latens spelar större roll för röstinteraktion än för text. Ett glapp på 1,2 sekunder mellan när en användare slutar tala och när modellen börjar svara är inte bara märkbart utan också störande. Resultatet 0,40 sekunder placerar TML-Interaction-Small närmare mänskliga samtalsresponstider.
Intelligens och instruktionsefterlevnad
Audio MultiChallenge mäter intelligens och instruktionsefterlevnad i ljud. TML-Interaction-Small får 43,4 %, över GPT-Realtime-1.5 (34,7 %) och Gemini-3.1-flash-live-preview (26,8 %), men under GPT-Realtime-2.0 på xhigh (48,5 %). Detta är benchmarken där trade-off:en mellan intelligens och interaktivitet är synlig.
Gapet mellan TML-Interaction-Small och GPT-Realtime-2.0 på xhigh är 5,1 procentenheter. Det är ett betydande, men inte enormt gap, och det kommer med en tydlig latenskostnad på GPT-Realtime-2.0-sidan (1,63 sekunder kontra 0,40 sekunder). Om det trade-off:en är värd det beror på tillämpningen.
Svarskvalitet och verktygsanvändning
FD-bench v3 mäter svarskvalitet och verktygsanropsnoggrannhet i scenarier med ljud plus verktyg. TML-Interaction-Small får 82,8 % svarskvalitet och 68,0 % pass@1 med bakgrundsagent aktiverad, jämfört med 80,0 % / 52,0 % för GPT-Realtime-2.0 på minimala inställningar och 81,0 % / 58,0 % på xhigh.
Gapet i pass@1 (68,0 % kontra 58,0 %) är den mest meningsfulla siffran här, eftersom den mäter om modellen faktiskt slutför verktygsberoende uppgifter korrekt. Det verkar som om den dubbla arkitekturen som separerar verktygsanrop från användarinteraktioner lönar sig.
Nya interaktivitetsbenchmarks: TimeSpeak, CueSpeak och visuell proaktivitet
Thinking Machines skapade två interna benchmark och anpassade tre mindre använda benchmark för att mäta interaktivitetsförmågor direkt. Dessa är värda att granska noga eftersom ingen konkurrerande modell presterar meningsfullt på någon av dem.
- TimeSpeak (tidsstyrd talinitiering): TML-Interaction-Small får 64,7 % makro-accuracy.
- CueSpeak (tal utlöst av verbala signaler): TML-Interaction-Small får 81,7 % makro-accuracy.
- RepCount-A (visuell räkning av rörelser): TML-Interaction-Small får 33,4 % off-by-one-accuracy.
- ProactiveVideoQA (tal utlöst av visuella signaler): TML-Interaction-Small får 31,5 PAUC (ingen-svar-baslinje = 25,0 %).
- Charades temporal localization (tidslokalisering av visuella handlingar): TML-Interaction-Small får 30,4 mIoU.
På de flesta av dessa nya benchmark misslyckas GPT realtime-2.0 helt, med resultat nära noll, eller till och med noll (på Charades-benchmarken, som kräver att modellen säger ”start” och ”stopp” vid rätt ögonblick under en video).
Det är svårt för mig att säga hur meningsfulla dessa resultat är, eftersom dessa benchmark är nya och ännu inte oberoende validerade, men de följer den allmänna bilden av de arkitektoniska skillnaderna och motsvarande benchmarkresultat.
TML-Interaction-Small – pris och tillgänglighet
TML-Interaction-Small är för närvarande i en begränsad forskningsförhandsvisning, och inga prisuppgifter har meddelats. Thinking Machines planerar att öppna för bredare åtkomst senare under 2026. Intresserade forskare och utvecklare kan kontakta teamet på interaction@thinkingmachines.ai för att begära åtkomst.
Som jämförelse kostar GPT-Realtime-2 32 USD per miljon token för ljudinmatning och 64 USD per miljon token för ljudutdata, vilket vi tog upp i vår översikt av GPT-Realtime-2. Priset för TML-Interaction-Small kommer sannolikt att meddelas i samband med den bredare lanseringen.
Som du säkert märkte har modellen suffixet ”-Small”, och du har rätt i att förvänta dig att Thinking Machines följer upp med större modeller. De är fortfarande för långsamma för att kunna driftsättas, men en lansering planeras till slutet av 2026.
TML-Interaction-Small vs. GPT-Realtime-2
Det mer intressanta gapet mellan de två modellerna finns i interaktivitetsbenchmark. På FD-bench v1.5, som mäter beteende vid användaravbrott, backchanneling, prat med andra och bakgrundstal, får TML-Interaction-Small 77,8. GPT-Realtime-2.0 på minimala inställningar får 46,8, och på högsta resonemangsnivå (xhigh) får den 47,8. Det är ett gap på 30 poäng på den benchmark som mest direkt mäter det Thinking Machines optimerar för.
Det finns en trade-off i intelligens, men gapet här är mycket mindre än för interaktivitet. GPT-Realtime-2.0 på xhigh får 48,5 % på Audio MultiChallenge jämfört med TML-Interaction-Smalls 43,4 %. På BigBench Audio får GPT-Realtime-2.0 på high 96,6 % jämfört med 75,7 % för TML-Interaction-Small (även om TML-Interaction-Small når 96,5 % med bakgrundsagent aktiverad).
Den övergripande bilden som framträder är att TML-Interaction-Small leder på responsivitet och interaktivitet, medan GPT-Realtime-2.0 på höga resonemangsinställningar leder på rena intelligensbenchmark.
| Benchmark | TML-Interaction-Small | GPT-Realtime-2.0 (minimal) | GPT-Realtime-2.0 (xhigh) | Gemini-3.1-flash-live (minimal) |
|---|---|---|---|---|
| FD-bench v1 turbyteslatens (s) | 0.40 | 1.18 | 1.63 | 0.57 |
| FD-bench v1.5 genomsnitt | 77.8 | 46.8 | 47.8 | 54.3 |
| FD-bench v3 svarskvalitet (%) | 82.8* | 80.0 | 81.0 | 68.5 |
| Audio MultiChallenge APR (%) | 43.4 | 37.6 | 48.5 | 26.8 |
| BigBench Audio noggrannhet (%) | 75.7 / 96.5* | 71.8 | 96.6 | 71.3 |
| IFEval (VoiceBench) noggrannhet (%) | 82.1 | 81.7 | 83.2 | 67.6 |
| IFEval textnoggrannhet (%) | 89.7 | 89.6 | 95.2 | 85.8 |
* Med bakgrundsagent aktiverad.
För att se OpenAI:s ljudmodellsfamilj i praktiken, kolla in vår GPT-Realtime-2 API-handledning.
Avslutande tankar
TML-Interaction-Small ser lovande ut. Om den lever upp till påståendena i versionsanteckningarna ger den nya modellen avsevärt förbättrad interaktivitet med kort latens, utan att offra svarskvalitet eller resonemangsförmåga. Förmågan att samtidigt tala, lyssna och reagera på visuella signaler är hittills unik och öppnar för många möjligheter. Jag är nyfiken på hur prissättningen kommer att se ut när modellen släpps offentligt.
Gapet i intelligens jämfört med GPT-Realtime-2 är verkligt men smalare än interaktivitetsgapet. För tillämpningar där samtalet behöver kännas naturligt spelar den skillnaden i latens större roll än intelligensgapet. För tillämpningar där noggrannhet på svåra resonemangsuppgifter är prioriterad, ligger GPT-Realtime-2.0 på höga resonemangsinställningar fortfarande före.
Om du vill komma ikapp det bredare landskapet av AI-modeller och hur du arbetar effektivt med dem rekommenderar jag att du börjar med vår AI Fundamentals-skill track.
TML-Interaction-Small – vanliga frågor
Vad är en interaktionsmodell?
En interaktionsmodell är ett röst-AI-system där interaktiviteten är inbyggd i själva modellen, snarare än tillagd via externa komponenter som röstaktivitetsdetektering och dialoghantering. Den bearbetar in- och utdata samtidigt, så den kan lyssna och tala samtidigt istället för att vänta på turer.
Vem står bakom Thinking Machines Lab?
Thinking Machines Lab leds av Mira Murati, tidigare CTO på OpenAI. TML-Interaction-Small är labbets första publika modellsläpp, beskrivet som en forskningsförhandsvisning av deras arkitektur för interaktionsmodeller.
Hur står sig TML-Interaction-Small jämfört med OpenAI:s GPT-Realtime-2?
TML-Interaction-Small leder på interaktivitet och får 77,8 på FD-bench v1.5 jämfört med 47,8 för GPT-Realtime-2 på högsta inställning, med snabbare turbyteslatens på 0,40 sekunder kontra 1,63 sekunder. GPT-Realtime-2 leder på rena intelligensbenchmark som Audio MultiChallenge (48,5 % vs. 43,4 %)
Kan TML-Interaction-Small bearbeta video?
Ja. Den bearbetar video tillsammans med ljud och kan reagera på visuella händelser utan någon verbal uppmaning från användaren, till exempel räkna träningsrepetitioner framför kameran eller nämna objekt när de dyker upp. Denna visuella proaktivitet finns inte i GPT-Realtime-2 eller Gemini Live.