Weiter zum Inhalt

Interaktionsmodelle: Was TML-Interaction-Small richtig macht

Mira Muratis Thinking Machines Lab hat ein Modell gebaut, das gleichzeitig zuhört und spricht. Wir erklären die Funktionen und vergleichen es mit GPT-Realtime-2.
Aktualisiert 13. Mai 2026  · 10 Min. lesen

Erst letzte Woche hat OpenAIs GPT-Realtime-2 die Messlatte für Voice-KI mit GPT-5-ähnlichem Denken und einem 128K-Kontextfenster höher gelegt. Jetzt setzt Mira Muratis Thinking Machines Lab einen anderen Schwerpunkt: Reaktionsfähigkeit und Intelligenz sollten von Anfang an im selben Modell gemeinsam trainiert werden – nicht nachträglich mit Voice-Activity-Detection-Gurten und Dialogmanagement-Komponenten zusammengesetzt.

Das Labor nennt diesen neuen Modultyp ein "Interaction Model".

Die Forschungs-Vorschau TML-Interaction-Small ist das erste Ergebnis dieses Ansatzes. Es handelt sich um ein Mixture-of-Experts-Modell mit 276B Parametern und 12B aktiven Parametern. Es verarbeitet Audio, Video und Text in durchgehenden 200ms-Mikro-Turns – es nimmt also gleichzeitig wahr und reagiert, statt zu warten, bis die sprechende Person fertig ist. 

In diesem Artikel erkläre ich, was TML-Interaction-Small ist, gehe die wichtigsten Architekturmerkmale durch, vergleiche es direkt mit GPT-Realtime-2 und schaue mir die Benchmark-Ergebnisse im Detail an.

Was sind Interaktionsmodelle?

Thinking Machines Lab beschreibt ein Interaktionsmodell als ein System, bei dem die Interaktivität Teil des Modells selbst ist – nicht als Hülle außen herum implementiert. Das Grundprinzip: Reaktionsfähigkeit und Intelligenz werden gemeinsam von Grund auf trainiert – auf kontinuierlichen Audio- und Videostreams – statt nachträglich auf ein textbasiertes Modell aufgesetzt. 

Die meisten heutigen Echtzeit-Voice-KI-Systeme nähen Voice-Activity-Detection-Bausteine, separate Encoder und Dialogmanagement-Schichten zusammen, um Reaktionsfähigkeit zu simulieren. Thinking Machines Lab argumentiert, dass dieser Ansatz immer hinter Modellen zurückbleibt, die Interaktion nativ beherrschen – aufgrund künstlicher Turn-Grenzen, die einschränken, was ein nicht-interaktives Modell leisten kann.

Statt Nutzereingaben sequentiell zu konsumieren und dann eine komplette Antwort zu erzeugen, sind die Interaktionsmodelle des Labs näher an menschlicher Wahrnehmung gestaltet. Sie behandeln Ein- und Ausgabe-Token als Ströme, die in jeweils 200 Millisekunden langen Mikro-Turns ineinandergreifen.

Sequential token sequence vs human perceptionEin Interaktionsmodell nimmt also wahr und antwortet gleichzeitig – es verarbeitet Eingaben und Ausgaben parallel, statt zu warten, bis die andere Person fertig ist. Das ermöglicht einige spannende Fähigkeiten:

  • Gleichzeitig sprechen und zuhören
  • Auf visuelle Signale reagieren, ohne extra gefragt zu werden
  • Verstrichene Zeit direkt nachverfolgen

All das können turnbasierte Modelle mit externer Hülle nicht nachbilden – egal wie stark ihre Reasoning-Fähigkeiten sind.

Was ist TML-Interaction-Small?

TML-Interaction-Small ist das erste öffentliche Modell von Thinking Machines Lab und die erste Umsetzung ihrer Interaktionsmodell-Architektur.

Es ist ein Mixture-of-Experts-Modell mit 276B Parametern und 12B aktiven Parametern, von Grund auf auf kontinuierlichen Audio- und Videostreams trainiert – mit dem zuvor beschriebenen Multi-Stream-Mikro-Turn-Design, bei dem Eingaben und Ausgaben in 200ms-Blöcken verarbeitet werden.

Die Kombination aus zwei Modellen mit gemeinsamem Kontext liefert sowohl Reaktionsfähigkeit als auch Intelligenz. Nutzende bekommen Antworten des Interaktionsmodells in Echtzeit, während Planung, Tool-Nutzung und tieferes Reasoning asynchron an das Hintergrundmodell delegiert werden.

Das Interaktionsmodell integriert die Ergebnisse aus dem Hintergrund dann in die Unterhaltung, sobald sie eintreffen – ohne aus dem Gespräch auszusteigen.

Funktionen von TML-Interaction-Small

Während bestehende Voice-KI-Modelle abwechselnd sprechen (du sprichst, sie antworten), funktioniert TML-Interaction-Small eher wie ein menschliches Gegenüber. Diese vier Fähigkeiten machen den Unterschied.

Gleichzeitig sprechen und zuhören

TML-Interaction-Small kann sprechen, während du noch redest. Das ermöglicht Simultanübersetzung: Du sprichst in einer Sprache, und das Modell beginnt mit der Übersetzung, bevor du den Satz beendest. Außerdem kann es mitten im Satz eingrätschen, wenn es einen Fehler bemerkt, oder verbale Signale geben ("Alles klar", "Erzähl weiter"), während du noch erklärst.

Das ist auch praktisch für maßgeschneiderte Echtzeit-Reaktionen, sobald ein bestimmtes, ausgelöstes Ereignis auftritt. Ein Clip in den Release Notes zeigt zum Beispiel, wie das Modell EUR-Beträge umrechnet und die entsprechenden USD-Beträge nennt, sobald die nutzende Person eine Zahlung erwähnt.

Video sehen und ohne Aufforderung reagieren

TML-Interaction-Small verarbeitet Video parallel zu Audio und kann auf Basis dessen, was es sieht, Sprache initiieren – ganz ohne verbalen Prompt.

Wenn du Liegestütze vor der Kamera machst, kann es die Wiederholungen live mitzählen. Taucht ein relevantes Objekt im Videostream auf, kann es es in dem Moment benennen, in dem es sichtbar wird. Dieses Feature ist allerdings noch ausbaufähig, was am internen RepCount-A-Score sichtbar wird: Nur etwa ein Drittel (33,4%) der Fälle lag innerhalb von einer Wiederholung zur Ground Truth.

Ein (zugegebenermaßen etwas skurril wirkender) Release-Clip demonstriert das: Als es gebeten wurde, auf die Haltung der Nutzerin zu achten, erkannte das Modell sofort das krumme Sitzen am Laptop und erinnerte sie, diese zu korrigieren.

Bestehende kommerzielle Echtzeit-APIs sind reines Audio. Sie reagieren auf gesprochene Turns, können aber visuelle Änderungen nicht proaktiv aufgreifen. Das gibt es in GPT-Realtime-2 oder Gemini Live bislang nicht.

Unterbrechungen und Selbstkorrekturen natürlich handhaben

Wenn du einen Satz beginnst, dich umentscheidest und dich mitten im Gedanken korrigierst, verfolgt TML-Interaction-Small die Korrektur und reagiert auf das, was du wirklich meinst. Es kommt mit Backchanneling klar (du sagst "mhm" oder "genau", während es spricht) und unterscheidet, ob jemand mit dem Modell spricht oder mit einer anderen Person im Raum.

In solchen Szenarien stolpern turnbasierte Modelle häufig: Sie stoppen, obwohl sie es nicht sollten, oder reagieren auf den falschen Teil des Gesagten. Spannend wird sein, ob TML-Interaction-Small das auch im Alltag so gut meistert wie in kuratierten Demo-Videos.

Komplexe Aufgaben im Hintergrund ausführen und trotzdem präsent bleiben

Das Hintergrundmodell macht das Interaktionsmodell nicht nur schnell, sondern auch intelligent. Du kannst weiter Nachfragen stellen oder das Thema wechseln, während die Hintergrundaufgabe läuft. Wenn Ergebnisse bereit sind, flicht das Modell sie zu einem natürlichen Zeitpunkt wieder ins Gespräch ein, statt dich mit einem harten Kontextwechsel zu unterbrechen.

So bekommst du schnelle Gesprächsantworten und zugleich die Fähigkeit, mehrstufige Aufgaben zu erledigen, bei denen das Modell sonst mehrere Sekunden stumm bleiben müsste. In einem Quiz-Demo-Clip klappt das gut: Drei Personen stellen in hohem Tempo Quizfragen, und das Modell kann mit deren Geschwindigkeit größtenteils mithalten.

TML-Interaction-Small Benchmarks

Thinking Machines berichtet Ergebnisse in zwei Kategorien: Streaming-Benchmarks, die Interaktivität messen, und turnbasierte Benchmarks, die Intelligenz messen. Die stärksten Ergebnisse erzielt das Modell im Streaming-Bereich – dort, wo die Architekturentscheidungen am direktesten geprüft werden.

Interaktivität

FD-bench v1.5 füttert das Modell mit voraufgezeichnetem Audio und misst sein Verhalten in vier Szenarien:

  • Nutzerunterbrechung
  • Backchanneling
  • Gespräche mit anderen
  • Hintergrundsprache

TML-Interaction-Small erreicht 77,8 – gegenüber 54,3 für Gemini-3.1-flash-live-preview mit Minimal-Settings und 46,8 für GPT-Realtime-2.0 mit Minimal-Settings. Selbst GPT-Realtime-2.0 mit höchster Reasoning-Stufe (xhigh) kommt nur auf 47,8.

Das ist der Benchmark, der am direktesten misst, worauf Thinking Machines hinarbeitet. Ein Vorsprung von 30 Punkten gegenüber dem nächsten Wettbewerber ist alles andere als marginal. Offen bleibt, ob FD-bench v1.5 das gesamte Spektrum relevanter Interaktivität in der Praxis erfasst – eine Frage, die Thinking Machines selbst als offene Forschungsfrage benennt.

Turn-Taking-Latenz

TML-Interaction-Small erreicht eine Turn-Taking-Latenz von 0,40 Sekunden in FD-bench v1 – der schnellste Wert unter allen verglichenen Modellen. Am nächsten kommt Gemini-3.1-flash-live-preview mit 0,57 Sekunden. Selbst mit Minimal-Settings benötigt GPT-Realtime-2.0 etwa dreimal so lang (1,18 Sekunden); mit xhigh-Reasoning liegt GPT-Realtime-2.0 bei 1,63 Sekunden.

Latenz ist bei Sprachinteraktion kritischer als bei Text. Eine Lücke von 1,2 Sekunden zwischen Ende der Nutzereingabe und Beginn der Modellantwort ist nicht nur spürbar, sondern störend. Die 0,40 Sekunden bringen TML-Interaction-Small näher an menschliche Reaktionszeiten im Gespräch.

Intelligenz und Befolgen von Anweisungen

Audio MultiChallenge misst Intelligenz und Anweisungsbefolgung im Audio. TML-Interaction-Small erreicht 43,4% – mehr als GPT-Realtime-1.5 (34,7%) und Gemini-3.1-flash-live-preview (26,8%), aber weniger als GPT-Realtime-2.0 auf xhigh (48,5%). Hier zeigt sich der Trade-off zwischen Intelligenz und Interaktivität.

Die Lücke zwischen TML-Interaction-Small und GPT-Realtime-2.0 auf xhigh beträgt 5,1 Prozentpunkte. Das ist spürbar, aber nicht riesig – und geht bei GPT-Realtime-2.0 mit deutlichen Latenzkosten einher (1,63 Sekunden vs. 0,40 Sekunden). Ob sich dieser Trade-off lohnt, hängt vom Anwendungsfall ab.

Antwortqualität und Tool-Nutzung

FD-bench v3 misst Antwortqualität und Tool-Call-Genauigkeit in Audio-plus-Tools-Szenarien. TML-Interaction-Small erreicht 82,8% Antwortqualität und 68,0% pass@1 mit aktiviertem Hintergrundagenten – gegenüber 80,0% / 52,0% für GPT-Realtime-2.0 mit Minimal-Settings und 81,0% / 58,0% auf xhigh.

Die pass@1-Lücke (68,0% vs. 58,0%) ist hier am aussagekräftigsten, da sie misst, ob das Modell Tool-abhängige Aufgaben korrekt abschließt. Es scheint, als zahle sich die duale Architektur aus, die Tool-Aufrufe von der Interaktion mit Nutzenden trennt.

Neue Interaktivitäts-Benchmarks: TimeSpeak, CueSpeak und visuelle Proaktivität

Thinking Machines hat zwei interne Benchmarks erstellt und drei weniger verbreitete Benchmarks adaptiert, um Interaktivitätsfähigkeiten direkt zu messen. Diese lohnen einen genauen Blick, da kein Konkurrenzmodell auf einem davon sinnvoll performt.

  • TimeSpeak (zeitgesteuerter Spracheinstieg): TML-Interaction-Small erreicht 64,7% Macro-Accuracy.
  • CueSpeak (sprachsignalgetriggerte Sprache): TML-Interaction-Small erreicht 81,7% Macro-Accuracy.
  • RepCount-A (visuelles Zählen von Aktionen): TML-Interaction-Small erreicht 33,4% Off-by-one-Accuracy.
  • ProactiveVideoQA (visuell getriggerte Sprache): TML-Interaction-Small erreicht 31,5 PAUC (Baseline ohne Reaktion = 25,0%).
  • Charades Temporal Localization (zeitliche Lokalisierung von Aktionen im Video): TML-Interaction-Small erreicht 30,4 mIoU.

Bei den meisten dieser neuen Benchmarks fällt GPT-Realtime-2.0 komplett durch – mit einem Wert nahe null oder sogar null (bei Charades, wo das Modell zum richtigen Zeitpunkt während des Videos "Start" und "Stopp" sagen muss).

Wie aussagekräftig diese Ergebnisse sind, ist schwer zu bewerten, da die Benchmarks neu und noch nicht unabhängig validiert sind. Sie passen jedoch zum Gesamtbild der architektonischen Unterschiede und der vergleichbaren Benchmark-Resultate.

Preise und Verfügbarkeit von TML-Interaction-Small

TML-Interaction-Small befindet sich derzeit in einer limitierten Forschungsvorschau, Preise wurden noch nicht genannt. Thinking Machines plant, den Zugang später im Jahr 2026 breiter zu öffnen. Interessierte Forschende und Entwickler können das Team unter interaction@thinkingmachines.ai kontaktieren, um Zugriff anzufragen.

Zum Vergleich: GPT-Realtime-2 kostet 32 US-Dollar pro Million Audio-Input-Token und 64 US-Dollar pro Million Audio-Output-Token, wie wir in unserer Übersicht zu GPT-Realtime-2 erläutert haben. Die Preise für TML-Interaction-Small werden voraussichtlich mit der breiteren Veröffentlichung bekanntgegeben.

Wie dir sicher aufgefallen ist, trägt das Modell das Suffix "-Small" – und ja, Thinking Machines wird größere Modelle nachschieben. Diese sind derzeit noch zu langsam für den Betrieb, eine Veröffentlichung ist für Ende 2026 geplant.

TML-Interaction-Small vs. GPT-Realtime-2

Die spannendste Lücke zwischen beiden Modellen zeigt sich bei Interaktivitäts-Benchmarks. Auf FD-bench v1.5, der Verhalten in den Szenarien Unterbrechung, Backchanneling, Gespräche mit anderen und Hintergrundsprache misst, erreicht TML-Interaction-Small 77,8. GPT-Realtime-2.0 kommt mit Minimal-Settings auf 46,8 und mit höchster Reasoning-Stufe (xhigh) auf 47,8. Das sind 30 Punkte Vorsprung bei dem Benchmark, der am direktesten misst, worauf Thinking Machines optimiert.

Es gibt einen Intelligenz-Trade-off, doch die Lücke ist hier deutlich kleiner als bei der Interaktivität. GPT-Realtime-2.0 auf xhigh erzielt 48,5% bei Audio MultiChallenge gegenüber 43,4% für TML-Interaction-Small. Bei BigBench Audio erreicht GPT-Realtime-2.0 auf high 96,6% gegenüber 75,7% für TML-Interaction-Small (wobei TML-Interaction-Small mit aktiviertem Hintergrundagenten 96,5% erreicht).

Das Gesamtbild: TML-Interaction-Small liegt bei Reaktionsfähigkeit und Interaktivität vorn, während GPT-Realtime-2.0 mit hohen Reasoning-Einstellungen bei reinen Intelligenz-Benchmarks die Nase vorn hat.

Benchmark TML-Interaction-Small GPT-Realtime-2.0 (minimal) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (minimal)
FD-bench v1 Turn-Taking-Latenz (s) 0.40 1.18 1.63 0.57
FD-bench v1.5 Durchschnitt 77.8 46.8 47.8 54.3
FD-bench v3 Antwortqualität (%) 82.8* 80.0 81.0 68.5
Audio MultiChallenge APR (%) 43.4 37.6 48.5 26.8
BigBench Audio Genauigkeit (%) 75.7 / 96.5* 71.8 96.6 71.3
IFEval (VoiceBench) Genauigkeit (%) 82.1 81.7 83.2 67.6
IFEval Textgenauigkeit (%) 89.7 89.6 95.2 85.8

* Mit aktiviertem Hintergrundagenten.

Um OpenAIs Audio-Modellfamilie in Aktion zu sehen, schau dir unser GPT-Realtime-2 API-Tutorial an.

Fazit

TML-Interaction-Small wirkt vielversprechend. Wenn es die Aussagen aus den Release Notes einlöst, bringt das neue Modell deutlich verbesserte Interaktivität bei kurzer Latenz – ohne Einbußen bei Antwortqualität oder Denkvermögen. Die Fähigkeit, gleichzeitig zu sprechen, zuzuhören und auf visuelle Signale zu reagieren, ist bislang einzigartig und eröffnet viele Möglichkeiten. Ich bin gespannt, wie die Preisgestaltung bei der öffentlichen Veröffentlichung aussieht.

Der Intelligenzabstand zu GPT-Realtime-2 ist real, aber schmaler als die Lücke bei der Interaktivität. Für Anwendungen, in denen sich das Gespräch natürlich anfühlen muss, wiegt die Latenz stärker als die Intelligenzlücke. Für Anwendungsfälle, in denen Genauigkeit bei harten Reasoning-Aufgaben Priorität hat, liegt GPT-Realtime-2.0 mit hohen Reasoning-Einstellungen weiterhin vorne.

Wenn du dich schnell im breiteren KI-Modell-Landschaft zurechtfinden und effektiv damit arbeiten möchtest, empfehle ich unseren AI Fundamentals Skill Track als Einstieg.

TML-Interaction-Small FAQs

Was ist ein Interaktionsmodell?

Ein Interaktionsmodell ist ein Voice-KI-System, bei dem Interaktivität im Modell selbst verankert ist – nicht nachträglich über externe Komponenten wie Voice-Activity-Detection und Dialogmanagement hinzugefügt. Es verarbeitet Eingabe und Ausgabe gleichzeitig und kann daher parallel zuhören und sprechen, statt auf Gesprächswechsel zu warten.

Wer steckt hinter dem Thinking Machines Lab?

Thinking Machines Lab wird von Mira Murati geleitet, vormals CTO von OpenAI. TML-Interaction-Small ist die erste öffentliche Modellveröffentlichung des Labs und als Forschungs-Vorschau ihrer Interaktionsmodell-Architektur beschrieben.

Wie schneidet TML-Interaction-Small im Vergleich zu OpenAIs GPT-Realtime-2 ab?

TML-Interaction-Small führt bei der Interaktivität: 77,8 auf FD-bench v1.5 gegenüber 47,8 für GPT-Realtime-2 auf der höchsten Stufe – bei schnellerer Turn-Taking-Latenz von 0,40 Sekunden gegenüber 1,63 Sekunden. GPT-Realtime-2 liegt bei reinen Intelligenz-Benchmarks wie Audio MultiChallenge vorn (48,5% vs. 43,4%).

Kann TML-Interaction-Small Video verarbeiten?

Ja. Es verarbeitet Video zusammen mit Audio und kann ohne verbalen Prompt auf visuelle Ereignisse reagieren – zum Beispiel Wiederholungen vor der Kamera zählen oder auftauchende Objekte direkt benennen. Diese visuelle Proaktivität gibt es in GPT-Realtime-2 oder Gemini Live nicht.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Datenwissenschaftsredakteur bei DataCamp | Prognosen erstellen und mit APIs arbeiten ist genau mein Ding.

Themen

Lerne KI mit DataCamp!

Lernpfad

Grundlagen der KI

10 Std.
Lerne die Grundlagen der KI kennen, finde heraus, wie du KI effektiv bei der Arbeit nutzen kannst, und tauche in Modelle wie chatGPT ein, um dich in der dynamischen KI-Landschaft zurechtzufinden.
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Tutorial

Python-Listenfunktionen und -Methoden – Tutorial und Beispiele

Lerne die Funktionen und Methoden von Python-Listen kennen. Schau dir jetzt die Code-Beispiele für list() und andere Python-Funktionen und -Methoden an!
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Python Datenstrukturen Tutorial

Mach dich mit Python-Datenstrukturen vertraut: Lerne mehr über Datentypen und primitive sowie nicht-primitive Datenstrukturen wie Strings, Listen, Stapel usw.
Sejal Jaiswal's photo

Sejal Jaiswal

Tutorial

Python-Tutorial zum Verknüpfen von Zeichenfolgen

Lerne verschiedene Methoden zum Verknüpfen von Zeichenfolgen in Python kennen, mit Beispielen, die jede Technik zeigen.
DataCamp Team's photo

DataCamp Team

Mehr anzeigenMehr anzeigen