Przejdź do głównej treści

Modele interakcji: co TML-Interaction-Small robi dobrze

Thinking Machines Lab Miry Murati zbudowało model, który jednocześnie słucha i mówi. Omawiamy jego funkcje i porównujemy go z GPT-Realtime-2.
Zaktualizowano 13 maj 2026  · 10 min Czytać

Zaledwie w zeszłym tygodniu GPT-Realtime-2 od OpenAI podniósł poprzeczkę dla głosowej AI, debiutując z rozumowaniem klasy GPT-5 i oknem kontekstu 128 tys. tokenów. Teraz Thinking Machines Lab Miry Murati stawia inną tezę: że responsywność i inteligencję należy wytrenować w tym samym modelu od podstaw, a nie doklejać je za pomocą detekcji aktywności głosowej i komponentów do zarządzania dialogiem.

Laboratorium nazywa ten typ nowego modelu „modelem interakcji”.

Ich podgląd badawczy, TML-Interaction-Small, to pierwszy rezultat tego podejścia. Jest to model Mixture-of-Experts z 276 mld parametrów i 12 mld aktywnych parametrów. Przetwarza dźwięk, wideo i tekst w ciągłych mikro-turach po 200 ms, co oznacza, że postrzega i odpowiada jednocześnie, zamiast czekać, aż mówca skończy. 

W tym artykule wyjaśnię, czym jest TML-Interaction-Small, omówię jego kluczowe cechy architektoniczne, porównam go bezpośrednio z GPT-Realtime-2 i szczegółowo przyjrzę się wynikom benchmarków.

Czym są modele interakcji?

Thinking Machines Lab opisuje model interakcji jako system, w którym interaktywność jest częścią samego modelu, a nie implementacją w otaczającej go „uprzęży”. Zasadą jest, że responsywność i inteligencję należy trenować wspólnie od podstaw na ciągłych strumieniach audio i wideo, a nie dokładać je do modelu tekstowego post factum.

Większość istniejących systemów głosowej AI w czasie rzeczywistym skleja ze sobą komponenty detekcji aktywności głosowej, osobne enkodery i warstwy zarządzania dialogiem, aby symulować responsywność. Thinking Machines Lab argumentuje, że to podejście zawsze będzie w tyle za modelami, które natywnie obsługują interakcję, ze względu na sztuczne granice tur ograniczające możliwości modelu nieinteraktywnego.

Zamiast sekwencyjnie konsumować dane użytkownika, a następnie generować pełną odpowiedź, modele interakcji laboratorium są zaprojektowane bliżej ludzkiej percepcji. Traktują zarówno tokeny wejściowe, jak i wyjściowe jako strumienie, a oba są przeplatane w każdej mikro-turze trwającej 200 milisekund.

Sekwencyjna sekwencja tokenów vs. ludzka percepcjaW efekcie model interakcji postrzega i odpowiada jednocześnie, przetwarzając wejście i wyjście równolegle, zamiast czekać, aż mówca skończy. To umożliwia kilka ciekawych umiejętności:

  • Mówienie podczas słuchania
  • Reagowanie na wskazówki wizualne bez podpowiedzi
  • Bezpośrednie śledzenie upływu czasu

To wszystko są rzeczy, których modele turowe z zewnętrzną „uprzężą” nie potrafią odtworzyć, niezależnie od zdolności do rozumowania.

Czym jest TML-Interaction-Small?

TML-Interaction-Small to pierwsze publiczne wydanie modelu Thinking Machines Lab i pierwsza implementacja ich architektury modelu interakcji.

Jest to model Mixture-of-Experts z 276 mld parametrów i 12 mld aktywnych parametrów, trenowany od podstaw na ciągłych strumieniach audio i wideo z wykorzystaniem opisanego wcześniej projektu wielostrumieniowych mikro-tur, w którym wejście i wyjście są przetwarzane w kawałkach po 200 ms.

Połączenie dwóch modeli ze współdzielonym kontekstem zapewnia zarówno responsywność, jak i inteligencję. Użytkownicy otrzymują odpowiedzi od modelu interakcji w czasie rzeczywistym, podczas gdy planowanie, korzystanie z narzędzi i głębsze rozumowanie są delegowane do modelu w tle, który działa asynchronicznie.

Następnie model interakcji wplata wyniki tła z powrotem w rozmowę, gdy tylko się pojawią, nie wypadając z dialogu.

Funkcje TML-Interaction-Small

Podczas gdy istniejące modele głosowe AI „biorą głos po kolei” (Państwo mówią, one odpowiadają), TML-Interaction-Small działa bardziej jak ludzki rozmówca. Oto cztery możliwości, które go wyróżniają.

Mówienie i słuchanie jednocześnie

TML-Interaction-Small potrafi generować mowę, gdy użytkownik nadal mówi. Umożliwia to tłumaczenie symultaniczne: mówią Państwo w jednym języku, a model zaczyna tłumaczyć, zanim skończą Państwo zdanie. Oznacza to też, że model może wtrącić się w połowie zdania, gdy wychwyci błąd, lub dawać werbalne sygnały („rozumiem”, „proszę kontynuować”), gdy wciąż coś Państwo objaśniają.

To przydaje się również do niestandardowych reakcji w czasie rzeczywistym, gdy wystąpi określone zdarzenie zasygnalizowane w wypowiedzi. Jeden z klipów w notatkach do wydania pokazuje na przykład, jak model przelicza kwoty w EUR i podaje odpowiadające im kwoty w USD za każdym razem, gdy użytkownik wspomina o płatności.

Widzenie i reagowanie na wideo bez pytania

TML-Interaction-Small przetwarza wideo równolegle z audio i może inicjować wypowiedź na podstawie tego, co widzi, bez żadnej werbalnej podpowiedzi.

Jeśli robią Państwo pompki przed kamerą, może głośno liczyć powtórzenia na bieżąco. Jeśli w strumieniu wideo pojawi się istotny obiekt, może go wskazać w momencie, gdy stanie się widoczny. Jest to jednak funkcja, którą wciąż można ulepszyć, co widać po wewnętrznym wyniku RepCount-A, gdzie tylko jedna trzecia (33,4%) przypadków mieściła się w różnicy jednego powtórzenia względem prawdy referencyjnej.

Jeden z klipów z wydania (który, moim zdaniem, wygląda nieco osobliwie) demonstruje to w praktyce: Po poproszeniu o zwracanie uwagi na postawę użytkowniczki, model natychmiast wykrył garbienie się przy laptopie i przypomniał jej o korekcie.

Istniejące komercyjne interfejsy API w czasie rzeczywistym obsługują wyłącznie audio. Reagują na wypowiedzi, ale nie potrafią proaktywnie odpowiadać na zmiany wizualne. Tego nie potrafią dziś GPT-Realtime-2 ani Gemini Live.

Naturalne radzenie sobie z przerwami i autokorektą

Jeśli zaczną Państwo zdanie, zmienią zdanie i skorygują się w trakcie, TML-Interaction-Small śledzi korektę i odpowiada na to, co faktycznie mieli Państwo na myśli. Radzi sobie z sygnałami potakującymi (gdy mówią Państwo „mhm” lub „tak” w trakcie jego wypowiedzi) i odróżnia sytuację, gdy ktoś mówi do niego, od rozmowy z kimś innym w pomieszczeniu.

To scenariusze, w których modele turowe często się wykładają. Albo przestają mówić, gdy nie powinny, albo odpowiadają na niewłaściwą część wypowiedzi. Ciekawe będzie zobaczyć, czy TML-Interaction-Small poradzi sobie z tym w codziennych sytuacjach równie dobrze jak w wyselekcjonowanych nagraniach demonstracyjnych.

Wykonywanie złożonych zadań w tle przy jednoczesnej obecności w rozmowie

Model w tle sprawia, że model interakcji jest nie tylko szybki, ale i inteligentny. Mogą Państwo zadawać kolejne pytania lub zmieniać temat, gdy zadanie w tle trwa. Gdy wyniki będą gotowe, model wplata je w rozmowę w naturalnym momencie, zamiast przerywać nagłą zmianą kontekstu.

Oznacza to, że otrzymują Państwo zarówno szybkie odpowiedzi konwersacyjne, jak i możliwość obsługi zadań wieloetapowych, które normalnie wymagałyby, by model na kilka sekund zamilkł. W demie quizu działa to całkiem dobrze: trzech użytkowników zadaje pytania z zakresu wiedzy ogólnej w szybkim tempie, a model w większości dotrzymuje im kroku.

Benchmarki TML-Interaction-Small

Thinking Machines raportuje wyniki w dwóch kategoriach: benchmarki strumieniowe mierzące interaktywność i benchmarki turowe mierzące inteligencję. Najlepsze wyniki model osiąga w części strumieniowej, gdzie jego wybory architektoniczne są najbardziej bezpośrednio testowane.

Interaktywność

FD-bench v1.5 podaje modelowi nagrane audio i mierzy jego zachowanie w czterech scenariuszach:

  • Przerwanie przez użytkownika
  • Sygnały potakujące użytkownika
  • Rozmowa z innymi
  • Mowa w tle

TML-Interaction-Small uzyskuje wynik 77,8, w porównaniu z 54,3 dla Gemini-3.1-flash-live-preview przy ustawieniach minimalnych i 46,8 dla GPT-Realtime-2.0 przy ustawieniach minimalnych. Nawet GPT-Realtime-2.0 przy najwyższym ustawieniu rozumowania (xhigh) osiąga tylko 47,8.

To benchmark, który najbezpośredniej mierzy to, do czego dąży Thinking Machines. Przewaga o 30 punktów nad najbliższym konkurentem to nie marginalna różnica. Pytanie brzmi, czy FD-bench v1.5 obejmuje pełne spektrum interaktywności istotnej w praktyce, co samo Thinking Machines uznaje za otwarte zagadnienie badawcze.

Opóźnienie w podejmowaniu tury

TML-Interaction-Small osiąga opóźnienie 0,40 sekundy w FD-bench v1, najszybciej spośród porównywanych modeli. Najbliżej jest Gemini-3.1-flash-live-preview z wynikiem 0,57 sekundy. Nawet przy ustawieniach minimalnych GPT-Realtime-2.0 potrzebuje około trzykrotnie więcej (1,18 sekundy); przy xhigh osiąga 1,63 sekundy.

Opóźnienie ma dla interakcji głosowej znaczenie, jakiego nie ma dla tekstu. Różnica 1,2 sekundy między zakończeniem wypowiedzi użytkownika a początkiem odpowiedzi modelu jest nie tylko zauważalna, ale i zakłócająca. Wynik 0,40 sekundy zbliża TML-Interaction-Small do ludzkich czasów reakcji w rozmowie.

Inteligencja i podążanie za instrukcjami

Audio MultiChallenge mierzy inteligencję i podążanie za instrukcjami w audio. TML-Interaction-Small uzyskuje 43,4%, powyżej GPT-Realtime-1.5 (34,7%) i Gemini-3.1-flash-live-preview (26,8%), ale poniżej GPT-Realtime-2.0 w trybie xhigh (48,5%). To benchmark, w którym widać kompromis między inteligencją a interaktywnością.

Różnica między TML-Interaction-Small a GPT-Realtime-2.0 w trybie xhigh wynosi 5,1 punktu procentowego. To różnica istotna, ale nie ogromna, i wiąże się ze znacznym kosztem opóźnienia po stronie GPT-Realtime-2.0 (1,63 sekundy wobec 0,40 sekundy). Czy ten kompromis się opłaca, zależy od zastosowania.

Jakość odpowiedzi i korzystanie z narzędzi

FD-bench v3 mierzy jakość odpowiedzi i dokładność wywołań narzędzi w scenariuszach audio-plus-narzędzia. TML-Interaction-Small uzyskuje 82,8% jakości odpowiedzi i 68,0% pass@1 przy włączonym agencie w tle, w porównaniu z 80,0% / 52,0% dla GPT-Realtime-2.0 przy ustawieniach minimalnych i 81,0% / 58,0% przy xhigh.

Różnica w pass@1 (68,0% wobec 58,0%) jest tu najistotniejsza, ponieważ mierzy, czy model faktycznie poprawnie wykonuje zadania zależne od narzędzi. Wygląda na to, że podwójna architektura oddzielająca wywołania narzędzi od interakcji z użytkownikiem się opłaca.

Nowe benchmarki interaktywności: TimeSpeak, CueSpeak i proaktywność wizualna

Thinking Machines stworzyło dwa wewnętrzne benchmarki i zaadaptowało trzy mniej powszechnie używane, aby bezpośrednio mierzyć możliwości interaktywne. Warto im się uważnie przyjrzeć, bo żaden konkurencyjny model nie osiąga na nich znaczących wyników.

  • TimeSpeak (zainicjowanie mowy w określonym czasie): TML-Interaction-Small uzyskuje 64,7% dokładności makro.
  • CueSpeak (mowa wyzwalana wskazówką werbalną): TML-Interaction-Small uzyskuje 81,7% dokładności makro.
  • RepCount-A (liczenie akcji wizualnych): TML-Interaction-Small uzyskuje 33,4% dokładności „off-by-one”.
  • ProactiveVideoQA (mowa wyzwalana wskazówką wizualną): TML-Interaction-Small uzyskuje 31,5 PAUC (brak odpowiedzi = 25,0%).
  • Charades temporal localization (czasowa lokalizacja akcji wizualnych): TML-Interaction-Small uzyskuje 30,4 mIoU.

W większości tych nowych benchmarków GPT-Realtime-2.0 całkowicie zawodzi, z wynikiem bliskim zeru, a nawet zerowym (na benchmarku Charades, który wymaga, by model powiedział „start” i „stop” we właściwych momentach podczas wideo).

Trudno mi ocenić, na ile te wyniki są miarodajne, ponieważ benchmarki są nowe i jeszcze niezależnie niezwalidowane, ale wpisują się w ogólny obraz różnic architektonicznych i porównywalnych wyników w innych testach.

Cennik i dostępność TML-Interaction-Small

TML-Interaction-Small jest obecnie w ograniczonym podglądzie badawczym i nie ogłoszono jeszcze szczegółów cenowych. Thinking Machines planuje szerszy dostęp później w 2026 roku. Zainteresowani badacze i deweloperzy mogą kontaktować się z zespołem pod adresem interaction@thinkingmachines.ai, aby poprosić o dostęp.

Dla porównania, GPT-Realtime-2 kosztuje 32 USD za milion wejściowych tokenów audio i 64 USD za milion wyjściowych tokenów audio, co omówiliśmy w naszym przeglądzie GPT-Realtime-2. Ceny TML-Interaction-Small prawdopodobnie zostaną ogłoszone wraz z szerszym wydaniem.

Jak zapewne Państwo zauważyli, model ma sufiks „-Small” i słusznie można oczekiwać, że Thinking Machines zaprezentuje większe modele. Na razie są zbyt wolne do obsługi, ale wydanie planowane jest na końcówkę 2026 roku.

TML-Interaction-Small vs. GPT-Realtime-2

Bardziej interesująca różnica między tymi dwoma modelami dotyczy benchmarków interaktywności. W FD-bench v1.5, który mierzy zachowanie w scenariuszach przerwania przez użytkownika, sygnałów potakujących, rozmów z innymi i mowy w tle, TML-Interaction-Small uzyskuje 77,8. GPT-Realtime-2.0 przy ustawieniach minimalnych uzyskuje 46,8, a przy najwyższym ustawieniu rozumowania (xhigh) 47,8. To 30-punktowa przewaga w benchmarku najpełniej mierzącym to, do czego optymalizuje Thinking Machines.

Istnieje kompromis w zakresie inteligencji, ale różnica jest tu znacznie mniejsza niż w interaktywności. GPT-Realtime-2.0 w trybie xhigh uzyskuje 48,5% w Audio MultiChallenge wobec 43,4% dla TML-Interaction-Small. W BigBench Audio GPT-Realtime-2.0 w trybie high osiąga 96,6% wobec 75,7% dla TML-Interaction-Small (choć TML-Interaction-Small osiąga 96,5% przy włączonym agencie w tle).

Ogólny obraz jest taki, że TML-Interaction-Small prowadzi pod względem responsywności i interaktywności, podczas gdy GPT-Realtime-2.0 przy wysokich ustawieniach rozumowania prowadzi w surowych benchmarkach inteligencji.

Benchmark TML-Interaction-Small GPT-Realtime-2.0 (minimal) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (minimal)
FD-bench v1 opóźnienie w podejmowaniu tury (s) 0,40 1,18 1,63 0,57
FD-bench v1.5 średnia 77,8 46,8 47,8 54,3
FD-bench v3 jakość odpowiedzi (%) 82,8* 80,0 81,0 68,5
Audio MultiChallenge APR (%) 43,4 37,6 48,5 26,8
BigBench Audio trafność (%) 75,7 / 96,5* 71,8 96,6 71,3
IFEval (VoiceBench) trafność (%) 82,1 81,7 83,2 67,6
IFEval tekst trafność (%) 89,7 89,6 95,2 85,8

* Z włączonym agentem w tle.

Aby zobaczyć rodzinę modeli audio OpenAI w akcji, proszę zajrzeć do naszego samouczka interfejsu API GPT-Realtime-2.

Na koniec

TML-Interaction-Small zapowiada się obiecująco. Jeśli spełni deklaracje z notatek do wydania, nowy model przynosi istotnie lepszą interaktywność przy krótkim opóźnieniu, bez poświęcania jakości odpowiedzi czy mocy rozumowania. Zdolność do jednoczesnego mówienia, słuchania i reagowania na wskazówki wizualne jest jak dotąd unikalna i otwiera wiele możliwości. Jestem ciekaw, jak będzie wyglądało wycenienie modelu po publicznym wydaniu.

Luka w inteligencji względem GPT-Realtime-2 jest realna, ale węższa niż w interaktywności. W zastosowaniach, gdzie rozmowa ma brzmieć naturalnie, ta różnica w opóźnieniu liczy się bardziej niż luka w inteligencji. W zastosowaniach, gdzie priorytetem jest trafność w trudnych zadaniach wymagających rozumowania, GPT-Realtime-2.0 przy wysokich ustawieniach rozumowania nadal prowadzi.

Jeśli chcą Państwo szybko rozeznać się w szerszym krajobrazie modeli AI i nauczyć się skutecznej pracy z nimi, polecam zacząć od naszego szlaku umiejętności AI Fundamentals.

FAQ dotyczące TML-Interaction-Small

Czym jest model interakcji?

Model interakcji to system głosowej AI, w którym interaktywność jest wbudowana w sam model, a nie dodana przez zewnętrzne komponenty, takie jak detekcja aktywności głosowej i zarządzanie dialogiem. Przetwarza wejście i wyjście jednocześnie, dzięki czemu może słuchać i mówić w tym samym czasie, zamiast czekać na swoją kolej.

Kto stoi za Thinking Machines Lab?

Thinking Machines Lab kieruje Mira Murati, wcześniej CTO OpenAI. TML-Interaction-Small to pierwsze publiczne wydanie modelu laboratorium, opisane jako podgląd badawczy ich architektury modelu interakcji.

Jak TML-Interaction-Small wypada w porównaniu z GPT-Realtime-2 od OpenAI?

TML-Interaction-Small prowadzi w interaktywności, uzyskując 77,8 w FD-bench v1.5 wobec 47,8 dla GPT-Realtime-2 przy najwyższym ustawieniu, z szybszym opóźnieniem w podejmowaniu tury wynoszącym 0,40 s wobec 1,63 s. GPT-Realtime-2 prowadzi w surowych benchmarkach inteligencji, takich jak Audio MultiChallenge (48,5% vs 43,4%).

Czy TML-Interaction-Small potrafi przetwarzać wideo?

Tak. Przetwarza wideo równolegle z audio i może reagować na zdarzenia wizualne bez żadnej werbalnej podpowiedzi ze strony użytkownika, na przykład licząc powtórzenia ćwiczeń przed kamerą lub wskazując obiekty, gdy się pojawiają. Taka proaktywność wizualna nie występuje w GPT-Realtime-2 ani Gemini Live.

Tematy

Ucz się AI z DataCamp!

Track

Podstawy AI

10 godz.
Odkryj podstawy AI, naucz się skutecznie wykorzystywać AI w pracy i poznaj modele takie jak ChatGPT, aby poruszać się po dynamicznym krajobrazie AI.
Zobacz szczegółyRight Arrow
Rozpocznij kurs
Zobacz więcejRight Arrow