Track
Zaledwie w zeszłym tygodniu GPT-Realtime-2 od OpenAI podniósł poprzeczkę dla głosowej AI, debiutując z rozumowaniem klasy GPT-5 i oknem kontekstu 128 tys. tokenów. Teraz Thinking Machines Lab Miry Murati stawia inną tezę: że responsywność i inteligencję należy wytrenować w tym samym modelu od podstaw, a nie doklejać je za pomocą detekcji aktywności głosowej i komponentów do zarządzania dialogiem.
Laboratorium nazywa ten typ nowego modelu „modelem interakcji”.
Ich podgląd badawczy, TML-Interaction-Small, to pierwszy rezultat tego podejścia. Jest to model Mixture-of-Experts z 276 mld parametrów i 12 mld aktywnych parametrów. Przetwarza dźwięk, wideo i tekst w ciągłych mikro-turach po 200 ms, co oznacza, że postrzega i odpowiada jednocześnie, zamiast czekać, aż mówca skończy.
W tym artykule wyjaśnię, czym jest TML-Interaction-Small, omówię jego kluczowe cechy architektoniczne, porównam go bezpośrednio z GPT-Realtime-2 i szczegółowo przyjrzę się wynikom benchmarków.
Czym są modele interakcji?
Thinking Machines Lab opisuje model interakcji jako system, w którym interaktywność jest częścią samego modelu, a nie implementacją w otaczającej go „uprzęży”. Zasadą jest, że responsywność i inteligencję należy trenować wspólnie od podstaw na ciągłych strumieniach audio i wideo, a nie dokładać je do modelu tekstowego post factum.
Większość istniejących systemów głosowej AI w czasie rzeczywistym skleja ze sobą komponenty detekcji aktywności głosowej, osobne enkodery i warstwy zarządzania dialogiem, aby symulować responsywność. Thinking Machines Lab argumentuje, że to podejście zawsze będzie w tyle za modelami, które natywnie obsługują interakcję, ze względu na sztuczne granice tur ograniczające możliwości modelu nieinteraktywnego.
Zamiast sekwencyjnie konsumować dane użytkownika, a następnie generować pełną odpowiedź, modele interakcji laboratorium są zaprojektowane bliżej ludzkiej percepcji. Traktują zarówno tokeny wejściowe, jak i wyjściowe jako strumienie, a oba są przeplatane w każdej mikro-turze trwającej 200 milisekund.
W efekcie model interakcji postrzega i odpowiada jednocześnie, przetwarzając wejście i wyjście równolegle, zamiast czekać, aż mówca skończy. To umożliwia kilka ciekawych umiejętności:
- Mówienie podczas słuchania
- Reagowanie na wskazówki wizualne bez podpowiedzi
- Bezpośrednie śledzenie upływu czasu
To wszystko są rzeczy, których modele turowe z zewnętrzną „uprzężą” nie potrafią odtworzyć, niezależnie od zdolności do rozumowania.
Czym jest TML-Interaction-Small?
TML-Interaction-Small to pierwsze publiczne wydanie modelu Thinking Machines Lab i pierwsza implementacja ich architektury modelu interakcji.
Jest to model Mixture-of-Experts z 276 mld parametrów i 12 mld aktywnych parametrów, trenowany od podstaw na ciągłych strumieniach audio i wideo z wykorzystaniem opisanego wcześniej projektu wielostrumieniowych mikro-tur, w którym wejście i wyjście są przetwarzane w kawałkach po 200 ms.

Połączenie dwóch modeli ze współdzielonym kontekstem zapewnia zarówno responsywność, jak i inteligencję. Użytkownicy otrzymują odpowiedzi od modelu interakcji w czasie rzeczywistym, podczas gdy planowanie, korzystanie z narzędzi i głębsze rozumowanie są delegowane do modelu w tle, który działa asynchronicznie.
Następnie model interakcji wplata wyniki tła z powrotem w rozmowę, gdy tylko się pojawią, nie wypadając z dialogu.
Funkcje TML-Interaction-Small
Podczas gdy istniejące modele głosowe AI „biorą głos po kolei” (Państwo mówią, one odpowiadają), TML-Interaction-Small działa bardziej jak ludzki rozmówca. Oto cztery możliwości, które go wyróżniają.
Mówienie i słuchanie jednocześnie
TML-Interaction-Small potrafi generować mowę, gdy użytkownik nadal mówi. Umożliwia to tłumaczenie symultaniczne: mówią Państwo w jednym języku, a model zaczyna tłumaczyć, zanim skończą Państwo zdanie. Oznacza to też, że model może wtrącić się w połowie zdania, gdy wychwyci błąd, lub dawać werbalne sygnały („rozumiem”, „proszę kontynuować”), gdy wciąż coś Państwo objaśniają.
To przydaje się również do niestandardowych reakcji w czasie rzeczywistym, gdy wystąpi określone zdarzenie zasygnalizowane w wypowiedzi. Jeden z klipów w notatkach do wydania pokazuje na przykład, jak model przelicza kwoty w EUR i podaje odpowiadające im kwoty w USD za każdym razem, gdy użytkownik wspomina o płatności.
Widzenie i reagowanie na wideo bez pytania
TML-Interaction-Small przetwarza wideo równolegle z audio i może inicjować wypowiedź na podstawie tego, co widzi, bez żadnej werbalnej podpowiedzi.
Jeśli robią Państwo pompki przed kamerą, może głośno liczyć powtórzenia na bieżąco. Jeśli w strumieniu wideo pojawi się istotny obiekt, może go wskazać w momencie, gdy stanie się widoczny. Jest to jednak funkcja, którą wciąż można ulepszyć, co widać po wewnętrznym wyniku RepCount-A, gdzie tylko jedna trzecia (33,4%) przypadków mieściła się w różnicy jednego powtórzenia względem prawdy referencyjnej.
Jeden z klipów z wydania (który, moim zdaniem, wygląda nieco osobliwie) demonstruje to w praktyce: Po poproszeniu o zwracanie uwagi na postawę użytkowniczki, model natychmiast wykrył garbienie się przy laptopie i przypomniał jej o korekcie.
Istniejące komercyjne interfejsy API w czasie rzeczywistym obsługują wyłącznie audio. Reagują na wypowiedzi, ale nie potrafią proaktywnie odpowiadać na zmiany wizualne. Tego nie potrafią dziś GPT-Realtime-2 ani Gemini Live.
Naturalne radzenie sobie z przerwami i autokorektą
Jeśli zaczną Państwo zdanie, zmienią zdanie i skorygują się w trakcie, TML-Interaction-Small śledzi korektę i odpowiada na to, co faktycznie mieli Państwo na myśli. Radzi sobie z sygnałami potakującymi (gdy mówią Państwo „mhm” lub „tak” w trakcie jego wypowiedzi) i odróżnia sytuację, gdy ktoś mówi do niego, od rozmowy z kimś innym w pomieszczeniu.
To scenariusze, w których modele turowe często się wykładają. Albo przestają mówić, gdy nie powinny, albo odpowiadają na niewłaściwą część wypowiedzi. Ciekawe będzie zobaczyć, czy TML-Interaction-Small poradzi sobie z tym w codziennych sytuacjach równie dobrze jak w wyselekcjonowanych nagraniach demonstracyjnych.
Wykonywanie złożonych zadań w tle przy jednoczesnej obecności w rozmowie
Model w tle sprawia, że model interakcji jest nie tylko szybki, ale i inteligentny. Mogą Państwo zadawać kolejne pytania lub zmieniać temat, gdy zadanie w tle trwa. Gdy wyniki będą gotowe, model wplata je w rozmowę w naturalnym momencie, zamiast przerywać nagłą zmianą kontekstu.
Oznacza to, że otrzymują Państwo zarówno szybkie odpowiedzi konwersacyjne, jak i możliwość obsługi zadań wieloetapowych, które normalnie wymagałyby, by model na kilka sekund zamilkł. W demie quizu działa to całkiem dobrze: trzech użytkowników zadaje pytania z zakresu wiedzy ogólnej w szybkim tempie, a model w większości dotrzymuje im kroku.
Benchmarki TML-Interaction-Small
Thinking Machines raportuje wyniki w dwóch kategoriach: benchmarki strumieniowe mierzące interaktywność i benchmarki turowe mierzące inteligencję. Najlepsze wyniki model osiąga w części strumieniowej, gdzie jego wybory architektoniczne są najbardziej bezpośrednio testowane.
Interaktywność
FD-bench v1.5 podaje modelowi nagrane audio i mierzy jego zachowanie w czterech scenariuszach:
- Przerwanie przez użytkownika
- Sygnały potakujące użytkownika
- Rozmowa z innymi
- Mowa w tle
TML-Interaction-Small uzyskuje wynik 77,8, w porównaniu z 54,3 dla Gemini-3.1-flash-live-preview przy ustawieniach minimalnych i 46,8 dla GPT-Realtime-2.0 przy ustawieniach minimalnych. Nawet GPT-Realtime-2.0 przy najwyższym ustawieniu rozumowania (xhigh) osiąga tylko 47,8.
To benchmark, który najbezpośredniej mierzy to, do czego dąży Thinking Machines. Przewaga o 30 punktów nad najbliższym konkurentem to nie marginalna różnica. Pytanie brzmi, czy FD-bench v1.5 obejmuje pełne spektrum interaktywności istotnej w praktyce, co samo Thinking Machines uznaje za otwarte zagadnienie badawcze.
Opóźnienie w podejmowaniu tury
TML-Interaction-Small osiąga opóźnienie 0,40 sekundy w FD-bench v1, najszybciej spośród porównywanych modeli. Najbliżej jest Gemini-3.1-flash-live-preview z wynikiem 0,57 sekundy. Nawet przy ustawieniach minimalnych GPT-Realtime-2.0 potrzebuje około trzykrotnie więcej (1,18 sekundy); przy xhigh osiąga 1,63 sekundy.
Opóźnienie ma dla interakcji głosowej znaczenie, jakiego nie ma dla tekstu. Różnica 1,2 sekundy między zakończeniem wypowiedzi użytkownika a początkiem odpowiedzi modelu jest nie tylko zauważalna, ale i zakłócająca. Wynik 0,40 sekundy zbliża TML-Interaction-Small do ludzkich czasów reakcji w rozmowie.
Inteligencja i podążanie za instrukcjami
Audio MultiChallenge mierzy inteligencję i podążanie za instrukcjami w audio. TML-Interaction-Small uzyskuje 43,4%, powyżej GPT-Realtime-1.5 (34,7%) i Gemini-3.1-flash-live-preview (26,8%), ale poniżej GPT-Realtime-2.0 w trybie xhigh (48,5%). To benchmark, w którym widać kompromis między inteligencją a interaktywnością.
Różnica między TML-Interaction-Small a GPT-Realtime-2.0 w trybie xhigh wynosi 5,1 punktu procentowego. To różnica istotna, ale nie ogromna, i wiąże się ze znacznym kosztem opóźnienia po stronie GPT-Realtime-2.0 (1,63 sekundy wobec 0,40 sekundy). Czy ten kompromis się opłaca, zależy od zastosowania.
Jakość odpowiedzi i korzystanie z narzędzi
FD-bench v3 mierzy jakość odpowiedzi i dokładność wywołań narzędzi w scenariuszach audio-plus-narzędzia. TML-Interaction-Small uzyskuje 82,8% jakości odpowiedzi i 68,0% pass@1 przy włączonym agencie w tle, w porównaniu z 80,0% / 52,0% dla GPT-Realtime-2.0 przy ustawieniach minimalnych i 81,0% / 58,0% przy xhigh.
Różnica w pass@1 (68,0% wobec 58,0%) jest tu najistotniejsza, ponieważ mierzy, czy model faktycznie poprawnie wykonuje zadania zależne od narzędzi. Wygląda na to, że podwójna architektura oddzielająca wywołania narzędzi od interakcji z użytkownikiem się opłaca.
Nowe benchmarki interaktywności: TimeSpeak, CueSpeak i proaktywność wizualna
Thinking Machines stworzyło dwa wewnętrzne benchmarki i zaadaptowało trzy mniej powszechnie używane, aby bezpośrednio mierzyć możliwości interaktywne. Warto im się uważnie przyjrzeć, bo żaden konkurencyjny model nie osiąga na nich znaczących wyników.
- TimeSpeak (zainicjowanie mowy w określonym czasie): TML-Interaction-Small uzyskuje 64,7% dokładności makro.
- CueSpeak (mowa wyzwalana wskazówką werbalną): TML-Interaction-Small uzyskuje 81,7% dokładności makro.
- RepCount-A (liczenie akcji wizualnych): TML-Interaction-Small uzyskuje 33,4% dokładności „off-by-one”.
- ProactiveVideoQA (mowa wyzwalana wskazówką wizualną): TML-Interaction-Small uzyskuje 31,5 PAUC (brak odpowiedzi = 25,0%).
- Charades temporal localization (czasowa lokalizacja akcji wizualnych): TML-Interaction-Small uzyskuje 30,4 mIoU.
W większości tych nowych benchmarków GPT-Realtime-2.0 całkowicie zawodzi, z wynikiem bliskim zeru, a nawet zerowym (na benchmarku Charades, który wymaga, by model powiedział „start” i „stop” we właściwych momentach podczas wideo).
Trudno mi ocenić, na ile te wyniki są miarodajne, ponieważ benchmarki są nowe i jeszcze niezależnie niezwalidowane, ale wpisują się w ogólny obraz różnic architektonicznych i porównywalnych wyników w innych testach.
Cennik i dostępność TML-Interaction-Small
TML-Interaction-Small jest obecnie w ograniczonym podglądzie badawczym i nie ogłoszono jeszcze szczegółów cenowych. Thinking Machines planuje szerszy dostęp później w 2026 roku. Zainteresowani badacze i deweloperzy mogą kontaktować się z zespołem pod adresem interaction@thinkingmachines.ai, aby poprosić o dostęp.
Dla porównania, GPT-Realtime-2 kosztuje 32 USD za milion wejściowych tokenów audio i 64 USD za milion wyjściowych tokenów audio, co omówiliśmy w naszym przeglądzie GPT-Realtime-2. Ceny TML-Interaction-Small prawdopodobnie zostaną ogłoszone wraz z szerszym wydaniem.
Jak zapewne Państwo zauważyli, model ma sufiks „-Small” i słusznie można oczekiwać, że Thinking Machines zaprezentuje większe modele. Na razie są zbyt wolne do obsługi, ale wydanie planowane jest na końcówkę 2026 roku.
TML-Interaction-Small vs. GPT-Realtime-2
Bardziej interesująca różnica między tymi dwoma modelami dotyczy benchmarków interaktywności. W FD-bench v1.5, który mierzy zachowanie w scenariuszach przerwania przez użytkownika, sygnałów potakujących, rozmów z innymi i mowy w tle, TML-Interaction-Small uzyskuje 77,8. GPT-Realtime-2.0 przy ustawieniach minimalnych uzyskuje 46,8, a przy najwyższym ustawieniu rozumowania (xhigh) 47,8. To 30-punktowa przewaga w benchmarku najpełniej mierzącym to, do czego optymalizuje Thinking Machines.
Istnieje kompromis w zakresie inteligencji, ale różnica jest tu znacznie mniejsza niż w interaktywności. GPT-Realtime-2.0 w trybie xhigh uzyskuje 48,5% w Audio MultiChallenge wobec 43,4% dla TML-Interaction-Small. W BigBench Audio GPT-Realtime-2.0 w trybie high osiąga 96,6% wobec 75,7% dla TML-Interaction-Small (choć TML-Interaction-Small osiąga 96,5% przy włączonym agencie w tle).
Ogólny obraz jest taki, że TML-Interaction-Small prowadzi pod względem responsywności i interaktywności, podczas gdy GPT-Realtime-2.0 przy wysokich ustawieniach rozumowania prowadzi w surowych benchmarkach inteligencji.
| Benchmark | TML-Interaction-Small | GPT-Realtime-2.0 (minimal) | GPT-Realtime-2.0 (xhigh) | Gemini-3.1-flash-live (minimal) |
|---|---|---|---|---|
| FD-bench v1 opóźnienie w podejmowaniu tury (s) | 0,40 | 1,18 | 1,63 | 0,57 |
| FD-bench v1.5 średnia | 77,8 | 46,8 | 47,8 | 54,3 |
| FD-bench v3 jakość odpowiedzi (%) | 82,8* | 80,0 | 81,0 | 68,5 |
| Audio MultiChallenge APR (%) | 43,4 | 37,6 | 48,5 | 26,8 |
| BigBench Audio trafność (%) | 75,7 / 96,5* | 71,8 | 96,6 | 71,3 |
| IFEval (VoiceBench) trafność (%) | 82,1 | 81,7 | 83,2 | 67,6 |
| IFEval tekst trafność (%) | 89,7 | 89,6 | 95,2 | 85,8 |
* Z włączonym agentem w tle.
Aby zobaczyć rodzinę modeli audio OpenAI w akcji, proszę zajrzeć do naszego samouczka interfejsu API GPT-Realtime-2.
Na koniec
TML-Interaction-Small zapowiada się obiecująco. Jeśli spełni deklaracje z notatek do wydania, nowy model przynosi istotnie lepszą interaktywność przy krótkim opóźnieniu, bez poświęcania jakości odpowiedzi czy mocy rozumowania. Zdolność do jednoczesnego mówienia, słuchania i reagowania na wskazówki wizualne jest jak dotąd unikalna i otwiera wiele możliwości. Jestem ciekaw, jak będzie wyglądało wycenienie modelu po publicznym wydaniu.
Luka w inteligencji względem GPT-Realtime-2 jest realna, ale węższa niż w interaktywności. W zastosowaniach, gdzie rozmowa ma brzmieć naturalnie, ta różnica w opóźnieniu liczy się bardziej niż luka w inteligencji. W zastosowaniach, gdzie priorytetem jest trafność w trudnych zadaniach wymagających rozumowania, GPT-Realtime-2.0 przy wysokich ustawieniach rozumowania nadal prowadzi.
Jeśli chcą Państwo szybko rozeznać się w szerszym krajobrazie modeli AI i nauczyć się skutecznej pracy z nimi, polecam zacząć od naszego szlaku umiejętności AI Fundamentals.
FAQ dotyczące TML-Interaction-Small
Czym jest model interakcji?
Model interakcji to system głosowej AI, w którym interaktywność jest wbudowana w sam model, a nie dodana przez zewnętrzne komponenty, takie jak detekcja aktywności głosowej i zarządzanie dialogiem. Przetwarza wejście i wyjście jednocześnie, dzięki czemu może słuchać i mówić w tym samym czasie, zamiast czekać na swoją kolej.
Kto stoi za Thinking Machines Lab?
Thinking Machines Lab kieruje Mira Murati, wcześniej CTO OpenAI. TML-Interaction-Small to pierwsze publiczne wydanie modelu laboratorium, opisane jako podgląd badawczy ich architektury modelu interakcji.
Jak TML-Interaction-Small wypada w porównaniu z GPT-Realtime-2 od OpenAI?
TML-Interaction-Small prowadzi w interaktywności, uzyskując 77,8 w FD-bench v1.5 wobec 47,8 dla GPT-Realtime-2 przy najwyższym ustawieniu, z szybszym opóźnieniem w podejmowaniu tury wynoszącym 0,40 s wobec 1,63 s. GPT-Realtime-2 prowadzi w surowych benchmarkach inteligencji, takich jak Audio MultiChallenge (48,5% vs 43,4%).
Czy TML-Interaction-Small potrafi przetwarzać wideo?
Tak. Przetwarza wideo równolegle z audio i może reagować na zdarzenia wizualne bez żadnej werbalnej podpowiedzi ze strony użytkownika, na przykład licząc powtórzenia ćwiczeń przed kamerą lub wskazując obiekty, gdy się pojawiają. Taka proaktywność wizualna nie występuje w GPT-Realtime-2 ani Gemini Live.