Program
Baru minggu lalu, GPT-Realtime-2 dari OpenAI menaikkan standar AI suara saat diluncurkan dengan kemampuan penalaran setara GPT-5 dan jendela konteks 128K. Kini, Thinking Machines Lab milik Mira Murati mengajukan argumen berbeda: bahwa responsivitas dan kecerdasan seharusnya dilatih ke dalam model yang sama sejak awal, bukan dipasangi kemudian dengan rangkaian voice-activity-detection dan komponen manajemen dialog.
Lab tersebut menyebut tipe model baru ini sebagai "Model Interaksi".
Pratinjau riset mereka, TML-Interaction-Small, adalah hasil pertama dari pendekatan ini. Ini adalah model Mixture-of-Experts dengan 276 miliar parameter dan 12 miliar parameter aktif. Model ini memproses audio, video, dan teks dalam mikro-giliran kontinu sepanjang 200 ms, artinya model merasakan dan merespons secara bersamaan alih-alih menunggu penutur selesai.
Dalam artikel ini, saya akan membahas apa itu TML-Interaction-Small, menelusuri fitur arsitektur utamanya, membandingkannya secara langsung dengan GPT-Realtime-2, dan meninjau hasil benchmark secara mendetail.
Apa Itu Model Interaksi?
Thinking Machines Lab mendeskripsikan model interaksi sebagai sistem di mana interaktivitas merupakan bagian dari model itu sendiri, bukan diimplementasikan dalam rangka luar. Prinsip intinya adalah bahwa responsivitas dan kecerdasan harus dilatih bersama sejak awal, pada aliran audio dan video kontinu, alih-alih dipasangkan di atas model berbasis teks setelahnya.
Kebanyakan sistem AI suara real-time yang ada saat ini merangkai komponen deteksi aktivitas suara, encoder terpisah, dan lapisan manajemen dialog untuk menyimulasikan responsivitas. Thinking Machines Lab berargumen pendekatan ini akan selalu tertinggal dari model yang menangani interaksi secara native karena batas giliran buatan yang membatasi kemampuan model non-interaktif.
Alih-alih mengonsumsi masukan pengguna secara berurutan lalu menghasilkan respons lengkap, model interaksi lab ini dirancang lebih mendekati persepsi manusia. Mereka memperlakukan token masukan dan keluaran sebagai aliran, dan keduanya diselingi dalam setiap mikro-giliran berdurasi 200 milidetik.
Sebagai gantinya, model interaksi merasakan dan merespons pada saat yang sama, memproses masukan dan keluaran secara paralel alih-alih menunggu penutur selesai. Ini memunculkan beberapa kemampuan menarik:
- Berbicara sambil mendengarkan
- Bereaksi terhadap isyarat visual tanpa diminta
- Melacak waktu berlalu secara langsung
Semua ini adalah hal-hal yang tidak dapat direplikasi oleh model berbasis giliran dengan rangka eksternal, seberapa pun besar kemampuan penalarannya.
Apa itu TML-Interaction-Small?
TML-Interaction-Small adalah rilis model publik pertama dari Thinking Machines Lab dan implementasi perdana dari arsitektur model interaksi mereka.
Ini adalah model Mixture-of-Experts dengan 276 miliar parameter dan 12 miliar parameter aktif, dilatih dari nol pada aliran audio dan video kontinu menggunakan desain mikro-giliran multi-stream yang saya jelaskan sebelumnya, di mana masukan dan keluaran diproses dalam potongan 200 ms.

Kombinasi dua model dengan konteks bersama menawarkan baik responsivitas maupun kecerdasan. Pengguna menerima jawaban dari model interaksi secara real-time, sementara perencanaan, penggunaan alat, dan penalaran mendalam didelegasikan ke model latar belakang yang berjalan secara asinkron.
Model interaksi kemudian mengintegrasikan hasil latar belakang ke dalam percakapan saat hasil itu tiba, tanpa keluar dari percakapan.
Fitur TML-Interaction-Small
Jika model AI suara yang ada bekerja bergiliran (Anda berbicara, mereka merespons), TML-Interaction-Small bekerja lebih mirip mitra percakapan manusia. Berikut empat kemampuan yang membedakannya.
Berbicara dan mendengarkan secara bersamaan
TML-Interaction-Small dapat menghasilkan ucapan ketika pengguna masih berbicara. Ini memungkinkan penerjemahan simultan: Anda berbicara dalam satu bahasa, dan model mulai menerjemahkan sebelum Anda menyelesaikan kalimat. Ini juga berarti model dapat menyela di tengah kalimat saat menangkap kesalahan, atau memberi isyarat verbal ("baik", "lanjutkan") ketika Anda masih menjelaskan sesuatu.
Ini juga berguna untuk respons real-time kustom kapan pun terjadi peristiwa terpicu tertentu. Salah satu klip dalam catatan rilis, misalnya, menunjukkan bagaimana model mengonversi jumlah EUR dan menyebutkan jumlah USD yang sesuai kapan pun pengguna menyebut pembayaran.
Melihat dan bereaksi terhadap video tanpa diminta
TML-Interaction-Small memproses video bersamaan dengan audio dan dapat memulai ucapan berdasarkan apa yang dilihatnya, tanpa pemicu verbal apa pun.
Jika Anda melakukan push-up di kamera, model dapat menghitung repetisi secara lantang saat terjadi. Jika objek relevan muncul dalam aliran video, model dapat menyebutkannya pada momen objek itu terlihat. Namun, ini adalah fitur yang masih dapat ditingkatkan, terlihat dari skor internal RepCount-A, di mana hanya sepertiga (33,4%) kejadian yang berada dalam selisih satu repetisi dari kebenaran dasar.
Salah satu klip rilis (yang menurut saya agak unik) mendemonstrasikan ini: Saat diminta memperhatikan postur pengguna, model mendeteksi posisi membungkuk di depan laptop seketika dan mengingatkannya untuk memperbaikinya.
API real-time komersial yang ada saat ini hanya audio. Mereka merespons giliran bicara tetapi tidak memiliki cara untuk secara proaktif bereaksi terhadap perubahan visual. Ini adalah kemampuan yang saat ini tidak ada di GPT-Realtime-2 atau Gemini Live.
Menangani interupsi dan koreksi diri secara alami
Jika Anda memulai kalimat, berubah pikiran, dan mengoreksi diri di tengah pikiran, TML-Interaction-Small melacak koreksi tersebut dan merespons apa yang sebenarnya Anda maksud. Model ini menangani backchanneling (Anda mengatakan "hmm" atau "betul" saat ia berbicara) dan membedakan antara seseorang yang berbicara kepadanya versus berbicara kepada orang lain di ruangan.
Ini adalah skenario di mana model berbasis giliran sering kali gagal. Mereka entah berhenti berbicara saat tidak seharusnya, atau merespons bagian yang salah dari apa yang dikatakan. Akan menarik untuk melihat apakah TML-Interaction-Small dapat menanganinya dalam situasi sehari-hari sebaik dalam video demo yang dikurasi.
Menjalankan tugas kompleks di latar belakang sambil tetap hadir
Model latar belakang membuat model interaksi tidak hanya cepat, tetapi juga cerdas. Anda dapat terus mengajukan pertanyaan lanjutan atau mengganti topik saat tugas latar belakang berjalan. Ketika hasil siap, model menyisipkannya kembali ke percakapan pada momen yang alami alih-alih menyela Anda dengan pergantian konteks mendadak.
Ini berarti Anda mendapatkan respons percakapan yang cepat sekaligus kemampuan menangani tugas multi-langkah yang biasanya mengharuskan model untuk diam beberapa detik. Dalam klip demo kuis, ini bekerja cukup baik: Tiga pengguna mengajukan pertanyaan trivia dengan tempo tinggi, dan model sebagian besar dapat mengikuti kecepatan mereka.
Benchmark TML-Interaction-Small
Thinking Machines melaporkan hasil pada dua kategori: benchmark streaming yang mengukur interaktivitas, dan benchmark berbasis giliran yang mengukur kecerdasan. Hasil terkuat model ada pada sisi streaming, yang merupakan area di mana pilihan arsitekturnya paling langsung diuji.
Interaktivitas
FD-bench v1.5 memberikan audio prarekaman ke model dan mengukur perilakunya pada empat skenario:
- Interupsi oleh pengguna
- Backchannel oleh pengguna
- Berbicara kepada orang lain
- Ucapan latar belakang
TML-Interaction-Small mencetak 77,8, dibandingkan 54,3 untuk Gemini-3.1-flash-live-preview pada pengaturan minimal dan 46,8 untuk GPT-Realtime-2.0 pada pengaturan minimal. Bahkan GPT-Realtime-2.0 pada pengaturan penalaran tertinggi (xhigh) hanya mencetak 47,8.
Ini adalah benchmark yang paling langsung mengukur tujuan pembangunan Thinking Machines. Kesenjangan 30 poin dibanding pesaing terdekat bukanlah perbedaan kecil. Pertanyaannya adalah apakah FD-bench v1.5 menangkap seluruh rentang interaktivitas yang penting dalam praktik, yang diakui sendiri oleh Thinking Machines masih merupakan pertanyaan riset terbuka.
Latensi pergiliran
TML-Interaction-Small mencapai latensi pergiliran 0,40 detik di FD-bench v1, yang tercepat dari semua model yang dibandingkan. Gemini-3.1-flash-live-preview paling mendekati dengan 0,57 detik. Bahkan pada pengaturan minimal, GPT-Realtime-2.0 memerlukan kira-kira tiga kali lebih lama (1,18 detik); pada penalaran xhigh, GPT-Realtime-2.0 mencapai 1,63 detik.
Latensi penting untuk interaksi suara dengan cara yang tidak sama untuk teks. Kesenjangan 1,2 detik antara saat pengguna selesai berbicara dan saat model mulai merespons bukan hanya terasa, tetapi juga mengganggu. Hasil 0,40 detik menempatkan TML-Interaction-Small lebih dekat dengan waktu respons percakapan manusia.
Kecerdasan dan kepatuhan instruksi
Audio MultiChallenge mengukur kecerdasan dan kepatuhan instruksi dalam audio. TML-Interaction-Small mencetak 43,4%, di atas GPT-Realtime-1.5 (34,7%) dan Gemini-3.1-flash-live-preview (26,8%), tetapi di bawah GPT-Realtime-2.0 pada xhigh (48,5%). Di sinilah trade-off kecerdasan-interaktivitas terlihat.
Kesenjangan antara TML-Interaction-Small dan GPT-Realtime-2.0 pada xhigh adalah 5,1 poin persentase. Itu signifikan, tetapi tidak besar, dan disertai biaya latensi signifikan di sisi GPT-Realtime-2.0 (1,63 detik versus 0,40 detik). Apakah trade-off itu sepadan bergantung pada aplikasinya.
Kualitas respons dan penggunaan alat
FD-bench v3 mengukur kualitas respons dan akurasi pemanggilan alat dalam skenario audio-plus-tools. TML-Interaction-Small mencetak kualitas respons 82,8% dan 68,0% pass@1 dengan agen latar belakang diaktifkan, dibandingkan 80,0% / 52,0% untuk GPT-Realtime-2.0 pada pengaturan minimal dan 81,0% / 58,0% pada xhigh.
Kesenjangan pass@1 (68,0% versus 58,0%) adalah angka paling bermakna di sini, karena mengukur apakah model benar-benar menyelesaikan tugas yang bergantung pada alat dengan benar. Tampaknya arsitektur ganda yang memisahkan pemanggilan alat dari interaksi pengguna membuahkan hasil.
Benchmark interaktivitas baru: TimeSpeak, CueSpeak, dan proaktivitas visual
Thinking Machines membuat dua benchmark internal dan mengadaptasi tiga benchmark yang kurang banyak digunakan untuk mengukur kemampuan interaktivitas secara langsung. Ini layak ditelaah cermat karena tidak ada model pesaing yang tampil bermakna pada salah satunya.
- TimeSpeak (inisiasi ucapan berwaktu): TML-Interaction-Small mencetak 64,7% akurasi makro.
- CueSpeak (ucapan terpicu isyarat verbal): TML-Interaction-Small mencetak 81,7% akurasi makro.
- RepCount-A (penghitungan aksi visual): TML-Interaction-Small mencetak 33,4% akurasi selisih-satu.
- ProactiveVideoQA (ucapan terpicu isyarat visual): TML-Interaction-Small mencetak 31,5 PAUC (baseline tanpa respons = 25,0%).
- Pelokalan temporal Charades (penentuan waktu aksi visual): TML-Interaction-Small mencetak 30,4 mIoU.
Pada sebagian besar benchmark baru ini, GPT realtime-2.0 benar-benar gagal, dengan hasil mendekati nol, atau bahkan nol (pada benchmark Charades, yang mengharuskan model mengatakan "mulai" dan "berhenti" pada momen yang tepat selama video).
Sulit bagi saya untuk mengatakan seberapa bermakna hasil ini, karena benchmark tersebut baru dan belum divalidasi secara independen, tetapi hasilnya selaras dengan gambaran umum perbedaan arsitektur dan hasil benchmark yang sebanding.
Harga dan ketersediaan TML-Interaction-Small
TML-Interaction-Small saat ini berada dalam pratinjau riset terbatas, dan belum ada detail harga yang diumumkan. Thinking Machines berencana membuka akses lebih luas pada akhir 2026. Peneliti dan pengembang yang berminat dapat menghubungi tim di interaction@thinkingmachines.ai untuk meminta akses.
Sebagai perbandingan, GPT-Realtime-2 dihargai $32 per satu juta token input audio dan $64 per satu juta token output audio, seperti yang kami bahas dalam ikhtisar GPT-Realtime-2. Harga TML-Interaction-Small kemungkinan akan diumumkan bersamaan dengan rilis yang lebih luas.
Seperti yang mungkin Anda perhatikan, model ini memiliki akhiran "-Small", dan Anda benar untuk memperkirakan Thinking Machines akan menindaklanjutinya dengan model yang lebih besar. Model tersebut masih terlalu lambat untuk dilayani, tetapi rilis direncanakan pada akhir 2026.
TML-Interaction-Small vs. GPT-Realtime-2
Kesenjangan yang lebih menarik antara kedua model ada pada benchmark interaktivitas. Pada FD-bench v1.5, yang mengukur perilaku pada interupsi pengguna, backchanneling, berbicara kepada orang lain, dan ucapan latar belakang, TML-Interaction-Small mencetak 77,8. GPT-Realtime-2.0 pada pengaturan minimal mencetak 46,8, dan pada pengaturan penalaran tertingginya (xhigh) mencetak 47,8. Itu adalah kesenjangan 30 poin pada benchmark yang paling langsung mengukur apa yang dioptimalkan oleh Thinking Machines.
Ada trade-off kecerdasan, namun kesenjangannya jauh lebih kecil dibanding interaktivitas. GPT-Realtime-2.0 pada xhigh mencetak 48,5% pada Audio MultiChallenge versus 43,4% untuk TML-Interaction-Small. Pada BigBench Audio, GPT-Realtime-2.0 pada high mencetak 96,6% versus 75,7% untuk TML-Interaction-Small (meskipun TML-Interaction-Small mencapai 96,5% dengan agen latar belakang diaktifkan).
Gambaran umum yang muncul adalah TML-Interaction-Small unggul dalam responsivitas dan interaktivitas, sementara GPT-Realtime-2.0 pada pengaturan penalaran tinggi unggul dalam benchmark kecerdasan mentah.
| Benchmark | TML-Interaction-Small | GPT-Realtime-2.0 (minimal) | GPT-Realtime-2.0 (xhigh) | Gemini-3.1-flash-live (minimal) |
|---|---|---|---|---|
| FD-bench v1 latensi pergiliran (d) | 0.40 | 1.18 | 1.63 | 0.57 |
| FD-bench v1.5 rata-rata | 77.8 | 46.8 | 47.8 | 54.3 |
| FD-bench v3 kualitas respons (%) | 82.8* | 80.0 | 81.0 | 68.5 |
| Audio MultiChallenge APR (%) | 43.4 | 37.6 | 48.5 | 26.8 |
| Akurasi BigBench Audio (%) | 75.7 / 96.5* | 71.8 | 96.6 | 71.3 |
| IFEval (VoiceBench) akurasi (%) | 82.1 | 81.7 | 83.2 | 67.6 |
| IFEval teks akurasi (%) | 89.7 | 89.6 | 95.2 | 85.8 |
* Dengan agen latar belakang diaktifkan.
Untuk melihat keluarga model audio OpenAI beraksi, lihat tutorial API GPT-Realtime-2 kami.
Pikiran penutup
TML-Interaction-Small terlihat menjanjikan. Jika memenuhi klaim dalam catatan rilis, model baru ini menghadirkan interaktivitas yang meningkat signifikan dengan latensi pendek, tanpa mengorbankan kualitas respons atau kemampuan penalaran. Kemampuan untuk secara simultan berbicara, mendengarkan, dan merespons isyarat visual sejauh ini unik dan menawarkan banyak kemungkinan. Saya penasaran melihat seperti apa penetapan harganya saat model dirilis ke publik.
Kesenjangan kecerdasan terhadap GPT-Realtime-2 memang ada tetapi lebih sempit daripada kesenjangan interaktivitas. Untuk aplikasi di mana percakapan perlu terasa natural, perbedaan latensi itu lebih penting daripada kesenjangan kecerdasan. Untuk aplikasi di mana akurasi pada tugas penalaran sulit menjadi prioritas, GPT-Realtime-2.0 pada pengaturan penalaran tinggi masih unggul.
Jika Anda ingin memahami lanskap model AI yang lebih luas dan cara bekerja dengannya secara efektif, saya merekomendasikan memulai dengan jalur keterampilan AI Fundamentals kami.
FAQ TML-Interaction-Small
Apa itu model interaksi?
Model interaksi adalah sistem AI suara di mana interaktivitas dibangun ke dalam model itu sendiri, bukan ditambahkan melalui komponen eksternal seperti deteksi aktivitas suara dan manajemen dialog. Model ini memproses masukan dan keluaran secara simultan, sehingga dapat mendengarkan dan berbicara pada saat yang sama alih-alih menunggu giliran.
Siapa yang berada di belakang Thinking Machines Lab?
Thinking Machines Lab dipimpin oleh Mira Murati, mantan CTO OpenAI. TML-Interaction-Small adalah rilis model publik pertama lab tersebut, yang digambarkan sebagai pratinjau riset dari arsitektur model interaksi mereka.
Bagaimana TML-Interaction-Small dibandingkan dengan GPT-Realtime-2 milik OpenAI?
TML-Interaction-Small unggul pada interaktivitas, mencetak 77,8 pada FD-bench v1.5 versus 47,8 untuk GPT-Realtime-2 pada pengaturan tertinggi, dengan latensi pergiliran lebih cepat 0,40 detik versus 1,63 detik. GPT-Realtime-2 unggul pada benchmark kecerdasan mentah seperti Audio MultiChallenge (48,5% vs. 43,4%)
Apakah TML-Interaction-Small dapat memproses video?
Ya. Model ini memproses video bersamaan dengan audio dan dapat bereaksi terhadap peristiwa visual tanpa pemicu verbal dari pengguna, misalnya menghitung repetisi olahraga di kamera atau menyebutkan objek saat objek tersebut muncul. Proaktivitas visual ini tidak ada pada GPT-Realtime-2 atau Gemini Live.
Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.

