Ana içeriğe atla

Etkileşim Modelleri: TML-Interaction-Small’ın Doğru Yaptıkları

Mira Murati’nin Thinking Machines Lab’i aynı anda dinleyen ve konuşan bir model geliştirdi. Özelliklerini inceliyor ve GPT-Realtime-2 ile karşılaştırıyoruz.
Güncel 13 May 2026  · 10 dk. oku

Geçen hafta, OpenAI’nin GPT-Realtime-2’si GPT-5 sınıfı akıl yürütme ve 128K bağlam penceresiyle piyasaya sürülerek sesli yapay zekâ için çıtayı yükseltti. Şimdi ise Mira Murati’nin Thinking Machines Lab’i farklı bir argüman ortaya koyuyor: tepkisellik ve zekânın baştan itibaren aynı modele eğitilmesi gerektiği, ses etkinliği algılama koşumları ve diyalog yönetimi bileşenleriyle sonradan birbirine eklenmemesi gerektiği.

Laboratuvar bu yeni model türünü “Etkileşim Modeli” olarak adlandırıyor.

Araştırma ön izlemesi olan TML-Interaction-Small, bu yaklaşımın ilk sonucudur. 12B etkin parametreli 276B parametreli bir Uzman Karışımı (Mixture-of-Experts) modelidir. Sesi, videoyu ve metni 200 ms’lik kesintisiz mikro turlarda işler; bu da, konuşmacının sözünü bitirmesini beklemek yerine aynı anda algılayıp yanıt verdiği anlamına gelir. 

Bu yazıda, TML-Interaction-Small’ın ne olduğunu ele alacak, temel mimari özelliklerini adım adım inceleyecek, GPT-Realtime-2 ile doğrudan karşılaştıracak ve kıyaslama sonuçlarını ayrıntılı olarak inceleyeceğim.

Etkileşim Modelleri Nedir?

Thinking Machines Lab, etkileşim modelini, etkileşimin modelin bizzat kendisinin parçası olduğu, çevresel bir koşum içinde uygulanmadığı bir sistem olarak tanımlar. Temel ilke, tepkisellik ve zekânın, metin tabanlı bir modele sonradan eklenmek yerine, baştan itibaren sürekli ses ve video akışları üzerinde birlikte eğitilmesi gerektiğidir. 

Mevcut gerçek zamanlı sesli yapay zekâ sistemlerinin çoğu, tepkiselliği taklit etmek için ses etkinliği algılama bileşenlerini, ayrı kodlayıcıları ve diyalog yönetim katmanlarını bir araya getirir. Thinking Machines Lab, bu yaklaşımın, etkileşimi doğal olarak ele alan modellere kıyasla her zaman geride kalacağını; çünkü yapay tur sınırlarının etkileşimsel olmayan modelin yapabileceklerini kısıtladığını savunuyor.

Kullanıcı girdisini sırayla tüketip sonra tam bir yanıt üretmek yerine, laboratuvarın etkileşim modelleri insan algısına daha yakındır. Hem girdi hem çıktı belirteçlerini akış olarak ele alır ve her ikisi de 200 milisaniye uzunluğundaki mikro turların her birinde iç içe geçirilir.

Sıralı belirteç dizisi vs insan algısıBöylece bir etkileşim modeli, konuşmacının sözünü bitirmesini beklemek yerine girdiyi ve çıktıyı paralel olarak işleyerek aynı anda algılar ve yanıt verir. Bu da birkaç güzel yeteneği mümkün kılar:

  • Dinlerken konuşabilme
  • İstem olmadan görsel ipuçlarına tepki verebilme
  • Geçen zamanı doğrudan takip edebilme

Bunların tümü, dış koşumlarla çalışan, tura dayalı modellerin, akıl yürütme yetenekleri ne kadar gelişmiş olursa olsun kopyalayamayacağı özelliklerdir.

TML-Interaction-Small nedir?

TML-Interaction-Small, Thinking Machines Lab’in ilk halka açık model sürümü ve etkileşim modeli mimarilerinin ilk uygulamasıdır.

12B etkin parametreli 276B parametreli bir Uzman Karışımı modelidir; daha önce açıkladığım çok akışlı mikro tur tasarımı kullanılarak, girdinin ve çıktının 200 ms’lik parçalar halinde işlendiği sürekli ses ve video akışları üzerinde sıfırdan eğitilmiştir.

Paylaşılan bağlama sahip iki modelin kombinasyonu hem tepkisellik hem de zekâ sunar. Kullanıcılar, etkileşim modelinden gerçek zamanlı yanıtlar alırken, planlama, araç kullanımı ve daha derin akıl yürütme arka plandaki modele, eşzamanlı olmayan şekilde devredilir.

Ardından etkileşim modeli, arka plan sonuçlarını konuşmadan kopmadan, gelir gelmez diyaloğa entegre eder.

TML-Interaction-Small Özellikleri

Mevcut sesli yapay zekâ modelleri sırayla konuşur (siz konuşursunuz, onlar yanıtlar); TML-Interaction-Small ise bir insan sohbet ortağı gibi çalışır. Onu öne çıkaran dört yetenek şunlardır.

Aynı anda konuşup dinleyin

TML-Interaction-Small, kullanıcı hâlâ konuşurken ses üretebilir. Bu, eşzamanlı çeviriyi mümkün kılar: Siz bir dilde konuşursunuz, model cümlenizi bitirmeden çeviriye başlar. Ayrıca model, bir hatayı yakaladığında cümlenin ortasında araya girebilir veya siz bir şeyi açıklarken ("anladım", "devam edin" gibi) sözlü ipuçları verebilir.

Bu, belirli bir tetikleyici olay gerçekleştiğinde özel gerçek zamanlı yanıtlar için de kullanışlıdır. Örneğin sürüm notlarındaki bir klipte, modelin EUR tutarlarını dönüştürüp kullanıcı bir ödemeden söz ettiğinde karşılık gelen USD tutarlarını söylediği gösteriliyor.

Sorulmadan videoyu görüp tepki verin

TML-Interaction-Small, sesiyle birlikte videoyu da işler ve herhangi bir sözlü istem olmadan, gördüklerine dayanarak konuşma başlatabilir.

Kamerada şınav çekiyorsanız, tekrarları olurken yüksek sesle sayabilir. Bir video akışında ilgili bir nesne belirdiğinde, görünür olduğunda anında ondan söz edebilir. Ancak bu özellik hâlâ geliştirilebilir; içsel RepCount-A skorundan da görüldüğü üzere, örneklerin yalnızca üçte birinde (%33,4) gerçek değerin bir tekrar yakınına ulaşılmış.

Sürüm kliplerinden biri (bana biraz tuhaf göründü) bunu eylemde gösteriyor: Kullanıcının duruşuna dikkat etmesi istendiğinde, model dizüstü bilgisayarda kambur duruşu anında tespit edip onu düzeltmesi için uyardı.

Mevcut ticari gerçek zamanlı API’ler yalnızca ses odaklıdır. Konuşulan turlara yanıt verirler ancak görsel değişikliklere proaktif tepki verme yolları yoktur. Bu, bugün GPT-Realtime-2 veya Gemini Live’da bulunmayan bir yetenektir.

Kesintileri ve kendini düzeltmeleri doğal şekilde yönetin

Bir cümleye başlayıp fikrinizi değiştirir ve düşüncenin ortasında kendinizi düzeltirseniz, TML-Interaction-Small düzeltmeyi takip eder ve aslında ne demek istediğinize yanıt verir. Geri kanal davranışlarını (model konuşurken sizin “hı hı”, “doğru” demeniz gibi) yönetir ve biri kendisiyle mi yoksa odadaki başka biriyle mi konuşuyor, bunu ayırt eder.

Bunlar, tura dayalı modellerin sıklıkla bozulduğu senaryolardır. Ya gereksiz yere konuşmayı keserler ya da söylenenin yanlış kısmına yanıt verirler. TML-Interaction-Small’ın bunu gündelik durumlarda, seçilmiş demo videolarındaki kadar iyi yönetip yönetemeyeceğini görmek ilginç olacak.

Hazır ve nazır kalırken arka planda karmaşık görevler çalıştırın

Arka plan modeli, etkileşim modelini yalnızca hızlı değil, aynı zamanda zeki kılan unsurdur. Siz arka plan görevi çalışırken takip soruları sormaya veya konuyu değiştirmeye devam edebilirsiniz. Sonuçlar hazır olduğunda, model onları sizi ani bir bağlam değişimiyle bölmeden, doğal bir anda sohbete geri dokur.

Bu, hem hızlı sohbet yanıtları hem de normalde modelin birkaç saniyeliğine sessiz kalmasını gerektirecek çok adımlı görevleri yönetme becerisi elde ettiğiniz anlamına gelir. Bir bilgi yarışması demo klibinde bu oldukça iyi çalışıyor: Üç kullanıcı yüksek tempoyla bilgi soruları soruyor ve model büyük ölçüde hızlarına yetişebiliyor.

TML-Interaction-Small kıyaslamaları

Thinking Machines sonuçları iki kategoride bildiriyor: etkileşimi ölçen akış (streaming) kıyasları ve zekâyı ölçen tura dayalı kıyaslar. Modelin en güçlü sonuçları, mimari tercihlerin en doğrudan test edildiği akış tarafında.

Etkileşim

FD-bench v1.5, modele önceden kaydedilmiş ses verir ve davranışını dört senaryoda ölçer:

  • Kullanıcı kesintisi
  • Kullanıcı geri kanalı
  • Başkalarıyla konuşma
  • Arka plan konuşması

TML-Interaction-Small 77,8 puan alıyor; minimal ayarlarda Gemini-3.1-flash-live-preview 54,3 ve minimal ayarlarda GPT-Realtime-2.0 46,8 alıyor. GPT-Realtime-2.0, en yüksek akıl yürütme ayarında (xhigh) bile yalnızca 47,8 puana ulaşıyor.

Bu, Thinking Machines’in ulaşmaya çalıştığı şeyi en doğrudan ölçen kıyas. En yakın rakibe karşı 30 puanlık fark, marjinal bir fark değildir. Sorun, FD-bench v1.5’in pratikte önemli olan etkileşimin tüm yelpazesini yakalayıp yakalamadığıdır; Thinking Machines de bunun açık bir araştırma sorusu olduğunu kabul ediyor.

Tur alma gecikmesi

TML-Interaction-Small, FD-bench v1’de 0,40 saniyelik tur alma gecikmesine ulaşıyor ve karşılaştırılan tüm modeller içinde en hızlısı. Gemini-3.1-flash-live-preview 0,57 saniye ile en çok yaklaşıyor. GPT-Realtime-2.0 minimal ayarlarda bile yaklaşık üç kat daha uzun sürüyor (1,18 saniye); xhigh akıl yürütmede ise 1,63 saniyeye çıkıyor.

Gecikme, metne kıyasla sesli etkileşimde çok daha kritik önemdedir. Kullanıcı konuşmayı bitirdikten modelin yanıt vermeye başlamasına kadar geçen 1,2 saniyelik fark yalnızca fark edilir olmakla kalmaz, aynı zamanda rahatsız edicidir. 0,40 saniyelik sonuç, TML-Interaction-Small’ı insan konuşma yanıt sürelerine daha da yaklaştırır.

Zekâ ve yönerge takibi

Audio MultiChallenge, seste zekâyı ve yönerge takibini ölçer. TML-Interaction-Small %43,4 puan alır; bu, GPT-Realtime-1.5’in (%34,7) ve Gemini-3.1-flash-live-preview’in (%26,8) üzerindedir, ancak GPT-Realtime-2.0 xhigh’ın (%48,5) altındadır. Zekâ–etkileşim takasının görüldüğü kıyas budur.

TML-Interaction-Small ile GPT-Realtime-2.0 xhigh arasındaki fark 5,1 yüzde puanıdır. Bu kayda değer, ancak büyük olmayan bir farktır ve GPT-Realtime-2.0 tarafında önemli bir gecikme maliyetiyle gelir (1,63 saniye karşısında 0,40 saniye). Bu takasın değerli olup olmadığı uygulamaya bağlıdır.

Yanıt kalitesi ve araç kullanımı

FD-bench v3, ses+araç senaryolarında yanıt kalitesi ve araç çağrısı doğruluğunu ölçer. Arka plan ajanı etkinleştirildiğinde TML-Interaction-Small %82,8 yanıt kalitesi ve %68,0 pass@1 alır; GPT-Realtime-2.0 minimal ayarlarda %80,0 / %52,0 ve xhigh’ta %81,0 / %58,0 alır.

Burada en anlamlı sayı pass@1 farkıdır (%68,0’a karşı %58,0); çünkü modelin araçlara bağlı görevleri gerçekten doğru tamamlayıp tamamlamadığını ölçer. Araç çağrılarını kullanıcı etkileşimlerinden ayıran çift mimarinin karşılığını verdiği görülüyor.

Yeni etkileşim kıyasları: TimeSpeak, CueSpeak ve görsel proaktivite

Thinking Machines, etkileşim yeteneklerini doğrudan ölçmek için iki dahili kıyas oluşturdu ve daha az yaygın üç kıyası uyarladı. Hiçbir rakip modelin anlamlı performans göstermediği bu kıyaslar dikkatle incelenmeye değer.

  • TimeSpeak (zamanlanmış konuşma başlatma): TML-Interaction-Small %64,7 makro-doğruluk.
  • CueSpeak (sözlü ipucu tetiklemeli konuşma): TML-Interaction-Small %81,7 makro-doğruluk.
  • RepCount-A (görsel eylem sayma): TML-Interaction-Small %33,4 bir-farkla-doğruluk.
  • ProactiveVideoQA (görsel ipucu tetiklemeli konuşma): TML-Interaction-Small 31,5 PAUC (yanıt yok tabanı = %25,0).
  • Charades zamansal yerelleştirme (görsel eylem zamanlaması): TML-Interaction-Small 30,4 mIoU.

Bu yeni kıyasların çoğunda, GPT realtime-2.0 tamamen başarısız oluyor; sonuç sıfıra yakın, hatta sıfır (videoda doğru anlarda “başla” ve “dur” demeyi gerektiren Charades kıyasında).

Bu sonuçların ne kadar anlamlı olduğunu söylemek benim için zor; zira bu kıyaslar yeni ve henüz bağımsız olarak doğrulanmış değil. Ancak mimari farkların ve karşılaştırılabilir kıyas sonuçlarının genel resmini takip ediyorlar.

TML-Interaction-Small fiyatlandırma ve erişilebilirlik

TML-Interaction-Small şu anda sınırlı bir araştırma ön izlemesinde ve fiyatlandırma detayları açıklanmadı. Thinking Machines, 2026’nın ilerleyen dönemlerinde daha geniş erişim açmayı planlıyor. İlgilenen araştırmacılar ve geliştiriciler erişim talebi için interaction@thinkingmachines.ai adresinden ekiple iletişime geçebilir.

Kıyas olması için, GPT-Realtime-2’nin fiyatı, milyon başına ses girdi belirteci için 32$, ses çıktı belirteci için 64$ olarak belirlenmiştir; bunu GPT-Realtime-2 genel bakış yazımızda ele almıştık. TML-Interaction-Small’ın fiyatlandırması muhtemelen daha geniş sürümle birlikte açıklanacaktır.

Muhtemelen fark ettiğiniz gibi, modelin soneki “-Small” ve Thinking Machines’in daha büyük modellerle devam etmesini beklemekte haklısınız. Şimdilik sunum için hâlâ fazla yavaşlar, ancak 2026’nın sonları için bir sürüm planlanıyor.

TML-Interaction-Small ve GPT-Realtime-2

İki model arasındaki daha ilgi çekici fark, etkileşim kıyaslarında. Kullanıcı kesintisi, geri kanal, başkalarıyla konuşma ve arka plan konuşmasını ölçen FD-bench v1.5’te TML-Interaction-Small 77,8 puan alıyor. GPT-Realtime-2.0 minimal ayarlarda 46,8 ve en yüksek akıl yürütme ayarında (xhigh) 47,8 puan alıyor. Bu, Thinking Machines’in optimize ettiği şeyi en doğrudan ölçen kıyasta 30 puanlık bir farktır.

Bir zekâ takası var; ancak buradaki fark, etkileşime kıyasla çok daha küçük. GPT-Realtime-2.0 xhigh, Audio MultiChallenge’da %48,5 alırken TML-Interaction-Small %43,4 alıyor. BigBench Audio’da GPT-Realtime-2.0 high %96,6’ya karşı TML-Interaction-Small %75,7 (ancak TML-Interaction-Small, arka plan ajanı etkinleştirildiğinde %96,5’e ulaşıyor).

Ortaya çıkan genel tablo, TML-Interaction-Small’ın tepkisellik ve etkileşimde önde olduğu, GPT-Realtime-2.0’ın ise yüksek akıl yürütme ayarlarında ham zekâ kıyaslarında lider olduğudur.

Kıyas TML-Interaction-Small GPT-Realtime-2.0 (minimal) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (minimal)
FD-bench v1 tur alma gecikmesi (sn) 0.40 1.18 1.63 0.57
FD-bench v1.5 ortalama 77.8 46.8 47.8 54.3
FD-bench v3 yanıt kalitesi (%) 82.8* 80.0 81.0 68.5
Audio MultiChallenge APR (%) 43.4 37.6 48.5 26.8
BigBench Audio doğruluk (%) 75.7 / 96.5* 71.8 96.6 71.3
IFEval (VoiceBench) doğruluk (%) 82.1 81.7 83.2 67.6
IFEval metin doğruluğu (%) 89.7 89.6 95.2 85.8

* Arka plan ajanı etkin.

OpenAI’nin ses modeli ailesini eylemde görmek için GPT-Realtime-2 API eğitimimize göz atın.

Son düşünceler

TML-Interaction-Small umut verici görünüyor. Sürüm notlarındaki iddiaları karşılıyorsa, yeni model, yanıt kalitesinden veya akıl yürütme gücünden ödün vermeden kısa gecikmeyle belirgin şekilde geliştirilmiş etkileşim sunuyor. Aynı anda konuşma, dinleme ve görsel ipuçlarına tepki verme yeteneği şu ana kadar benzersiz ve birçok olanağın kapısını açıyor. Model herkese açık olarak yayımlandığında fiyatlandırmanın nasıl olacağını merak ediyorum.

GPT-Realtime-2 ile zekâ farkı gerçek; ancak etkileşim farkına kıyasla daha dardır. Sohbetin doğal hissettirmesi gereken uygulamalarda, bu gecikme farkı, zekâ farkından daha çok önem taşır. Zor akıl yürütme görevlerinde doğruluğun öncelik olduğu uygulamalarda ise GPT-Realtime-2.0, yüksek akıl yürütme ayarlarında hâlâ öndedir.

Daha geniş yapay zekâ model yelpazesine hızla hâkim olmak ve onlarla etkili çalışmak istiyorsanız, AI Fundamentals beceri yolumuz ile başlamanızı öneririm.

TML-Interaction-Small SSS

Etkileşim modeli nedir?

Etkileşim modeli, etkileşimin ses etkinliği algılama ve diyalog yönetimi gibi harici bileşenlerle eklenmesi yerine bizzat modelin içine yerleştirildiği bir sesli yapay zekâ sistemidir. Girdi ve çıktıyı eşzamanlı olarak işler; yani turları beklemek yerine aynı anda dinleyip konuşabilir.

Thinking Machines Lab’in arkasında kim var?

Thinking Machines Lab’in başında, daha önce OpenAI’nin CTO’su olan Mira Murati bulunuyor. TML-Interaction-Small, laboratuvarın etkileşim modeli mimarisinin araştırma ön izlemesi olarak tanımlanan ilk halka açık model sürümüdür.

TML-Interaction-Small, OpenAI’nin GPT-Realtime-2’siyle nasıl karşılaştırılır?

TML-Interaction-Small etkileşimde önde; FD-bench v1.5’te 77,8 puan alırken, GPT-Realtime-2 en yüksek ayarında 47,8 puan alıyor; tur alma gecikmesi de 0,40 saniye ile 1,63 saniyeden daha hızlı. GPT-Realtime-2 ise Audio MultiChallenge gibi ham zekâ kıyaslarında önde (%48,5’e karşı %43,4).

TML-Interaction-Small video işleyebilir mi?

Evet. Sesi videoyla birlikte işler ve kullanıcıdan hiçbir sözlü istem olmadan görsel olaylara tepki verebilir; örneğin kamerada egzersiz tekrarlarını saymak veya nesneler görünür görünmez onlardan söz etmek gibi. Bu tür görsel proaktivite GPT-Realtime-2 veya Gemini Live’da mevcut değildir.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom bir veri bilimci ve teknik eğitmendir. DataCamp'in veri bilimi eğitim içerikleri ve blog yazılarını yazar ve yönetir. Daha önce Tom, Deutsche Telekom'da veri bilimi alanında çalıştı.

Konular

DataCamp ile Yapay Zekâyı Öğrenin!

Program

AI Temelleri

10 sa
Yapay zekanın temellerini keşfedin, yapay zekayı işinizde etkili bir şekilde kullanmayı öğrenin ve dinamik yapay zeka dünyasında yolunuzu bulmak için ChatGPT gibi modellere dalın.
Ayrıntıları GörRight Arrow
Kursa Başla
Devamını GörRight Arrow
İlgili

blog

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Ön uç, arka uç, veritabanları, kimlik doğrulama, depolama, e-posta, test, dağıtım ve izleme için en iyi araçları keşfedin.
Abid Ali Awan's photo

Abid Ali Awan

14 dk.

blog

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Algoritmalar, sistem tasarımı ve davranışsal senaryoları kapsayan bu temel sorularla teknik mülakat sürecine hakim olun. Uzman cevapları, kod örnekleri ve kanıtlanmış hazırlık stratejileri edinin.
Dario Radečić's photo

Dario Radečić

15 dk.

Eğitim

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

Bu hızlı eğitimde, Python'da bir listeyi string'e nasıl dönüştüreceğinizi öğrenin.
Adel Nehme's photo

Adel Nehme

Eğitim

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

Git deponuzu temiz tutmak için .gitignore’u nasıl kullanacağınızı öğrenin. Bu eğitim; temelleri, yaygın kullanım durumlarını ve başlamanıza yardımcı olacak pratik örnekleri kapsar!
Kurtis Pykes 's photo

Kurtis Pykes

Devamını GörDevamını Gör