Pular para o conteúdo principal

Modelos de interação: o que o TML-Interaction-Small acerta

O Thinking Machines Lab, de Mira Murati, criou um modelo que ouve e fala ao mesmo tempo. Detalhamos os recursos e comparamos com o GPT-Realtime-2.
Atualizado 13 de mai. de 2026  · 10 min lido

Na semana passada, o GPT-Realtime-2 da OpenAI elevou o nível da IA de voz ao chegar com raciocínio no patamar do GPT-5 e janela de contexto de 128K. Agora, o Thinking Machines Lab, de Mira Murati, traz outro ponto de vista: que responsividade e inteligência devem ser treinadas no mesmo modelo desde o início — e não acopladas depois com detecção de atividade de voz e camadas de gerenciamento de diálogo.

O lab chama esse novo tipo de modelo de "modelo de interação".

O prévia de pesquisa deles, TML-Interaction-Small, é o primeiro resultado dessa abordagem. É um modelo Mixture-of-Experts com 276B parâmetros e 12B parâmetros ativos. Ele processa áudio, vídeo e texto em microturnos contínuos de 200 ms — ou seja, percebe e responde ao mesmo tempo, sem esperar o interlocutor terminar. 

Neste artigo, explico o que é o TML-Interaction-Small, apresento seus principais recursos de arquitetura, comparo diretamente com o GPT-Realtime-2 e analiso os resultados de benchmarks em detalhes.

O que são modelos de interação?

O Thinking Machines Lab descreve um modelo de interação como um sistema em que a interatividade faz parte do próprio modelo, e não é implementada por um aparato externo. O princípio central é que responsividade e inteligência devem ser treinadas juntas, desde o zero, em fluxos contínuos de áudio e vídeo — em vez de serem adaptadas depois em um modelo baseado em texto.

A maioria dos sistemas atuais de voz em tempo real costura componentes de detecção de atividade de voz, codificadores separados e camadas de gerenciamento de diálogo para simular responsividade. O Thinking Machines Lab argumenta que essa abordagem sempre ficará atrás de modelos que lidam com interação de forma nativa, por conta de limites artificiais de turno que restringem o que um modelo não interativo consegue fazer.

Em vez de consumir a entrada do usuário de forma sequencial para só então gerar uma resposta completa, os modelos de interação do lab foram projetados para se aproximar mais da percepção humana. Eles tratam tokens de entrada e de saída como fluxos, intercalados a cada microturno de 200 milissegundos.

Sequência de tokens sequencial vs. percepção humanaAssim, um modelo de interação percebe e responde ao mesmo tempo, processando entrada e saída em paralelo, sem esperar o falante terminar. Isso habilita algumas habilidades interessantes:

  • Falar enquanto escuta
  • Reagir a sinais visuais sem ser solicitado
  • Acompanhar o tempo decorrido diretamente

Tudo isso é impossível de replicar em modelos por turnos com aparatos externos, por mais capacidade de raciocínio que tenham.

O que é o TML-Interaction-Small?

O TML-Interaction-Small é o primeiro modelo público do Thinking Machines Lab e a primeira implementação de sua arquitetura de modelo de interação.

É um modelo Mixture-of-Experts com 276B parâmetros e 12B ativos, treinado do zero em fluxos contínuos de áudio e vídeo usando o design multi-stream de microturnos mencionado acima, em que entrada e saída são processadas em blocos de 200 ms.

A combinação de dois modelos com um contexto compartilhado oferece responsividade e inteligência. Os usuários recebem respostas do modelo de interação em tempo real, enquanto planejamento, uso de ferramentas e raciocínio mais profundo são delegados ao modelo de segundo plano, que roda de forma assíncrona.

O modelo de interação então integra os resultados de segundo plano na conversa assim que chegam, sem sair do fluxo.

Recursos do TML-Interaction-Small

Enquanto os modelos de voz existentes funcionam por turnos (você fala, eles respondem), o TML-Interaction-Small se comporta mais como um parceiro de conversa humano. Veja quatro capacidades que o diferenciam.

Fale e ouça ao mesmo tempo

O TML-Interaction-Small consegue produzir fala enquanto você ainda está falando. Isso viabiliza tradução simultânea: você fala em um idioma e o modelo começa a traduzir antes de você terminar a frase. Também permite que o modelo interrompa no meio da sentença ao detectar um erro, ou dê sinais verbais ("entendi", "pode continuar") enquanto você explica algo.

Isso também é útil para respostas personalizadas em tempo real sempre que um evento específico ocorre. Um clipe nas notas de lançamento, por exemplo, mostra o modelo convertendo valores em EUR e informando os valores correspondentes em USD sempre que o usuário menciona um pagamento.

Veja e reaja a vídeo sem ser acionado

O TML-Interaction-Small processa vídeo junto com áudio e pode iniciar fala com base no que vê, sem nenhum comando verbal.

Se você estiver fazendo flexões na câmera, ele pode contar as repetições em voz alta conforme acontecem. Se um objeto relevante aparecer no vídeo, ele pode apontá-lo no momento em que se torna visível. Contudo, esse recurso ainda pode melhorar, como mostra a pontuação interna RepCount-A, na qual apenas um terço (33,4%) dos casos ficou a uma repetição do valor real.

Um clipe de lançamento (um tanto curioso, na minha opinião) demonstra isso: ao ser instruído a observar a postura da usuária, o modelo detectou na hora que ela estava curvada no laptop e a lembrou de corrigir.

APIs comerciais de tempo real existentes são apenas de áudio. Respondem a turnos falados, mas não conseguem reagir proativamente a mudanças visuais. Isso simplesmente não existe hoje no GPT-Realtime-2 ou no Gemini Live.

Lide com interrupções e autocorreções de forma natural

Se você começa uma frase, muda de ideia e se corrige no meio, o TML-Interaction-Small acompanha a correção e responde ao que você de fato quis dizer. Ele lida com backchanneling (você dizendo "aham" ou "isso" enquanto ele fala) e diferencia quando alguém está falando com ele ou com outra pessoa no ambiente.

Esses são cenários em que modelos por turnos costumam falhar. Ou eles param de falar quando não deveriam, ou respondem à parte errada do que foi dito. Vai ser interessante ver se o TML-Interaction-Small mantém o desempenho em situações do dia a dia, além dos vídeos demonstrativos.

Execute tarefas complexas em segundo plano sem sair da conversa

O modelo de segundo plano é o que torna o modelo de interação não só rápido, mas também inteligente. Você pode continuar fazendo perguntas de acompanhamento ou mudar de assunto enquanto a tarefa de segundo plano roda. Quando os resultados ficam prontos, o modelo os encaixa de volta na conversa em um momento natural, sem uma troca brusca de contexto.

Isso significa obter respostas rápidas na conversa e, ao mesmo tempo, lidar com tarefas em múltiplas etapas que normalmente exigiriam que o modelo ficasse em silêncio por vários segundos. Em um clipe de quiz, isso funciona bem: três usuários fazem perguntas de trivia em ritmo acelerado, e o modelo consegue acompanhar na maior parte do tempo.

Benchmarks do TML-Interaction-Small

O Thinking Machines apresenta resultados em duas categorias: benchmarks de streaming, que medem interatividade, e benchmarks por turnos, que medem inteligência. Os melhores resultados do modelo estão no lado de streaming, onde suas escolhas arquiteturais são testadas mais diretamente.

Interatividade

O FD-bench v1.5 fornece ao modelo áudios pré-gravados e mede seu comportamento em quatro cenários:

  • Interrupção do usuário
  • Backchannel do usuário
  • Alguém falando com outras pessoas
  • Fala de fundo

O TML-Interaction-Small marca 77,8, contra 54,3 do Gemini-3.1-flash-live-preview nas configurações mínimas e 46,8 do GPT-Realtime-2.0 nas configurações mínimas. Mesmo no ajuste máximo de raciocínio (xhigh), o GPT-Realtime-2.0 chega apenas a 47,8.

Este é o benchmark que mede mais diretamente o objetivo do Thinking Machines. Uma diferença de 30 pontos em relação ao concorrente mais próximo não é marginal. A questão é se o FD-bench v1.5 captura todo o espectro de interatividade que importa na prática — o que o próprio Thinking Machines reconhece ser uma questão em aberto.

Latência de tomada de turno

O TML-Interaction-Small atinge latência de 0,40 segundo no FD-bench v1, a mais rápida entre os modelos comparados. O Gemini-3.1-flash-live-preview chega mais perto, com 0,57 segundo. Mesmo nas configurações mínimas, o GPT-Realtime-2.0 leva cerca de três vezes mais (1,18 s); no modo xhigh, chega a 1,63 s.

Latência pesa muito mais na voz do que no texto. Um atraso de 1,2 segundo entre o fim da fala do usuário e o início da resposta do modelo é não só perceptível, mas também incômodo. O resultado de 0,40 s coloca o TML-Interaction-Small mais próximo dos tempos de resposta de uma conversa humana.

Inteligência e obediência a instruções

O Audio MultiChallenge mede inteligência e obediência a instruções em áudio. O TML-Interaction-Small marca 43,4%, acima do GPT-Realtime-1.5 (34,7%) e do Gemini-3.1-flash-live-preview (26,8%), mas abaixo do GPT-Realtime-2.0 em xhigh (48,5%). É aqui que aparece a troca entre inteligência e interatividade.

A diferença entre o TML-Interaction-Small e o GPT-Realtime-2.0 em xhigh é de 5,1 pontos percentuais. É significativa, mas não enorme — e vem com um custo grande de latência do lado do GPT-Realtime-2.0 (1,63 s contra 0,40 s). Se vale a pena, depende da aplicação.

Qualidade de resposta e uso de ferramentas

O FD-bench v3 mede qualidade de resposta e precisão de chamadas de ferramenta em cenários de áudio + ferramentas. O TML-Interaction-Small marca 82,8% em qualidade de resposta e 68,0% em pass@1 com o agente de segundo plano ativado, contra 80,0% / 52,0% do GPT-Realtime-2.0 nas configurações mínimas e 81,0% / 58,0% em xhigh.

A diferença em pass@1 (68,0% vs. 58,0%) é o número mais relevante aqui, pois mede se o modelo conclui corretamente tarefas que dependem de ferramentas. Parece que a arquitetura dupla, que separa as chamadas de ferramenta da interação com o usuário, compensa.

Novos benchmarks de interatividade: TimeSpeak, CueSpeak e proatividade visual

O Thinking Machines criou dois benchmarks internos e adaptou outros três menos difundidos para medir diretamente capacidades de interatividade. Vale olhar com atenção, porque nenhum modelo concorrente tem desempenho significativo neles.

  • TimeSpeak (início de fala cronometrado): o TML-Interaction-Small marca 64,7% de macro-accuracy.
  • CueSpeak (fala acionada por pistas verbais): o TML-Interaction-Small marca 81,7% de macro-accuracy.
  • RepCount-A (contagem visual de ações): o TML-Interaction-Small marca 33,4% de acerto off-by-one.
  • ProactiveVideoQA (fala acionada por pistas visuais): o TML-Interaction-Small marca 31,5 de PAUC (baseline sem resposta = 25,0%).
  • Charades temporal localization (temporalização de ações visuais): o TML-Interaction-Small marca 30,4 de mIoU.

Nesses novos benchmarks, o GPT-Realtime-2.0 basicamente falha, com resultados próximos de zero — e até zero no Charades, que exige dizer "início" e "fim" nos momentos certos durante um vídeo.

É difícil dizer o quanto esses resultados são significativos, já que os benchmarks são novos e ainda não foram validados de forma independente, mas eles reforçam o quadro geral: diferenças de arquitetura refletem nos resultados.

Preço e disponibilidade do TML-Interaction-Small

O TML-Interaction-Small está em prévia de pesquisa limitada, sem detalhes de preço anunciados. O Thinking Machines planeja ampliar o acesso mais para frente em 2026. Pesquisadores e desenvolvedores interessados podem contatar o time em interaction@thinkingmachines.ai para solicitar acesso.

Para comparar, o GPT-Realtime-2 custa US$ 32 por milhão de tokens de entrada em áudio e US$ 64 por milhão de tokens de saída em áudio, como cobrimos em nosso overview do GPT-Realtime-2. Os preços do TML-Interaction-Small provavelmente serão anunciados junto com o lançamento mais amplo.

Como você deve ter notado, o modelo tem o sufixo "-Small" — e sim, é de se esperar que o Thinking Machines lance versões maiores. Elas ainda são lentas demais para produção, mas um lançamento está previsto para o fim de 2026.

TML-Interaction-Small vs. GPT-Realtime-2

A diferença mais interessante entre os dois modelos está nos benchmarks de interatividade. No FD-bench v1.5, que mede comportamento em interrupção do usuário, backchanneling, fala com outras pessoas e ruído de fundo, o TML-Interaction-Small marca 77,8. O GPT-Realtime-2.0 nas configurações mínimas marca 46,8, e no ajuste máximo de raciocínio (xhigh), 47,8. São 30 pontos a mais no benchmark que mais diretamente mede o foco do Thinking Machines.

Existe uma troca em inteligência, mas a diferença aqui é bem menor do que em interatividade. O GPT-Realtime-2.0 em xhigh marca 48,5% no Audio MultiChallenge contra 43,4% do TML-Interaction-Small. No BigBench Audio, o GPT-Realtime-2.0 em high marca 96,6% contra 75,7% do TML-Interaction-Small (embora o TML-Interaction-Small chegue a 96,5% com o agente de segundo plano ativado).

O panorama geral é: o TML-Interaction-Small lidera em responsividade e interatividade, enquanto o GPT-Realtime-2.0 em ajustes altos de raciocínio lidera nos benchmarks de inteligência bruta.

Benchmark TML-Interaction-Small GPT-Realtime-2.0 (mínimo) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (mínimo)
FD-bench v1 latência de tomada de turno (s) 0.40 1.18 1.63 0.57
FD-bench v1.5 média 77.8 46.8 47.8 54.3
FD-bench v3 qualidade de resposta (%) 82.8* 80.0 81.0 68.5
Audio MultiChallenge APR (%) 43.4 37.6 48.5 26.8
BigBench Audio acurácia (%) 75.7 / 96.5* 71.8 96.6 71.3
IFEval (VoiceBench) acurácia (%) 82.1 81.7 83.2 67.6
IFEval texto acurácia (%) 89.7 89.6 95.2 85.8

* Com o agente de segundo plano ativado.

Para ver a família de modelos de áudio da OpenAI em ação, confira nosso tutorial da API do GPT-Realtime-2.

Considerações finais

O TML-Interaction-Small parece promissor. Se cumprir o que as notas de lançamento afirmam, o novo modelo traz interatividade bem melhor com baixa latência, sem abrir mão de qualidade de resposta ou poder de raciocínio. A capacidade de falar, ouvir e reagir a sinais visuais ao mesmo tempo é única até agora e abre muitas possibilidades. Fico curioso para ver como será a precificação quando o modelo for lançado publicamente.

A diferença de inteligência em relação ao GPT-Realtime-2 existe, mas é menor do que a diferença em interatividade. Para apps em que a conversa precisa soar natural, a latência pesa mais do que essa lacuna de inteligência. Para cenários em que prioridade é acerto em tarefas de raciocínio difícil, o GPT-Realtime-2.0 com alto raciocínio ainda está na frente.

Se você quer se atualizar sobre o panorama mais amplo de modelos de IA e como trabalhar com eles de forma eficaz, recomendo começar pela nossa trilha de habilidades AI Fundamentals.

Perguntas frequentes sobre o TML-Interaction-Small

O que é um modelo de interação?

Um modelo de interação é um sistema de IA de voz em que a interatividade é incorporada no próprio modelo — não adicionada por componentes externos como detecção de atividade de voz e gerenciamento de diálogo. Ele processa entrada e saída simultaneamente, podendo ouvir e falar ao mesmo tempo, sem esperar por turnos.

Quem está por trás do Thinking Machines Lab?

O Thinking Machines Lab é liderado por Mira Murati, ex-CTO da OpenAI. O TML-Interaction-Small é o primeiro modelo público do lab, descrito como uma prévia de pesquisa da sua arquitetura de modelo de interação.

Como o TML-Interaction-Small se compara ao GPT-Realtime-2 da OpenAI?

O TML-Interaction-Small lidera em interatividade, marcando 77,8 no FD-bench v1.5 contra 47,8 do GPT-Realtime-2 no ajuste máximo, com latência mais rápida de tomada de turno (0,40 s vs. 1,63 s). O GPT-Realtime-2 lidera em inteligência bruta em benchmarks como o Audio MultiChallenge (48,5% vs. 43,4%).

O TML-Interaction-Small consegue processar vídeo?

Sim. Ele processa vídeo junto com áudio e consegue reagir a eventos visuais sem nenhum comando verbal do usuário — por exemplo, contando repetições de exercícios na câmera ou apontando objetos conforme aparecem. Essa proatividade visual não existe no GPT-Realtime-2 nem no Gemini Live.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Editor de Ciência de Dados @ DataCamp | Fazer previsões e construir com APIs é a minha paixão.

Tópicos

Aprenda IA com a DataCamp!

Programa

Fundamentos da IA

10 h
Descubra os fundamentos da IA, aprenda a usar a IA de forma eficaz no trabalho e mergulhe em modelos como o chatGPT para navegar pelo cenário dinâmico da IA.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.
Ryan Ong's photo

Ryan Ong

8 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

An avian AI exits its cage

blog

12 Alternativas de código aberto ao GPT-4

GPT-4 alternativas de código aberto que podem oferecer desempenho semelhante e exigem menos recursos computacionais para serem executadas. Esses projetos vêm com instruções, fontes de código, pesos de modelos, conjuntos de dados e interface de usuário do chatbot.
Abid Ali Awan's photo

Abid Ali Awan

9 min

A tiny computer used for ML

blog

O que é o TinyML? Uma introdução ao aprendizado de máquina minúsculo

Saiba mais sobre o TinyML, seus aplicativos e benefícios, e como você pode começar a trabalhar com esse campo emergente de aprendizado de máquina.
Kurtis Pykes 's photo

Kurtis Pykes

8 min

Tutorial

Guia de Introdução ao Ajuste Fino de LLMs

O ajuste fino dos grandes modelos de linguagem (LLMs, Large Language Models) revolucionou o processamento de linguagem natural (PLN), oferecendo recursos sem precedentes em tarefas como tradução de idiomas, análise de sentimentos e geração de textos. Essa abordagem transformadora aproveita modelos pré-treinados como o GPT-2, aprimorando seu desempenho em domínios específicos pelo processo de ajuste fino.
Josep Ferrer's photo

Josep Ferrer

Tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.
Kurtis Pykes 's photo

Kurtis Pykes

Ver maisVer mais