跳至内容

交互模型:TML-Interaction-Small 的优势

Mira Murati 的 Thinking Machines Lab 构建了一种能同时“听”和“说”的模型。我们将拆解其功能,并与 GPT-Realtime-2 进行对比评测。
更新 2026年5月13日  · 10分钟

就在上周,OpenAI 的 GPT-Realtime-2 以接近 GPT-5 级推理能力和 128K 上下文窗口的表现,为语音 AI 设立了新标杆。如今,Mira Murati 领导的 Thinking Machines Lab 提出了另一种主张:响应性与智能应当从一开始就在同一个模型中共同训练,而不是通过语音活动检测和对话管理等外挂组件拼接而成。

该实验室将这类新模型称为“交互模型”(Interaction Model)。

他们的研究预览版 TML-Interaction-Small,是这一思路的首个成果。它是一个拥有 2760 亿参数的专家混合(Mixture-of-Experts)模型,激活参数为 120 亿。它以连续的 200 毫秒微回合(micro-turn)处理音频、视频与文本,这意味着它能一边感知一边回应,而不是等说话者结束后再响应。 

本文将介绍 TML-Interaction-Small 是什么,梳理其关键架构特性,并将其与 GPT-Realtime-2 进行直接对比,同时详细解读其基准测试结果。

什么是交互模型?

Thinking Machines Lab 将交互模型描述为一种将交互性融入模型本体,而非通过外围框架实现的系统。其核心原则是:响应性与智能应当在连续的音视频流数据上共同从零训练,而不是事后拼接到一个以文本为中心的模型上。

目前多数实时语音 AI 系统往往拼接语音活动检测组件、独立编码器与对话管理层来模拟“响应性”。Thinking Machines Lab 认为,这种做法因人为的轮次边界限制了非交互模型的能力,必然落后于原生处理交互的模型。

该实验室的交互模型不再顺序地先消费用户输入、再生成完整回应,而是更贴近人类感知:它将输入与输出的 token 都视为数据流,并在每个 200 毫秒的微回合中交错处理这两种流。

Sequential token sequence vs human perception因此,交互模型能一边感知一边回应,输入与输出并行处理,而无需等待说话者结束。这带来了一些很实用的能力:

  • 边听边说
  • 无需提示即可对视觉线索作出反应
  • 直接跟踪时间流逝

这些都是带有外部框架的轮次制模型无法复刻的,无论其推理能力多强。

TML-Interaction-Small 是什么?

TML-Interaction-Small 是 Thinking Machines Lab 的首次公开模型发布,也是其交互模型架构的首个实现。

它是一个 2760 亿参数的 专家混合(Mixture-of-Experts) 模型,激活参数为 120 亿,从零开始在连续的音视频流上训练,采用前文所述的多流微回合设计,将输入与输出按 200 毫秒片段进行处理。

两个共享上下文的模型组合同时提供响应性与智能。用户可实时收到交互模型的回答,而规划、工具调用与更深入的推理则交给异步运行的后台模型。

交互模型会在后台结果就绪时将其自然地融入对话,而无需“掉线”。

TML-Interaction-Small 的功能

与现有语音 AI 模型“轮流说话”(您说完它再回应)不同,TML-Interaction-Small 更像一位人类对话伙伴。以下四项能力使其与众不同。

同时说与听

TML-Interaction-Small 能在用户仍在讲话时就合成输出语音。这使同声传译成为可能:您用一种语言说话,模型会在您尚未说完句子时就开始翻译。这也意味着模型能在半句时纠错插话,或在您解释过程中给出口头提示(如“明白了”“请继续”)。

当出现特定触发事件时,这也有助于定制实时回应。例如,发布说明中的一段视频展示了模型如何在用户提到付款时,将欧元金额换算为美元并口头告知。

无需提示即可“看见并回应”视频

TML-Interaction-Small 会与音频一同处理视频,并能据所见内容主动发声,无需任何语音提示。

如果您在镜头前做俯卧撑,它能实时出声计数;若视频流中出现相关物体,它能在其刚变得可见时立即提示。不过,这项能力仍有提升空间,从内部的 RepCount-A 分数可见,只有约三分之一(33.4%)的样本与真值相差不超过一次计数。

发布片段中有一段(在我看来有点古怪)演示了这一点:在被要求关注用户坐姿时,模型立刻检测到她在笔记本前弯腰驼背,并提醒她纠正姿势。

现有商用的实时 API 多为纯音频,只能对口语轮次做出回应,无法主动对视觉变化作出反应。这一能力目前在 GPT-Realtime-2 或 Gemini Live 中并不存在。

自然处理打断与自我纠正

如果您开口后改变想法并在中途修正,TML-Interaction-Small 能追踪到这次修正,并对您的真实意图做出回应。它还能处理“随声附和”(如它在说话时,您说“嗯”“对”),并区分用户是在对它说话,还是在与房间里的其他人交谈。

这些场景常使轮次制模型出错:要么在不该停时停下,要么回应了说话内容的错误部分。值得关注的是,TML-Interaction-Small 在日常环境中能否像在精心制作的演示视频里那样稳定。

在保持“在线”的同时后台运行复杂任务

后台模型让交互模型不仅快,而且更聪明。您可以在后台任务运行时持续追问或切换话题。当结果就绪时,模型会在自然的时机将其编织回对话中,而不是生硬地打断切换上下文。

这意味着您既能获得快速的对话式响应,又能处理通常需要模型“静默”数秒的多步骤任务。在一段问答演示中,这种方式效果不错:三位用户以很快的节奏连环发问,模型大体能跟上速度。

TML-Interaction-Small 基准测试

Thinking Machines 报告了两大类结果:衡量交互性的流式基准,以及衡量智能的轮次制基准。该模型在流式端的表现最强,这也是其架构选择最直接受到检验的方面。

交互性

FD-bench v1.5 使用预先录制的音频,衡量模型在四种场景下的表现:

  • 用户打断
  • 用户随声附和
  • 与他人交谈
  • 背景语音

TML-Interaction-Small 得分为 77.8;对比之下,Gemini-3.1-flash-live-preview 在最低设置下得分 54.3,GPT-Realtime-2.0 在最低设置下为 46.8,即便在最高推理设置(xhigh)下也仅为 47.8。

这是最直接衡量 Thinking Machines 目标的基准。在这一最相关的测试上领先最近竞品 30 分,并非细微差距。问题在于 FD-bench v1.5 是否覆盖了实践中重要的交互性全谱,这一点 Thinking Machines 自身也承认仍是一个开放研究问题。

轮次切换时延

在 FD-bench v1 中,TML-Interaction-Small 实现了 0.40 秒的轮次切换时延,为所有对比模型中最快。Gemini-3.1-flash-live-preview 以 0.57 秒紧随其后。GPT-Realtime-2.0 即便在最低设置下也需要约三倍时间(1.18 秒);在 xhigh 推理设置下为 1.63 秒。

时延在语音交互中远比文本重要。用户说完到模型开始回应若相隔 1.2 秒,不仅可感知,而且会打断节奏。0.40 秒的结果让 TML-Interaction-Small 更接近人类对话的响应时间。

智能与指令遵循

Audio MultiChallenge 衡量音频中的智能与指令遵循。TML-Interaction-Small 得分 43.4%,高于 GPT-Realtime-1.5(34.7%)与 Gemini-3.1-flash-live-preview(26.8%),但低于 GPT-Realtime-2.0 在 xhigh 设置下的 48.5%。这里能看到智能与交互性的权衡。

TML-Interaction-Small 与 GPT-Realtime-2.0(xhigh)之间相差 5.1 个百分点。这个差距不小,但也不算巨大,而且 GPT-Realtime-2.0 为此付出了明显的时延代价(1.63 秒对 0.40 秒)。权衡是否值得取决于应用场景。

响应质量与工具使用

FD-bench v3 在“音频 + 工具”的场景中衡量响应质量与工具调用准确率。启用后台代理时,TML-Interaction-Small 的响应质量为 82.8%,工具调用 pass@1 为 68.0%;相比之下,GPT-Realtime-2.0 在最低设置下为 80.0% / 52.0%,在 xhigh 下为 81.0% / 58.0%。

这里最有意义的是 pass@1(68.0% 对 58.0%),它衡量模型是否真正正确完成依赖工具的任务。看起来,将工具调用与用户交互分离的双模型架构确实见效。

新的交互性基准:TimeSpeak、CueSpeak 与视觉主动性

Thinking Machines 自建了两个内部基准,并改编了三个较少使用的基准,直接衡量交互能力。这些值得仔细审视,因为目前没有竞争模型能在这些测试上取得有意义的成绩。

  • TimeSpeak(定时发声启动):TML-Interaction-Small 的宏平均准确率为 64.7%。
  • CueSpeak(口头提示触发发声):宏平均准确率为 81.7%。
  • RepCount-A(视觉动作计数):一次之内误差准确率为 33.4%。
  • ProactiveVideoQA(视觉提示触发发声):PAUC 为 31.5(不回应基线 = 25.0%)。
  • Charades 时间定位(视觉动作时序):mIoU 为 30.4。

在上述多数新基准上,GPT Realtime-2.0 几乎完全失效,结果接近零,甚至在 Charades 基准(要求模型在视频中恰当时刻说出“开始”“停止”)上为零。

这些结果的实际意义仍难下定论,因为这些基准较新,尚未得到独立验证,但它们与架构差异及其他对比基准的整体图景一致。

TML-Interaction-Small 的定价与可用性

TML-Interaction-Small 目前处于限量研究预览阶段,尚未公布定价。Thinking Machines 计划在 2026 年晚些时候扩大开放。感兴趣的研究者与开发者可通过 interaction@thinkingmachines.ai 联系团队申请试用。

作为对比,GPT-Realtime-2 的定价为每百万音频输入 token 32 美元、每百万音频输出 token 64 美元,详情见我们的 GPT-Realtime-2 概览。TML-Interaction-Small 的定价预计会在更广泛发布时一并公布。

您或许已经注意到,模型名称带有“-Small”后缀,没错,Thinking Machines 预计还会推出更大的模型。目前这些更大模型仍然过慢,不适合服务化,但计划在 2026 年底发布。

TML-Interaction-Small 与 GPT-Realtime-2 对比

两者之间更有意思的差距体现在交互性基准上。在衡量用户打断、随声附和、与他人交谈、背景语音等行为的 FD-bench v1.5 上,TML-Interaction-Small 得分 77.8。GPT-Realtime-2.0 在最低设置下为 46.8,在最高推理设置(xhigh)下为 47.8。这是在最能直接衡量 Thinking Machines 优化目标的基准上拉开了 30 分差距。

智能方面确实存在权衡,但差距远小于交互性差距。GPT-Realtime-2.0(xhigh)在 Audio MultiChallenge 上得分 48.5%,而 TML-Interaction-Small 为 43.4%。在 BigBench Audio 上,GPT-Realtime-2.0(high)为 96.6%,TML-Interaction-Small 为 75.7%(但在启用后台代理后可达 96.5%)。

整体而言,TML-Interaction-Small 在响应与交互性上领先,而 GPT-Realtime-2.0 在高推理设置下在纯智能基准上占优。

基准 TML-Interaction-Small GPT-Realtime-2.0(最低) GPT-Realtime-2.0(xhigh) Gemini-3.1-flash-live(最低)
FD-bench v1 轮次切换时延(秒) 0.40 1.18 1.63 0.57
FD-bench v1.5 平均分 77.8 46.8 47.8 54.3
FD-bench v3 响应质量(%) 82.8* 80.0 81.0 68.5
Audio MultiChallenge APR(%) 43.4 37.6 48.5 26.8
BigBench Audio 准确率(%) 75.7 / 96.5* 71.8 96.6 71.3
IFEval(VoiceBench)准确率(%) 82.1 81.7 83.2 67.6
IFEval 文本准确率(%) 89.7 89.6 95.2 85.8

* 启用后台代理。

想要了解 OpenAI 音频模型家族的实操效果,可查看我们的 GPT-Realtime-2 API 教程

结语

TML-Interaction-Small 颇具前景。若其能兑现发布说明中的承诺,这一新模型在保持短时延的同时显著提升交互性,而不牺牲响应质量或推理能力。能同时“说”“听”,并对视觉线索做出反应,这在目前仍属独有,带来大量新可能。我也很关心其公开发布时的定价。

与 GPT-Realtime-2 的智能差距确实存在,但比起交互差距要窄。在需要更自然对话体验的应用中,时延差异往往比智能差异更重要;而在以高难度推理准确性为优先的应用中,GPT-Realtime-2.0 在高推理设置下仍然领先。

如果您想快速了解更广泛的 AI 模型版图及其高效使用方式,建议从我们的 AI Fundamentals 技能路径开始。

TML-Interaction-Small 常见问题

什么是交互模型?

交互模型是一种语音 AI 系统,将交互性内建于模型本身,而非通过语音活动检测、对话管理等外部组件后加实现。它能同时处理输入与输出,因此无需轮流等待,便可一边倾听一边说话。

谁在领导 Thinking Machines Lab?

Thinking Machines Lab 由前 OpenAI 首席技术官 Mira Murati 领导。TML-Interaction-Small 是该实验室首次公开发布的模型,被称为其交互模型架构的研究预览版。

TML-Interaction-Small 与 OpenAI 的 GPT-Realtime-2 相比如何?

TML-Interaction-Small 在交互性上领先:FD-bench v1.5 得分 77.8,而 GPT-Realtime-2 在最高设置下为 47.8;轮次切换时延更快,0.40 秒对比 1.63 秒。GPT-Realtime-2 则在纯智能基准上领先,例如 Audio MultiChallenge(48.5% vs. 43.4%)。

TML-Interaction-Small 能处理视频吗?

可以。它会与音频一同处理视频,并能在没有任何语音提示的情况下,对视觉事件作出反应,例如在镜头中为锻炼动作计数,或在物体出现时即时提示。这种视觉主动性在 GPT-Realtime-2 或 Gemini Live 中并不存在。

主题

在 DataCamp 学习 AI!

Tracks

AI 基础知识

10小时
探索 AI 基础,学习如何在工作中有效利用 AI,并深入了解 ChatGPT 等模型,以驾驭快速变化的 AI 领域。
查看详情Right Arrow
开始课程
查看更多Right Arrow