Track
На прошлой неделе GPT-Realtime-2 от OpenAI подняла планку для голосового ИИ, представив рассуждение уровня GPT-5 и контекстное окно на 128K. Теперь лаборатория Миры Мураті Thinking Machines предлагает другой подход: отзывчивость и интеллект должны изначально обучаться в одной модели, а не «прикручиваться» с помощью детектирования голосовой активности и компонентов управления диалогом.
В лаборатории такой тип новой модели называют «моделью взаимодействия».
Их исследовательский превью-релиз, TML-Interaction-Small, — первый результат этого подхода. Это модель Mixture-of-Experts с 276 млрд параметров и 12 млрд активных параметров. Она обрабатывает аудио, видео и текст непрерывными микро-ходами по 200 мс, то есть воспринимает и отвечает одновременно, не дожидаясь, пока собеседник закончит.
В этой статье я расскажу, что такое TML-Interaction-Small, разберу её ключевые архитектурные особенности, сравню её напрямую с GPT-Realtime-2 и подробно посмотрю на результаты бенчмарков.
Что такое модели взаимодействия?
Thinking Machines Lab описывает модель взаимодействия как систему, в которой интерактивность заложена в саму модель, а не реализована во внешней обвязке. Основной принцип — отзывчивость и интеллект должны обучаться вместе с нуля, на непрерывных аудио- и видеопотоках, а не добавляться к текстовой модели постфактум.
Большинство существующих систем голосового ИИ в реальном времени сшивают вместе компоненты детектирования голосовой активности, отдельные энкодеры и слои управления диалогом, чтобы имитировать отзывчивость. В Thinking Machines считают, что такой подход всегда будет уступать моделям, которые нативно обрабатывают взаимодействие, из‑за искусственных границ ходов, ограничивающих возможности неинтерактивной модели.
Вместо последовательного потребления пользовательского ввода и последующей генерации полного ответа модели взаимодействия лаборатории ближе к человеческому восприятию. Они трактуют и входные, и выходные токены как потоки, чередуя их в каждом микро-ходе длительностью 200 миллисекунд.
Таким образом, модель взаимодействия воспринимает и отвечает одновременно, обрабатывая вход и выход параллельно, а не дожидаясь окончания реплики. Это открывает несколько полезных возможностей:
- Говорить и слушать одновременно
- Реагировать на визуальные сигналы без явного запроса
- Отслеживать ход времени напрямую
Всего этого не могут достичь пошаговые модели с внешней обвязкой, как бы ни была сильна их способность к рассуждению.
Что такое TML-Interaction-Small?
TML-Interaction-Small — первый публичный релиз модели Thinking Machines Lab и первая реализация их архитектуры модели взаимодействия.
Это модель Mixture-of-Experts с 276 млрд параметров и 12 млрд активных параметров, обученная с нуля на непрерывных аудио- и видеопотоках с использованием описанного выше многопоточного дизайна микро-ходов, где вход и выход обрабатываются кусками по 200 мс.

Сочетание двух моделей с общим контекстом обеспечивает и отзывчивость, и интеллектуальность. Пользователи получают ответы от модели взаимодействия в реальном времени, а планирование, использование инструментов и более глубокое рассуждение делегируются фоновой модели, которая работает асинхронно.
Затем модель взаимодействия интегрирует результаты фоновой работы в диалог по мере их готовности, не выпадая из разговора.
Возможности TML-Interaction-Small
В то время как существующие голосовые ИИ работают «по очереди» (вы говорите — они отвечают), TML-Interaction-Small ведёт себя больше как живой собеседник. Вот четыре возможности, которые выделяют её среди прочих.
Говорить и слушать одновременно
TML-Interaction-Small может озвучивать ответ, пока пользователь ещё говорит. Это позволяет реализовать синхронный перевод: вы говорите на одном языке, а модель начинает перевод ещё до того, как вы закончите фразу. Также модель может перебивать на полуслове, если замечает ошибку, или давать вербальные сигналы («понял», «продолжайте»), пока вы что‑то объясняете.
Это полезно и для кастомных ответов в реальном времени при наступлении определённых событий. В одном клипе из релиз-нотов, например, показано, как модель конвертирует суммы в EUR и озвучивает соответствующие суммы в USD всякий раз, когда пользователь упоминает платёж.
Видеть и реагировать на видео без запроса
TML-Interaction-Small обрабатывает видео вместе с аудио и может инициировать речь, опираясь на то, что видит, без какого-либо голосового запроса.
Если вы делаете отжимания на камеру, она может вслух считать повторы по мере выполнения. Если в видеопотоке появляется релевантный объект, она может тут же его отметить. Однако есть куда расти: это видно по внутренней метрике RepCount-A, где лишь треть (33,4%) случаев оказалась в пределах одного повтора от эталона.
Один из релизных клипов (на мой взгляд, выглядит немного забавно) демонстрирует это в действии: когда модель просят следить за осанкой пользователя, она мгновенно замечает сутулость у ноутбука и напоминает выпрямиться.
Существующие коммерческие API реального времени — только аудио. Они реагируют на произнесённые реплики, но не могут проактивно отвечать на визуальные изменения. Такой возможности сегодня нет ни у GPT-Realtime-2, ни у Gemini Live.
Естественно обрабатывать перебивания и самокоррекции
Если вы начинаете фразу, передумываете и поправляете себя на ходу, TML-Interaction-Small отслеживает исправление и отвечает на то, что вы имели в виду. Она справляется с бекченнелингом (ваши «угу» или «да-да», пока она говорит) и различает, обращаются ли к ней или разговаривают с кем‑то ещё в комнате.
В таких сценариях пошаговые модели часто «ломаются»: они либо замолкают, когда не нужно, либо отвечают не на то. Интересно будет посмотреть, сможет ли TML-Interaction-Small так же хорошо работать в повседневных ситуациях, а не только в тщательно подготовленных демо.
Выполнять сложные задачи в фоне, оставаясь в диалоге
Фоновая модель делает модель взаимодействия не только быстрой, но и умной. Вы можете задавать уточняющие вопросы или менять тему, пока фоновая задача выполняется. Когда результаты готовы, модель вплетает их в разговор в подходящий момент, а не прерывает вас резкой сменой контекста.
Это даёт одновременно быстрые разговорные ответы и возможность решать многошаговые задачи, которые обычно вынуждают модель замолкать на несколько секунд. В демо-викторине это работает неплохо: трое пользователей задают вопросы в быстром темпе, и модель в основном успевает за ними.
Бенчмарки TML-Interaction-Small
Thinking Machines приводит результаты по двум категориям: стриминговые бенчмарки, измеряющие интерактивность, и пошаговые бенчмарки, измеряющие «интеллект». Наиболее сильные результаты — в стриминговых тестах, где архитектурные решения проверяются напрямую.
Интерактивность
FD-bench v1.5 подаёт модели предварительно записанное аудио и измеряет поведение в четырёх сценариях:
- Перебивание пользователем
- Бекченнелинг пользователя
- Разговор с другими
- Фоновая речь
TML-Interaction-Small набирает 77,8, против 54,3 у Gemini-3.1-flash-live-preview при минимальных настройках и 46,8 у GPT-Realtime-2.0 при минимальных настройках. Даже на максимальных настройках рассуждения (xhigh) GPT-Realtime-2.0 набирает лишь 47,8.
Это бенчмарк, который наиболее прямо измеряет то, к чему стремится Thinking Machines. Разрыв в 30 пунктов от ближайшего конкурента — это не мелочь. Вопрос в том, охватывает ли FD-bench v1.5 весь спектр интерактивности, важной на практике; сами Thinking Machines признают, что это открытый исследовательский вопрос.
Задержка при смене хода
TML-Interaction-Small достигает задержки 0,40 секунды в FD-bench v1 — быстрее всех сравниваемых моделей. Ближе всего Gemini-3.1-flash-live-preview с 0,57 секунды. Даже при минимальных настройках GPT-Realtime-2.0 требуется примерно втрое больше (1,18 секунды); при xhigh рассуждении — 1,63 секунды.
Задержка критична для голосового взаимодействия в гораздо большей степени, чем для текста. Разница в 1,2 секунды между окончанием речи пользователя и началом ответа модели не только заметна, но и сбивает. Результат 0,40 секунды приближает TML-Interaction-Small к человеческим временам реакции в разговоре.
Интеллект и следование инструкциям
Audio MultiChallenge измеряет интеллект и следование инструкциям в аудио. TML-Interaction-Small набирает 43,4% — выше, чем GPT-Realtime-1.5 (34,7%) и Gemini-3.1-flash-live-preview (26,8%), но ниже GPT-Realtime-2.0 на xhigh (48,5%). Здесь виден компромисс между интеллектом и интерактивностью.
Разрыв между TML-Interaction-Small и GPT-Realtime-2.0 на xhigh — 5,1 п.п. Это заметная, но не огромная разница, и она идёт в комплекте со значительной ценой по задержке у GPT-Realtime-2.0 (1,63 секунды против 0,40 секунды). Ценность такого компромисса зависит от приложения.
Качество ответов и использование инструментов
FD-bench v3 измеряет качество ответов и точность вызовов инструментов в сценариях «аудио плюс инструменты». TML-Interaction-Small набирает 82,8% по качеству ответов и 68,0% pass@1 с включённым фоновым агентом, против 80,0% / 52,0% у GPT-Realtime-2.0 на минимальных настройках и 81,0% / 58,0% на xhigh.
Разрыв по pass@1 (68,0% против 58,0%) здесь наиболее значим, так как он показывает, выполняет ли модель задачи, зависящие от инструментов, корректно. Похоже, двойная архитектура, отделяющая вызовы инструментов от пользовательского взаимодействия, себя оправдывает.
Новые бенчмарки интерактивности: TimeSpeak, CueSpeak и визуальная проактивность
Thinking Machines создали два внутренних бенчмарка и адаптировали ещё три менее распространённых, чтобы напрямую измерять возможности интерактивности. Их стоит рассмотреть внимательно, поскольку конкурирующие модели на них практически не показывают результатов.
- TimeSpeak (инициация речи по времени): у TML-Interaction-Small 64,7% макроточности.
- CueSpeak (речевая реакция на вербальный сигнал): у TML-Interaction-Small 81,7% макроточности.
- RepCount-A (подсчёт визуальных действий): у TML-Interaction-Small 33,4% точности «с погрешностью один».
- ProactiveVideoQA (речевая реакция на визуальный сигнал): у TML-Interaction-Small 31,5 PAUC (базовая линия «нет ответа» = 25,0%).
- Charades temporal localization (временная локализация действий на видео): у TML-Interaction-Small 30,4 mIoU.
По большинству этих новых бенчмарков GPT-Realtime-2.0 фактически проваливается, показывая результат, близкий к нулю, а то и ноль (на Charades, где требуется произнести «start» и «stop» в нужные моменты видео).
Сложно сказать, насколько эти результаты значимы, поскольку бенчмарки новые и ещё не прошли независимую валидацию, но они соответствуют общей картине архитектурных различий и сопоставимых результатов тестов.
Цена и доступность TML-Interaction-Small
TML-Interaction-Small сейчас доступна в формате ограниченного исследовательского превью, подробности о ценах не объявлены. Thinking Machines планирует расширить доступ позже в 2026 году. Заинтересованные исследователи и разработчики могут связаться с командой по адресу interaction@thinkingmachines.ai для запроса доступа.
Для сравнения: GPT-Realtime-2 стоит $32 за миллион входных аудио-токенов и $64 за миллион выходных аудио-токенов, как мы писали в нашем обзоре GPT-Realtime-2. Цены на TML-Interaction-Small, вероятно, объявят вместе с более широким релизом.
Как вы, вероятно, заметили, в названии модели есть суффикс «-Small», и вы правы, ожидая, что Thinking Machines выпустит и более крупные модели. Пока они слишком медленные для продакшна, но релиз запланирован на конец 2026 года.
TML-Interaction-Small vs. GPT-Realtime-2
Наиболее заметный разрыв между моделями — в бенчмарках интерактивности. В FD-bench v1.5, который измеряет поведение при перебивании, бекченнелинге, разговоре с другими и фоновой речи, TML-Interaction-Small набирает 77,8. GPT-Realtime-2.0 на минимальных настройках — 46,8, а на максимальных по рассуждению (xhigh) — 47,8. Это разница в 30 пунктов в тесте, наиболее непосредственно измеряющем цель оптимизации Thinking Machines.
Есть и компромисс по «интеллекту», но он куда меньше, чем по интерактивности. GPT-Realtime-2.0 на xhigh набирает 48,5% в Audio MultiChallenge против 43,4% у TML-Interaction-Small. В BigBench Audio GPT-Realtime-2.0 на high даёт 96,6% против 75,7% у TML-Interaction-Small (хотя TML-Interaction-Small достигает 96,5% с включённым фоновым агентом).
В целом картина такова: TML-Interaction-Small лидирует по отзывчивости и интерактивности, а GPT-Realtime-2.0 на высоких настройках рассуждения лидирует в «сырых» интеллектуальных бенчмарках.
| Бенчмарк | TML-Interaction-Small | GPT-Realtime-2.0 (минимум) | GPT-Realtime-2.0 (xhigh) | Gemini-3.1-flash-live (минимум) |
|---|---|---|---|---|
| FD-bench v1 задержка смены хода (с) | 0.40 | 1.18 | 1.63 | 0.57 |
| FD-bench v1.5 среднее | 77.8 | 46.8 | 47.8 | 54.3 |
| FD-bench v3 качество ответов (%) | 82.8* | 80.0 | 81.0 | 68.5 |
| Audio MultiChallenge APR (%) | 43.4 | 37.6 | 48.5 | 26.8 |
| BigBench Audio точность (%) | 75.7 / 96.5* | 71.8 | 96.6 | 71.3 |
| IFEval (VoiceBench) точность (%) | 82.1 | 81.7 | 83.2 | 67.6 |
| IFEval текстовая точность (%) | 89.7 | 89.6 | 95.2 | 85.8 |
* С включённым фоновым агентом.
Чтобы увидеть семейство аудиомоделей OpenAI в действии, посмотрите наш туториал по API GPT-Realtime-2.
Заключение
TML-Interaction-Small выглядит многообещающе. Если она подтвердит заявленные в релиз-нотах качества, новая модель приносит заметно улучшенную интерактивность с короткой задержкой, не жертвуя качеством ответов или способностью к рассуждению. Умение одновременно говорить, слушать и реагировать на визуальные сигналы пока уникально и открывает множество сценариев. Интересно будет увидеть, какой будет прайсинг при публичном релизе.
Разрыв по «интеллекту» с GPT-Realtime-2 реален, но уже, чем по интерактивности. В приложениях, где важна естественность разговора, разница в задержке важнее. В задачах, где приоритет — точность на сложных рассуждениях, GPT-Realtime-2.0 на высоких настройках рассуждения всё ещё впереди.
Если хотите быстро разобраться в более широкой палитре ИИ‑моделей и эффективных способах работы с ними, начните с нашего скилл-трека AI Fundamentals.
TML-Interaction-Small: вопросы и ответы
Что такое модель взаимодействия?
Модель взаимодействия — это система голосового ИИ, где интерактивность встроена непосредственно в модель, а не добавлена через внешние компоненты вроде детектирования голосовой активности и управления диалогом. Она одновременно обрабатывает вход и выход, поэтому может слушать и говорить параллельно, а не по очереди.
Кто стоит за Thinking Machines Lab?
Thinking Machines Lab руководит Мира Мураті, ранее — CTO OpenAI. TML-Interaction-Small — первый публичный релиз модели лаборатории, представленный как исследовательский превью их архитектуры модели взаимодействия.
Как TML-Interaction-Small сравнивается с GPT-Realtime-2 от OpenAI?
TML-Interaction-Small лидирует по интерактивности: 77,8 в FD-bench v1.5 против 47,8 у GPT-Realtime-2 на максимальных настройках, а задержка смены хода быстрее — 0,40 секунды против 1,63 секунды. GPT-Realtime-2 опережает в «сырых» интеллектуальных тестах, таких как Audio MultiChallenge (48,5% против 43,4%).
Может ли TML-Interaction-Small обрабатывать видео?
Да. Она обрабатывает видео вместе с аудио и может реагировать на визуальные события без голосового запроса пользователя, например считать повторы упражнений на камеру или отмечать объекты по мере их появления. Такая визуальная проактивность отсутствует в GPT-Realtime-2 и Gemini Live.