Tracks
Chỉ tuần trước, GPT-Realtime-2 của OpenAI đã nâng tiêu chuẩn cho AI giọng nói khi ra mắt với khả năng suy luận tương đương GPT-5 và cửa sổ ngữ cảnh 128K. Giờ đây, Thinking Machines Lab của Mira Murati đưa ra một luận điểm khác: khả năng phản hồi và trí tuệ nên được huấn luyện ngay trong cùng một mô hình từ đầu, thay vì ghép nối các bộ phận như phát hiện hoạt động giọng nói và thành phần quản lý đối thoại.
Phòng thí nghiệm gọi kiểu mô hình mới này là "Mô hình Tương tác".
Bản xem trước nghiên cứu của họ, TML-Interaction-Small, là kết quả đầu tiên của cách tiếp cận này. Đây là mô hình Mixture-of-Experts gồm 276B tham số với 12B tham số hoạt động. Mô hình xử lý âm thanh, video và văn bản theo các "vi-lượt" liên tục dài 200 ms, nghĩa là nó cảm nhận và phản hồi đồng thời thay vì chờ người nói kết thúc.
Trong bài viết này, tôi sẽ giới thiệu TML-Interaction-Small là gì, đi qua các đặc điểm kiến trúc chính, sosánh trực tiếp với GPT-Realtime-2, và xem chi tiết các kết quả benchmark.
Mô hình Tương tác là gì?
Thinking Machines Lab mô tả mô hình tương tác là một hệ thống trong đó tính tương tác là một phần của chính mô hình, không phải được triển khai bằng một bộ khung bao quanh. Nguyên tắc cốt lõi là khả năng phản hồi và trí tuệ cần được huấn luyện cùng nhau từ đầu, trên các luồng âm thanh và video liên tục, thay vì gắn thêm vào một mô hình dựa trên văn bản sau này.
Hầu hết các hệ thống AI giọng nói thời gian thực hiện nay chắp vá các thành phần phát hiện hoạt động giọng nói, các bộ mã hóa riêng và các lớp quản lý đối thoại để mô phỏng tính phản hồi. Thinking Machines Lab cho rằng cách tiếp cận này sẽ luôn thua kém các mô hình xử lý tương tác một cách tự nhiên do ranh giới lượt nhân tạo hạn chế những gì mô hình không tương tác có thể làm.
Thay vì tiếp nhận tuần tự đầu vào của người dùng rồi tạo một phản hồi hoàn chỉnh, các mô hình tương tác của phòng lab được thiết kế gần hơn với nhận thức của con người. Chúng coi cả token đầu vào và đầu ra là các luồng, và cả hai được xen kẽ trong từng vi-lượt dài 200 mili giây.
Vì vậy, một mô hình tương tác vừa cảm nhận vừa phản hồi cùng lúc, xử lý đầu vào và đầu ra song song thay vì chờ người nói kết thúc. Điều này mang lại vài khả năng thú vị:
- Vừa nói vừa nghe
- Phản ứng với tín hiệu hình ảnh mà không cần được nhắc
- Theo dõi thời gian trôi qua một cách trực tiếp
Đây đều là những điều mà các mô hình theo lượt với bộ khung bên ngoài không thể tái tạo, dù chúng có khả năng suy luận mạnh đến đâu.
TML-Interaction-Small là gì?
TML-Interaction-Small là bản phát hành mô hình công khai đầu tiên của Thinking Machines Lab và là hiện thực hóa đầu tiên của kiến trúc mô hình tương tác của họ.
Đây là mô hình Mixture-of-Experts gồm 276B tham số với 12B tham số hoạt động, được huấn luyện từ đầu trên các luồng âm thanh và video liên tục, sử dụng thiết kế vi-lượt đa luồng như tôi mô tả ở trên, trong đó đầu vào và đầu ra được xử lý theo từng khối 200 ms.

Sự kết hợp của hai mô hình với ngữ cảnh dùng chung mang lại cả tính phản hồi và trí tuệ. Người dùng nhận câu trả lời từ mô hình tương tác theo thời gian thực, trong khi việc lập kế hoạch, sử dụng công cụ và suy luận sâu hơn được giao cho mô hình nền chạy bất đồng bộ.
Sau đó, mô hình tương tác tích hợp kết quả nền vào cuộc trò chuyện ngay khi chúng sẵn sàng, mà không bị rơi khỏi mạch hội thoại.
Các tính năng của TML-Interaction-Small
Trong khi các mô hình AI giọng nói hiện có hoạt động theo lượt (bạn nói, chúng đáp), TML-Interaction-Small vận hành giống một người đối thoại hơn. Dưới đây là bốn khả năng nổi bật của nó.
Vừa nói vừa nghe
TML-Interaction-Small có thể phát ra lời nói khi người dùng vẫn đang nói. Điều này cho phép dịch đồng thời: bạn nói bằng một ngôn ngữ, và mô hình bắt đầu dịch trước khi bạn kết thúc câu. Nó cũng có thể ngắt lời giữa chừng khi phát hiện lỗi, hoặc đưa ra tín hiệu bằng lời ("hiểu rồi", "tiếp tục đi") trong khi bạn vẫn đang giải thích.
Điều này cũng hữu ích cho các phản hồi thời gian thực tuỳ biến mỗi khi một sự kiện được nhắc đến xảy ra. Chẳng hạn, một đoạn clip trong ghi chú phát hành cho thấy mô hình quy đổi số tiền EUR và thông báo số tiền USD tương ứng mỗi khi người dùng đề cập đến một khoản thanh toán.
Nhìn và phản ứng với video mà không cần được yêu cầu
TML-Interaction-Small xử lý video song song với âm thanh và có thể chủ động bắt đầu nói dựa trên những gì nó nhìn thấy, không cần lời nhắc bằng giọng nói.
Nếu bạn chống đẩy trước camera, nó có thể đếm số lần thành tiếng theo thời gian thực. Nếu một vật thể liên quan xuất hiện trong luồng video, nó có thể gọi tên ngay lúc vật đó hiện ra. Tuy vậy, đây là tính năng còn có thể cải thiện, thể hiện qua điểm số RepCount-A nội bộ, trong đó chỉ một phần ba (33,4%) trường hợp nằm trong sai số một lần so với dữ liệu gốc.
Một clip trong bản phát hành (trông hơi kỳ cục theo ý kiến cá nhân tôi) minh hoạ điều này: Khi được nhắc chú ý đến tư thế của người dùng, mô hình phát hiện việc ngồi khom lưng trước máy tính ngay lập tức và nhắc cô ấy chỉnh lại.
Các API thương mại thời gian thực hiện nay chỉ có âm thanh. Chúng phản hồi theo lượt nói, nhưng không thể chủ động phản ứng với thay đổi hình ảnh. Đây là khả năng hiện chưa tồn tại trong GPT-Realtime-2 hay Gemini Live.
Xử lý ngắt lời và tự sửa một cách tự nhiên
Nếu bạn bắt đầu một câu, đổi ý và tự sửa ngay giữa chừng, TML-Interaction-Small theo dõi phần sửa và phản hồi đúng với điều bạn thực sự định nói. Nó xử lý backchanneling (bạn nói "ừ hử" hay "đúng rồi" khi nó đang nói) và phân biệt giữa việc ai đó đang nói với nó hay nói với người khác trong phòng.
Đây là những tình huống các mô hình theo lượt thường hỏng. Chúng hoặc dừng nói khi không nên, hoặc phản hồi sai phần nội dung. Sẽ thú vị khi xem TML-Interaction-Small xử lý được điều này trong tình huống hàng ngày tốt như trong các video demo tuyển chọn hay không.
Chạy tác vụ phức tạp ở nền trong khi vẫn hiện diện
Mô hình nền giúp mô hình tương tác không chỉ nhanh mà còn thông minh. Bạn có thể tiếp tục hỏi thêm hoặc đổi chủ đề trong khi tác vụ nền đang chạy. Khi có kết quả, mô hình đan xen chúng vào cuộc trò chuyện vào một thời điểm tự nhiên thay vì làm gián đoạn bằng một chuyển ngữ cảnh đột ngột.
Điều này đồng nghĩa bạn vừa có phản hồi trò chuyện nhanh, vừa có khả năng xử lý các tác vụ nhiều bước vốn thường khiến mô hình phải im lặng vài giây. Trong một clip đố vui, điều này hoạt động khá tốt: Ba người dùng đặt câu hỏi kiến thức nhanh, và mô hình nhìn chung theo kịp tốc độ của họ.
Các benchmark của TML-Interaction-Small
Thinking Machines báo cáo kết quả theo hai nhóm: benchmark streaming đo tính tương tác, và benchmark theo lượt đo trí tuệ. Kết quả mạnh nhất của mô hình nằm ở phía streaming, nơi các lựa chọn kiến trúc của nó được kiểm chứng trực tiếp nhất.
Tính tương tác
FD-bench v1.5 cung cấp cho mô hình âm thanh ghi sẵn và đo lường hành vi trong bốn kịch bản:
- Người dùng ngắt lời
- Backchannel của người dùng
- Nói chuyện với người khác
- Tiếng nói nền
TML-Interaction-Small đạt 77,8, so với 54,3 của Gemini-3.1-flash-live-preview ở thiết lập tối thiểu và 46,8 của GPT-Realtime-2.0 ở thiết lập tối thiểu. Ngay cả GPT-Realtime-2.0 ở mức suy luận cao nhất (xhigh) cũng chỉ đạt 47,8.
Đây là benchmark đo lường trực tiếp nhất mục tiêu mà Thinking Machines đang hướng tới. Khoảng cách 30 điểm so với đối thủ gần nhất không phải khác biệt nhỏ. Câu hỏi là liệu FD-bench v1.5 có bao quát đầy đủ phạm vi tính tương tác quan trọng trong thực tế hay không, điều mà chính Thinking Machines thừa nhận vẫn là câu hỏi nghiên cứu mở.
Độ trễ thay lượt
TML-Interaction-Small đạt độ trễ thay lượt 0,40 giây trong FD-bench v1, nhanh nhất trong các mô hình được so sánh. Gemini-3.1-flash-live-preview tiệm cận nhất với 0,57 giây. Ngay cả ở thiết lập tối thiểu, GPT-Realtime-2.0 mất khoảng gấp ba lần (1,18 giây); ở mức xhigh, GPT-Realtime-2.0 lên đến 1,63 giây.
Độ trễ rất quan trọng với tương tác bằng giọng nói theo cách khác với văn bản. Khoảng cách 1,2 giây giữa lúc người dùng kết thúc và lúc mô hình bắt đầu phản hồi không chỉ nhận thấy rõ mà còn gây gián đoạn. Kết quả 0,40 giây đưa TML-Interaction-Small tiến gần hơn tới thời gian phản hồi hội thoại của con người.
Trí tuệ và tuân thủ chỉ dẫn
Audio MultiChallenge đo lường trí tuệ và tuân thủ chỉ dẫn trong âm thanh. TML-Interaction-Small đạt 43,4%, cao hơn GPT-Realtime-1.5 (34,7%) và Gemini-3.1-flash-live-preview (26,8%), nhưng thấp hơn GPT-Realtime-2.0 ở mức xhigh (48,5%). Đây là benchmark thể hiện rõ đánh đổi giữa trí tuệ và tính tương tác.
Khoảng cách giữa TML-Interaction-Small và GPT-Realtime-2.0 ở mức xhigh là 5,1 điểm phần trăm. Đó là khoảng cách đáng kể nhưng không quá lớn, và đi kèm chi phí độ trễ đáng kể ở phía GPT-Realtime-2.0 (1,63 giây so với 0,40 giây). Mức độ chấp nhận đánh đổi tùy vào ứng dụng.
Chất lượng phản hồi và sử dụng công cụ
FD-bench v3 đo chất lượng phản hồi và độ chính xác gọi công cụ trong các kịch bản âm thanh kèm công cụ. TML-Interaction-Small đạt chất lượng phản hồi 82,8% và pass@1 68,0% khi bật agent nền, so với 80,0% / 52,0% của GPT-Realtime-2.0 ở thiết lập tối thiểu và 81,0% / 58,0% ở mức xhigh.
Khoảng cách pass@1 (68,0% so với 58,0%) là con số ý nghĩa nhất ở đây, vì nó đo lường việc mô hình thực sự hoàn thành đúng các tác vụ phụ thuộc công cụ. Có vẻ kiến trúc kép tách biệt cuộc gọi công cụ khỏi tương tác với người dùng mang lại hiệu quả.
Benchmark tương tác mới: TimeSpeak, CueSpeak và chủ động theo hình ảnh
Thinking Machines tạo hai benchmark nội bộ và điều chỉnh ba benchmark ít phổ biến hơn để đo trực tiếp các khả năng tương tác. Chúng đáng để xem xét kỹ vì không có mô hình cạnh tranh nào đạt kết quả đáng kể trên bất kỳ benchmark nào trong số này.
- TimeSpeak (bắt đầu nói theo thời điểm): TML-Interaction-Small đạt macro-accuracy 64,7%.
- CueSpeak (nói theo tín hiệu bằng lời): TML-Interaction-Small đạt macro-accuracy 81,7%.
- RepCount-A (đếm hành động theo hình ảnh): TML-Interaction-Small đạt độ chính xác sai lệch một lần 33,4%.
- ProactiveVideoQA (nói theo tín hiệu hình ảnh): TML-Interaction-Small đạt 31,5 PAUC (mốc không phản hồi = 25,0%).
- Định vị thời gian Charades (thời điểm hành động theo hình ảnh): TML-Interaction-Small đạt 30,4 mIoU.
Trên hầu hết các benchmark mới này, GPT realtime-2.0 thất bại hoàn toàn, với kết quả gần bằng không, thậm chí bằng không (trên benchmark Charades, yêu cầu mô hình nói "bắt đầu" và "dừng" đúng thời điểm trong video).
Khó để tôi khẳng định mức độ ý nghĩa của các kết quả này, vì các benchmark đó còn mới và chưa được kiểm chứng độc lập, nhưng chúng phù hợp với bức tranh chung về khác biệt kiến trúc và các kết quả benchmark tương ứng.
Giá và khả năng truy cập TML-Interaction-Small
TML-Interaction-Small hiện ở giai đoạn xem trước nghiên cứu giới hạn và chưa công bố chi tiết giá. Thinking Machines dự định mở quyền truy cập rộng hơn vào cuối năm 2026. Các nhà nghiên cứu và nhà phát triển quan tâm có thể liên hệ nhóm tại interaction@thinkingmachines.ai để yêu cầu truy cập.
Để so sánh, GPT-Realtime-2 có giá $32 cho mỗi triệu token đầu vào âm thanh và $64 cho mỗi triệu token đầu ra âm thanh, như chúng tôi đã đề cập trong tổng quan GPT-Realtime-2. Giá của TML-Interaction-Small có thể sẽ được công bố cùng với đợt phát hành rộng rãi.
Có lẽ bạn đã để ý, mô hình có hậu tố "-Small", và bạn đoán đúng khi kỳ vọng Thinking Machines sẽ ra mắt các mô hình lớn hơn. Chúng hiện vẫn quá chậm để phục vụ, nhưng một bản phát hành được lên kế hoạch vào cuối năm 2026.
TML-Interaction-Small so với GPT-Realtime-2
Khoảng cách thú vị hơn giữa hai mô hình nằm ở các benchmark về tính tương tác. Trên FD-bench v1.5, đo lường hành vi trong các tình huống người dùng ngắt lời, backchanneling, nói với người khác và tiếng nói nền, TML-Interaction-Small đạt 77,8. GPT-Realtime-2.0 ở thiết lập tối thiểu đạt 46,8, và ở mức suy luận cao nhất (xhigh) đạt 47,8. Đó là khoảng cách 30 điểm trên benchmark đo trực tiếp nhất những gì Thinking Machines đang tối ưu.
Có sự đánh đổi về trí tuệ, nhưng khoảng cách ở đây nhỏ hơn nhiều so với tính tương tác. GPT-Realtime-2.0 ở mức xhigh đạt 48,5% trên Audio MultiChallenge so với 43,4% của TML-Interaction-Small. Trên BigBench Audio, GPT-Realtime-2.0 ở mức cao đạt 96,6% so với 75,7% của TML-Interaction-Small (dù TML-Interaction-Small đạt 96,5% khi bật agent nền).
Bức tranh chung là TML-Interaction-Small dẫn trước về độ phản hồi và tính tương tác, trong khi GPT-Realtime-2.0 ở các thiết lập suy luận cao dẫn trước ở các benchmark trí tuệ thuần.
| Benchmark | TML-Interaction-Small | GPT-Realtime-2.0 (tối thiểu) | GPT-Realtime-2.0 (xhigh) | Gemini-3.1-flash-live (tối thiểu) |
|---|---|---|---|---|
| FD-bench v1 độ trễ thay lượt (s) | 0.40 | 1.18 | 1.63 | 0.57 |
| FD-bench v1.5 trung bình | 77.8 | 46.8 | 47.8 | 54.3 |
| FD-bench v3 chất lượng phản hồi (%) | 82.8* | 80.0 | 81.0 | 68.5 |
| Audio MultiChallenge APR (%) | 43.4 | 37.6 | 48.5 | 26.8 |
| BigBench Audio độ chính xác (%) | 75.7 / 96.5* | 71.8 | 96.6 | 71.3 |
| IFEval (VoiceBench) độ chính xác (%) | 82.1 | 81.7 | 83.2 | 67.6 |
| IFEval văn bản độ chính xác (%) | 89.7 | 89.6 | 95.2 | 85.8 |
* Khi bật agent nền.
Để xem họ nhà mô hình âm thanh của OpenAI hoạt động ra sao, hãy xem hướng dẫn API GPT-Realtime-2 của chúng tôi.
Suy nghĩ cuối
TML-Interaction-Small trông đầy hứa hẹn. Nếu đáp ứng được những gì trong ghi chú phát hành, mô hình mới mang lại tính tương tác được cải thiện đáng kể với độ trễ ngắn, mà không đánh đổi chất lượng phản hồi hay sức mạnh suy luận. Khả năng vừa nói, vừa nghe, vừa phản hồi tín hiệu hình ảnh cùng lúc hiện là độc nhất và mở ra nhiều khả năng. Tôi tò mò chờ xem mức giá sẽ như thế nào khi mô hình phát hành công khai.
Khoảng cách về trí tuệ so với GPT-Realtime-2 là có thật nhưng hẹp hơn nhiều so với khoảng cách về tính tương tác. Với các ứng dụng cần cuộc trò chuyện tự nhiên, khác biệt về độ trễ quan trọng hơn khoảng cách về trí tuệ. Với các ứng dụng ưu tiên độ chính xác ở các tác vụ suy luận khó, GPT-Realtime-2.0 ở thiết lập suy luận cao vẫn dẫn trước.
Nếu bạn muốn nhanh chóng nắm bắt bức tranh tổng quan về các mô hình AI và cách làm việc hiệu quả với chúng, tôi khuyến nghị bắt đầu với lộ trình kỹ năng AI Fundamentals của chúng tôi.
Câu hỏi thường gặp về TML-Interaction-Small
Mô hình tương tác là gì?
Mô hình tương tác là một hệ thống AI giọng nói trong đó tính tương tác được tích hợp vào chính mô hình, thay vì bổ sung qua các thành phần bên ngoài như phát hiện hoạt động giọng nói và quản lý đối thoại. Nó xử lý đầu vào và đầu ra đồng thời, vì vậy có thể vừa nghe vừa nói thay vì chờ theo lượt.
Ai đứng sau Thinking Machines Lab?
Thinking Machines Lab do Mira Murati, cựu CTO của OpenAI, lãnh đạo. TML-Interaction-Small là bản phát hành mô hình công khai đầu tiên của phòng lab, được mô tả là bản xem trước nghiên cứu của kiến trúc mô hình tương tác.
TML-Interaction-Small so với GPT-Realtime-2 của OpenAI như thế nào?
TML-Interaction-Small dẫn đầu về tính tương tác, đạt 77,8 trên FD-bench v1.5 so với 47,8 của GPT-Realtime-2 ở thiết lập cao nhất, với độ trễ thay lượt nhanh hơn 0,40 giây so với 1,63 giây. GPT-Realtime-2 dẫn đầu ở các benchmark trí tuệ thuần như Audio MultiChallenge (48,5% so với 43,4%).
TML-Interaction-Small có xử lý video được không?
Có. Nó xử lý video song song với âm thanh và có thể phản ứng với sự kiện hình ảnh mà không cần lời nhắc bằng giọng nói từ người dùng, ví dụ đếm số lần tập luyện trên camera hoặc gọi tên các vật thể khi chúng xuất hiện. Khả năng chủ động theo hình ảnh này không có trong GPT-Realtime-2 hay Gemini Live.
Tom là một nhà khoa học dữ liệu và giảng viên kỹ thuật. Anh viết và quản lý các bài hướng dẫn và bài blog về khoa học dữ liệu của DataCamp. Trước đây, Tom làm việc trong lĩnh vực khoa học dữ liệu tại Deutsche Telekom.
