Tracks
Chỉ tuần trước, GPT-Realtime-2 của OpenAI đã nâng chuẩn cho AI giọng nói khi ra mắt với khả năng suy luận ở đẳng cấp GPT-5 và cửa sổ ngữ cảnh 128K. Giờ đây, Thinking Machines Lab của Mira Murati đưa ra một luận điểm khác: tính phản hồi và trí thông minh nên được huấn luyện cùng nhau ngay từ đầu trong cùng một mô hình, thay vì ghép nối bằng các cơ chế phát hiện hoạt động giọng nói và các thành phần quản lý hội thoại.
Phòng thí nghiệm gọi kiểu mô hình mới này là một "Mô hình Tương tác".
Bản xem trước nghiên cứu của họ, TML-Interaction-Small, là kết quả đầu tiên của cách tiếp cận này. Đây là một mô hình Mixture-of-Experts với 276B tham số và 12B tham số hoạt động. Mô hình xử lý âm thanh, video và văn bản theo các "lượt siêu nhỏ" 200 ms liên tục, nghĩa là nó cảm nhận và phản hồi đồng thời thay vì chờ người nói dứt lời.
Trong bài viết này, tôi sẽ trình bày TML-Interaction-Small là gì, điểm qua các đặc trưng kiến trúc chính, so sánh trực tiếp với GPT-Realtime-2, và xem xét chi tiết các kết quả benchmark.
Mô hình Tương tác là gì?
Thinking Machines Lab mô tả mô hình tương tác là một hệ thống trong đó tính tương tác là một phần của chính mô hình, không phải được triển khai bằng một lớp bọc bên ngoài. Nguyên tắc cốt lõi là tính phản hồi và trí thông minh phải được huấn luyện cùng nhau ngay từ đầu, trên các luồng âm thanh và video liên tục, thay vì gắn thêm vào một mô hình dựa trên văn bản sau này.
Hầu hết các hệ thống AI giọng nói thời gian thực hiện nay ghép nối các thành phần phát hiện hoạt động giọng nói, bộ mã hóa riêng và các lớp quản lý hội thoại để mô phỏng tính phản hồi. Thinking Machines Lab cho rằng cách tiếp cận này sẽ luôn tụt hậu so với các mô hình xử lý tương tác một cách nguyên bản vì các ranh giới lượt nhân tạo hạn chế khả năng của mô hình không tương tác.
Thay vì tuần tự tiêu thụ đầu vào của người dùng rồi tạo ra một phản hồi hoàn chỉnh, các mô hình tương tác của phòng thí nghiệm này được thiết kế gần với cách cảm nhận của con người hơn. Chúng coi cả token đầu vào và đầu ra là các luồng, và cả hai được đan xen trong mỗi lượt siêu nhỏ dài 200 mili giây.
Đến lượt mình, một mô hình tương tác cảm nhận và phản hồi cùng lúc, xử lý đầu vào và đầu ra song song thay vì chờ người nói kết thúc. Điều này mở ra một vài khả năng hay ho:
- Vừa nói vừa lắng nghe
- Phản ứng với tín hiệu thị giác mà không cần được nhắc
- Theo dõi thời gian trôi qua trực tiếp
Đây đều là những điều mà các mô hình theo lượt với lớp bọc bên ngoài không thể tái tạo, bất kể chúng có bao nhiêu năng lực suy luận.
TML-Interaction-Small là gì?
TML-Interaction-Small là bản phát hành mô hình công khai đầu tiên của Thinking Machines Lab và là hiện thực hóa đầu tiên của kiến trúc mô hình tương tác của họ.
Đây là một mô hình Mixture-of-Experts với 276B tham số và 12B tham số hoạt động, được huấn luyện từ đầu trên các luồng âm thanh và video liên tục theo thiết kế lượt siêu nhỏ đa luồng như tôi đã mô tả, trong đó đầu vào và đầu ra được xử lý theo từng khối 200 ms.

Sự kết hợp của hai mô hình với ngữ cảnh dùng chung mang lại cả tính phản hồi lẫn trí thông minh. Người dùng nhận câu trả lời từ mô hình tương tác theo thời gian thực, trong khi việc lập kế hoạch, sử dụng công cụ và suy luận sâu được giao cho mô hình nền, chạy bất đồng bộ.
Sau đó, mô hình tương tác sẽ tích hợp các kết quả nền vào cuộc hội thoại ngay khi chúng sẵn sàng, mà không bị rớt khỏi mạch trò chuyện.
Tính năng của TML-Interaction-Small
Trong khi các mô hình AI giọng nói hiện tại trò chuyện theo lượt (bạn nói, chúng phản hồi), TML-Interaction-Small hoạt động giống một người đối thoại hơn. Dưới đây là bốn năng lực tạo nên sự khác biệt.
Vừa nói vừa nghe cùng lúc
TML-Interaction-Small có thể tạo lời nói khi người dùng vẫn đang nói. Điều này giúp dịch song song trở nên khả thi: bạn nói bằng một ngôn ngữ, và mô hình bắt đầu dịch trước khi bạn kết thúc câu. Nó cũng có nghĩa là mô hình có thể ngắt lời giữa chừng khi phát hiện lỗi, hoặc đưa ra tín hiệu bằng lời ("hiểu rồi", "tiếp đi") trong lúc bạn vẫn đang giải thích.
Tính năng này cũng hữu ích cho các phản hồi thời gian thực được tùy chỉnh mỗi khi xảy ra một sự kiện được nhắc cụ thể. Chẳng hạn, một đoạn clip trong ghi chú phát hành cho thấy mô hình chuyển đổi số tiền EUR và đọc ra số tiền USD tương ứng bất cứ khi nào người dùng nhắc đến một khoản thanh toán.
Quan sát và phản ứng với video mà không cần được yêu cầu
TML-Interaction-Small xử lý video song song với âm thanh và có thể chủ động bắt đầu nói dựa trên những gì nó nhìn thấy, không cần lời nhắc bằng lời.
Nếu bạn đang chống đẩy trước camera, nó có thể đếm số lần thành tiếng theo thời gian thực. Nếu một vật thể liên quan xuất hiện trong luồng video, nó có thể gọi tên đúng thời điểm vật thể trở nên nhìn thấy được. Tuy nhiên, đây vẫn là một tính năng cần cải thiện, thể hiện qua điểm RepCount-A nội bộ, trong đó chỉ một phần ba (33,4%) trường hợp nằm trong sai số một lần so với dữ liệu gốc.
Một đoạn clip trong bản phát hành (theo tôi thì hơi kỳ kỳ) minh họa điều này: Khi được yêu cầu chú ý đến tư thế của người dùng, mô hình lập tức phát hiện dáng ngồi gù trước laptop và nhắc cô ấy chỉnh lại.
Các API thương mại thời gian thực hiện nay chỉ hỗ trợ âm thanh. Chúng phản hồi theo lượt nói nhưng không có cách nào để chủ động phản ứng với thay đổi thị giác. Đây là khả năng hiện chưa tồn tại trong GPT-Realtime-2 hay Gemini Live.
Xử lý ngắt lời và tự sửa một cách tự nhiên
Nếu bạn bắt đầu một câu, đổi ý và tự sửa giữa chừng, TML-Interaction-Small theo dõi phần chỉnh sửa và phản hồi theo điều bạn thực sự muốn nói. Nó xử lý backchannel (bạn nói "ừ hử" hay "đúng rồi" khi nó đang nói) và phân biệt giữa việc ai đó đang nói với nó hay nói với người khác trong phòng.
Đây là những tình huống mà các mô hình theo lượt thường gặp trục trặc. Chúng hoặc dừng nói khi không nên, hoặc phản hồi sai phần nội dung. Sẽ thú vị nếu xem TML-Interaction-Small xử lý tốt trong các tình huống hằng ngày như trong các video demo đã tuyển chọn hay không.
Chạy tác vụ phức tạp ở nền nhưng vẫn hiện diện trong hội thoại
Mô hình nền giúp mô hình tương tác không chỉ nhanh mà còn thông minh. Bạn có thể tiếp tục đặt câu hỏi nối tiếp hoặc đổi chủ đề trong khi tác vụ nền đang chạy. Khi có kết quả, mô hình sẽ lồng chúng trở lại cuộc hội thoại vào một thời điểm tự nhiên thay vì ngắt quãng đột ngột.
Điều này có nghĩa là bạn vừa có phản hồi hội thoại nhanh, vừa có khả năng xử lý các tác vụ nhiều bước vốn thường khiến mô hình im lặng vài giây. Trong một clip demo đố vui, điều này hoạt động khá tốt: Ba người dùng đặt câu hỏi kiến thức nhanh dồn dập, và mô hình phần lớn theo kịp tốc độ của họ.
Benchmark của TML-Interaction-Small
Thinking Machines báo cáo kết quả ở hai danh mục: benchmark dạng streaming đo lường tính tương tác, và benchmark theo lượt đo lường trí thông minh. Kết quả mạnh nhất của mô hình là ở phía streaming, nơi các lựa chọn kiến trúc của nó được kiểm thử trực tiếp nhất.
Tính tương tác
FD-bench v1.5 cung cấp cho mô hình âm thanh thu sẵn và đo lường hành vi của nó qua bốn kịch bản:
- Ngắt lời người dùng
- Backchannel của người dùng
- Nói chuyện với người khác
- Tiếng nói nền
TML-Interaction-Small đạt 77,8, so với 54,3 của Gemini-3.1-flash-live-preview ở thiết lập tối thiểu và 46,8 của GPT-Realtime-2.0 ở thiết lập tối thiểu. Ngay cả GPT-Realtime-2.0 ở mức suy luận cao nhất (xhigh) cũng chỉ đạt 47,8.
Đây là benchmark đo lường trực tiếp nhất mục tiêu mà Thinking Machines đang hướng tới. Khoảng cách 30 điểm so với đối thủ gần nhất không phải là một khác biệt nhỏ. Câu hỏi là liệu FD-bench v1.5 có bao quát đầy đủ phổ tính tương tác quan trọng trong thực tế hay không, điều mà chính Thinking Machines cũng thừa nhận vẫn là một câu hỏi nghiên cứu mở.
Độ trễ giao lượt
TML-Interaction-Small đạt độ trễ giao lượt 0,40 giây trong FD-bench v1, nhanh nhất trong các mô hình được so sánh. Gemini-3.1-flash-live-preview đứng gần nhất với 0,57 giây. Ngay cả ở thiết lập tối thiểu, GPT-Realtime-2.0 mất khoảng gấp ba lần (1,18 giây); ở mức xhigh, GPT-Realtime-2.0 đạt 1,63 giây.
Độ trễ rất quan trọng với tương tác giọng nói theo cách mà nó không quá quan trọng với văn bản. Khoảng trễ 1,2 giây giữa lúc người dùng dừng nói và lúc mô hình bắt đầu phản hồi không chỉ nhận thấy rõ mà còn gây gián đoạn. Kết quả 0,40 giây đưa TML-Interaction-Small tiến gần hơn tới thời gian phản hồi hội thoại của con người.
Trí thông minh và khả năng làm theo hướng dẫn
Audio MultiChallenge đo lường trí thông minh và khả năng làm theo hướng dẫn trong âm thanh. TML-Interaction-Small đạt 43,4%, cao hơn GPT-Realtime-1.5 (34,7%) và Gemini-3.1-flash-live-preview (26,8%), nhưng thấp hơn GPT-Realtime-2.0 ở mức xhigh (48,5%). Đây là benchmark nơi thấy rõ sự đánh đổi giữa trí thông minh và tính tương tác.
Khoảng cách giữa TML-Interaction-Small và GPT-Realtime-2.0 ở mức xhigh là 5,1 điểm phần trăm. Đó là đáng kể nhưng không quá lớn, và đi kèm chi phí độ trễ đáng kể ở phía GPT-Realtime-2.0 (1,63 giây so với 0,40 giây). Đánh đổi đó có đáng hay không phụ thuộc vào ứng dụng.
Chất lượng phản hồi và sử dụng công cụ
FD-bench v3 đo lường chất lượng phản hồi và độ chính xác gọi công cụ trong các kịch bản âm thanh+kết hợp công cụ. TML-Interaction-Small đạt 82,8% chất lượng phản hồi và 68,0% pass@1 khi bật tác nhân nền, so với 80,0% / 52,0% của GPT-Realtime-2.0 ở thiết lập tối thiểu và 81,0% / 58,0% ở mức xhigh.
Khoảng cách pass@1 (68,0% so với 58,0%) là con số ý nghĩa nhất ở đây, vì nó đo lường liệu mô hình có thực sự hoàn thành đúng các tác vụ phụ thuộc công cụ hay không. Có vẻ kiến trúc kép tách biệt lời gọi công cụ khỏi tương tác với người dùng mang lại hiệu quả.
Benchmark tương tác mới: TimeSpeak, CueSpeak và chủ động theo thị giác
Thinking Machines tạo hai benchmark nội bộ và điều chỉnh ba benchmark ít phổ biến hơn để đo trực tiếp các khả năng tương tác. Chúng đáng để xem xét kỹ vì không có mô hình cạnh tranh nào đạt kết quả đáng kể ở bất kỳ bài nào trong số này.
- TimeSpeak (khởi tạo lời nói theo thời điểm): TML-Interaction-Small đạt 64,7% macro-accuracy.
- CueSpeak (khởi tạo lời nói theo tín hiệu lời): TML-Interaction-Small đạt 81,7% macro-accuracy.
- RepCount-A (đếm hành động theo thị giác): TML-Interaction-Small đạt 33,4% độ chính xác sai lệch một đơn vị.
- ProactiveVideoQA (khởi tạo lời nói theo tín hiệu thị giác): TML-Interaction-Small đạt 31,5 PAUC (mốc không phản hồi = 25,0%).
- Charades temporal localization (định thời hành động theo thị giác): TML-Interaction-Small đạt 30,4 mIoU.
Ở hầu hết các benchmark mới này, GPT realtime-2.0 hoàn toàn thất bại, với kết quả gần bằng không, hoặc thậm chí bằng không (ở benchmark Charades, yêu cầu mô hình nói "bắt đầu" và "dừng" đúng thời điểm trong video).
Thật khó để tôi khẳng định mức độ ý nghĩa của các kết quả này, vì các benchmark đó còn mới và chưa được kiểm chứng độc lập, nhưng chúng phù hợp với bức tranh chung về khác biệt kiến trúc và kết quả benchmark tương ứng.
Giá và khả dụng của TML-Interaction-Small
TML-Interaction-Small hiện trong giai đoạn xem trước nghiên cứu giới hạn, và chưa công bố chi tiết giá. Thinking Machines dự định mở rộng quyền truy cập rộng hơn vào cuối năm 2026. Các nhà nghiên cứu và nhà phát triển quan tâm có thể liên hệ đội ngũ tại interaction@thinkingmachines.ai để yêu cầu truy cập.
Để so sánh, GPT-Realtime-2 có giá $32 cho mỗi triệu token âm thanh đầu vào và $64 cho mỗi triệu token âm thanh đầu ra, như chúng tôi đã đề cập trong tổng quan về GPT-Realtime-2. Giá của TML-Interaction-Small có thể sẽ được công bố cùng với đợt phát hành rộng hơn.
Như bạn có thể thấy, mô hình có hậu tố "-Small", và bạn đoán đúng: Thinking Machines sẽ tiếp tục với các mô hình lớn hơn. Chúng hiện còn quá chậm để phục vụ, nhưng dự kiến phát hành vào cuối năm 2026.
TML-Interaction-Small so với GPT-Realtime-2
Khoảng cách thú vị hơn giữa hai mô hình nằm ở các benchmark về tính tương tác. Trên FD-bench v1.5, đo lường hành vi qua ngắt lời, backchannel, nói chuyện với người khác và tiếng nền, TML-Interaction-Small đạt 77,8. GPT-Realtime-2.0 ở thiết lập tối thiểu đạt 46,8, và ở mức suy luận cao nhất (xhigh) đạt 47,8. Đó là khoảng cách 30 điểm trên benchmark đo lường trực tiếp nhất mục tiêu tối ưu của Thinking Machines.
Có sự đánh đổi về trí thông minh, nhưng khoảng cách này nhỏ hơn nhiều so với tính tương tác. GPT-Realtime-2.0 ở mức xhigh đạt 48,5% trên Audio MultiChallenge so với 43,4% của TML-Interaction-Small. Trên BigBench Audio, GPT-Realtime-2.0 ở mức cao đạt 96,6% so với 75,7% của TML-Interaction-Small (dù TML-Interaction-Small đạt 96,5% khi bật tác nhân nền).
Bức tranh chung là TML-Interaction-Small dẫn đầu về độ phản hồi và tính tương tác, trong khi GPT-Realtime-2.0 ở các mức suy luận cao dẫn đầu ở các benchmark trí thông minh thuần túy.
| Benchmark | TML-Interaction-Small | GPT-Realtime-2.0 (tối thiểu) | GPT-Realtime-2.0 (xhigh) | Gemini-3.1-flash-live (tối thiểu) |
|---|---|---|---|---|
| FD-bench v1 độ trễ giao lượt (s) | 0.40 | 1.18 | 1.63 | 0.57 |
| FD-bench v1.5 trung bình | 77.8 | 46.8 | 47.8 | 54.3 |
| FD-bench v3 chất lượng phản hồi (%) | 82.8* | 80.0 | 81.0 | 68.5 |
| Audio MultiChallenge APR (%) | 43.4 | 37.6 | 48.5 | 26.8 |
| Độ chính xác BigBench Audio (%) | 75.7 / 96.5* | 71.8 | 96.6 | 71.3 |
| Độ chính xác IFEval (VoiceBench) (%) | 82.1 | 81.7 | 83.2 | 67.6 |
| Độ chính xác văn bản IFEval (%) | 89.7 | 89.6 | 95.2 | 85.8 |
* Khi bật tác nhân nền.
Để xem dòng mô hình âm thanh của OpenAI hoạt động ra sao, hãy xem hướng dẫn API GPT-Realtime-2 của chúng tôi.
Những suy nghĩ cuối
TML-Interaction-Small trông đầy hứa hẹn. Nếu đáp ứng được những tuyên bố trong ghi chú phát hành, mô hình mới mang lại tính tương tác cải thiện đáng kể với độ trễ thấp, mà không phải đánh đổi chất lượng phản hồi hay năng lực suy luận. Khả năng đồng thời nói, lắng nghe và phản hồi tín hiệu thị giác hiện là độc nhất và mở ra nhiều khả năng. Tôi tò mò muốn biết mức giá sẽ như thế nào khi mô hình được phát hành công khai.
Khoảng cách về trí thông minh so với GPT-Realtime-2 là có thật nhưng hẹp hơn khoảng cách về tính tương tác. Với các ứng dụng cần cuộc trò chuyện tự nhiên, khác biệt về độ trễ quan trọng hơn khoảng cách về trí thông minh. Với các ứng dụng ưu tiên độ chính xác ở các tác vụ suy luận khó, GPT-Realtime-2.0 ở các mức suy luận cao vẫn dẫn trước.
Nếu bạn muốn nhanh chóng nắm bắt bức tranh rộng hơn về các mô hình AI và cách làm việc hiệu quả với chúng, tôi khuyến nghị bắt đầu với lộ trình kỹ năng AI Fundamentals của chúng tôi.

Tom là một nhà khoa học dữ liệu và giảng viên kỹ thuật. Anh viết và quản lý các bài hướng dẫn và bài blog về khoa học dữ liệu của DataCamp. Trước đây, Tom làm việc trong lĩnh vực khoa học dữ liệu tại Deutsche Telekom.