Tracks
สัปดาห์ที่แล้ว GPT-Realtime-2 ของ OpenAI ยกระดับมาตรฐานด้านเสียงของ AI ด้วยเหตุผลระดับ GPT-5 และหน้าต่างบริบท 128K ตอนนี้ Thinking Machines Lab ของ Mira Murati กำลังเสนอแนวทางที่ต่างออกไปว่า ความตอบสนองและความฉลาดควรถูกฝึกฝังอยู่ในโมเดลเดียวตั้งแต่ต้น ไม่ใช่ประกอบเข้าด้วยกันภายหลังด้วยฮาร์เนสตรวจจับกิจกรรมเสียงและคอมโพเนนต์จัดการบทสนทนา
ห้องแล็บเรียกโมเดลชนิดใหม่นี้ว่า "โมเดลปฏิสัมพันธ์"
งานวิจัยตัวอย่างของพวกเขา TML-Interaction-Small คือผลลัพธ์แรกจากแนวทางนี้ เป็นโมเดล Mixture-of-Experts ที่มีพารามิเตอร์ 276B โดยมีพารามิเตอร์ทำงานจริง 12B ประมวลผลเสียง วิดีโอ และข้อความเป็นช่วงสั้น ๆ ต่อเนื่อง 200 มิลลิวินาที ทำให้รับรู้และตอบสนองไปพร้อมกัน แทนการรอให้ผู้พูดพูดจบ
ในบทความนี้ ฉันจะอธิบายว่า TML-Interaction-Small คืออะไร เดินผ่านคุณสมบัติด้านสถาปัตยกรรมหลัก ๆ เปรียบเทียบโดยตรงกับ GPT-Realtime-2 และดูผลลัพธ์การทดสอบเชิงเปรียบเทียบอย่างละเอียด
โมเดลปฏิสัมพันธ์คืออะไร?
Thinking Machines Lab อธิบายโมเดลปฏิสัมพันธ์ว่าเป็นระบบที่การโต้ตอบถูกฝังอยู่ในตัวโมเดลเอง ไม่ได้ทำผ่านฮาร์เนสภายนอก หลักการแกนกลางคือควรฝึกความตอบสนองและความฉลาดร่วมกันตั้งแต่ต้น บนสตรีมเสียงและวิดีโอต่อเนื่อง แทนที่จะประกบเข้ากับโมเดลที่เน้นข้อความภายหลัง
ระบบเสียงเรียลไทม์ส่วนใหญ่ในปัจจุบันมักเย็บรวมคอมโพเนนต์ตรวจจับกิจกรรมเสียง ตัวเข้ารหัสแยกต่างหาก และเลเยอร์จัดการบทสนทนาเพื่อจำลองความตอบสนอง Thinking Machines Lab ให้เหตุผลว่าวิธีนี้จะล้าหลังโมเดลที่รองรับการโต้ตอบโดยกำเนิดเสมอ เพราะมีขอบเขตของรอบการพูดแบบประดิษฐ์ที่จำกัดความสามารถของโมเดลที่ไม่โต้ตอบ
แทนที่จะรับอินพุตของผู้ใช้ตามลำดับแล้วค่อยสร้างคำตอบจนจบ โมเดลปฏิสัมพันธ์ของแล็บถูกออกแบบให้ใกล้เคียงการรับรู้ของมนุษย์ โดยมองทั้งโทเค็นอินพุตและเอาต์พุตเป็นสตรีม และทั้งสองจะถูกสลับสอดในแต่ละไมโครเทิร์นความยาว 200 มิลลิวินาที
ผลก็คือ โมเดลปฏิสัมพันธ์จะรับรู้และตอบสนองพร้อมกัน ประมวลผลอินพุตและเอาต์พุตแบบขนาน โดยไม่ต้องรอให้ผู้พูดพูดจบ ซึ่งเอื้อให้ทำสิ่งที่น่าสนใจได้หลายอย่าง:
- พูดไปพร้อมกับฟัง
- ตอบสนองต่อสัญญาณจากภาพโดยไม่ต้องมีคำสั่ง
- ติดตามเวลาที่ล่วงไปได้โดยตรง
ทั้งหมดนี้เป็นสิ่งที่โมเดลแบบผลัดกันพูดที่พึ่งพาฮาร์เนสภายนอกทำซ้ำไม่ได้ ต่อให้มีความสามารถด้านเหตุผลมากเพียงใดก็ตาม
TML-Interaction-Small คืออะไร?
TML-Interaction-Small เป็นการปล่อยโมเดลสู่สาธารณะครั้งแรกของ Thinking Machines Lab และเป็นการนำสถาปัตยกรรมโมเดลปฏิสัมพันธ์มาใช้จริงครั้งแรก
เป็นโมเดล Mixture-of-Experts ขนาด 276B พารามิเตอร์ โดยมีพารามิเตอร์ทำงานจริง 12B ฝึกจากศูนย์บนสตรีมเสียงและวิดีโอต่อเนื่อง โดยใช้ดีไซน์ไมโครเทิร์นหลายสตรีมตามที่อธิบายไปก่อนหน้า ที่ประมวลผลอินพุตและเอาต์พุตเป็นช่วงละ 200 มิลลิวินาที

การผสมผสานของสองโมเดลที่แชร์บริบทเดียวกันช่วยให้ได้ทั้งความตอบสนองและความฉลาด ผู้ใช้จะได้รับคำตอบจากโมเดลปฏิสัมพันธ์แบบเรียลไทม์ ขณะที่การวางแผน การใช้เครื่องมือ และการให้เหตุผลเชิงลึกจะถูกมอบหมายให้โมเดลแบ็กกราวด์ที่ทำงานแบบอะซิงโครนัส
จากนั้นโมเดลปฏิสัมพันธ์จะผสานผลลัพธ์จากแบ็กกราวด์เข้ากับบทสนทนาเมื่อมาถึง โดยไม่หลุดจากบริบทของการสนทนา
คุณสมบัติของ TML-Interaction-Small
ขณะที่โมเดลเสียงส่วนใหญ่ทำงานแบบผลัดกันพูด (คุณพูด แล้วมันตอบ) TML-Interaction-Small ทำงานคล้ายคู่สนทนามนุษย์มากกว่า ต่อไปนี้คือสี่ความสามารถที่ทำให้โดดเด่น
พูดและฟังได้พร้อมกัน
TML-Interaction-Small สามารถสร้างเสียงพูดได้ในขณะที่ผู้ใช้ยังพูดอยู่ ทำให้การแปลพร้อมกันเป็นไปได้: คุณพูดด้วยภาษาใดภาษาหนึ่ง และโมเดลจะเริ่มแปลก่อนที่คุณจะพูดจบประโยค นอกจากนี้ยังหมายความว่าโมเดลสามารถแทรกกลางประโยคเมื่อจับข้อผิดพลาดได้ หรือให้สัญญาณด้วยเสียง ("รับทราบ" "พูดต่อได้") ระหว่างที่คุณกำลังอธิบาย
ประโยชน์นี้ยังใช้กับการตอบสนองแบบเรียลไทม์ที่ปรับแต่งได้เมื่อเกิดเหตุการณ์ตามที่กำหนด ตัวอย่างหนึ่งในบันทึกการปล่อยแสดงให้เห็นว่า โมเดลจะแปลงจำนวนเงิน EUR และบอกจำนวนเงิน USD ที่สอดคล้องกันทุกครั้งที่ผู้ใช้เอ่ยถึงการชำระเงิน
มองเห็นและตอบสนองต่อวิดีโอได้โดยไม่ต้องถูกขอ
TML-Interaction-Small ประมวลผลวิดีโอควบคู่กับเสียง และสามารถเริ่มพูดตามสิ่งที่เห็นได้โดยไม่ต้องมีพรอมต์ด้วยวาจา
หากคุณกำลังวิดพื้นอยู่หน้ากล้อง มันจะนับจำนวนครั้งออกเสียงตามที่เกิดขึ้น หากมีวัตถุที่เกี่ยวข้องปรากฏในสตรีมวิดีโอ ก็สามารถเรียกออกมาได้ทันทีที่มันมองเห็น อย่างไรก็ตาม คุณสมบัตินี้ยังพัฒนาได้อีก ดังจะเห็นจากคะแนน RepCount-A ภายใน ซึ่งมีเพียงหนึ่งในสาม (33.4%) ที่คลาดเคลื่อนจากความจริงไม่เกินหนึ่งครั้ง
คลิปหนึ่งในบันทึกการปล่อย (ซึ่งส่วนตัวฉันว่าดูแปลกนิดหน่อย) สาธิตสิ่งนี้: เมื่อถูกขอให้ใส่ใจกับท่าทางของผู้ใช้ โมเดลตรวจจับการนั่งหลังค่อมที่หน้าคอมพิวเตอร์ได้ทันทีและเตือนให้ปรับท่า
API เชิงพาณิชย์แบบเรียลไทม์ที่มีอยู่ในปัจจุบันรองรับเฉพาะเสียง พวกมันตอบสนองต่อรอบการพูด แต่ไม่สามารถตอบสนองเชิงรุกต่อการเปลี่ยนแปลงทางภาพได้ ความสามารถนี้ยังไม่มีใน GPT-Realtime-2 หรือ Gemini Live ในตอนนี้
จัดการการขัดจังหวะและการแก้คำพูดของตัวเองได้อย่างเป็นธรรมชาติ
หากคุณเริ่มพูดประโยคหนึ่ง เปลี่ยนใจ แล้วแก้คำพูดกลางทาง TML-Interaction-Small จะติดตามการแก้ไขนั้นและตอบตามสิ่งที่คุณตั้งใจจริง ๆ มันจัดการการแทรกเสียงยืนยันสั้น ๆ (คุณพูดว่า "อืม" หรือ "ใช่") ระหว่างที่มันพูด และแยกแยะได้ว่ามีคนกำลังคุยกับมันหรือคุยกับคนอื่นในห้อง
นี่เป็นสถานการณ์ที่โมเดลแบบผลัดกันพูดมักพังบ่อย ๆ พวกมันหยุดพูดตอนที่ไม่ควรหยุด หรือไปตอบส่วนที่ผิดของสิ่งที่ถูกพูด จะน่าสนใจว่ากรณีใช้งานในชีวิตประจำวัน TML-Interaction-Small จะรับมือได้ดีเท่าคลิปเดโมที่คัดสรรหรือไม่
รันงานซับซ้อนเบื้องหลังพร้อมกับอยู่ในบทสนทนา
โมเดลแบ็กกราวด์ทำให้โมเดลปฏิสัมพันธ์ไม่เพียงเร็ว แต่ยังฉลาดด้วย คุณสามารถถามต่อเนื่องหรือเปลี่ยนหัวข้อได้ขณะงานเบื้องหลังยังทำอยู่ เมื่อผลลัพธ์พร้อม โมเดลจะสอดแทรกกลับเข้าบทสนทนาในจังหวะที่เป็นธรรมชาติ แทนที่จะขัดจังหวะด้วยการสลับบริบทกะทันหัน
นั่นหมายความว่าคุณได้ทั้งคำตอบสนทนาที่รวดเร็วและความสามารถในการจัดการงานหลายขั้นตอนที่ปกติจะทำให้โมเดลเงียบไปหลายวินาที ในคลิปเดโมแบบควิซ สิ่งนี้ทำงานได้ค่อนข้างดี: ผู้ใช้สามคนยิงคำถามเกร็ดความรู้ด้วยความเร็วสูง และโมเดลสามารถตามทันได้เกือบตลอด
ผลทดสอบของ TML-Interaction-Small
Thinking Machines รายงานผลในสองหมวด: การทดสอบแบบสตรีมมิงที่วัดความเป็นปฏิสัมพันธ์ และการทดสอบแบบผลัดกันพูดที่วัดความฉลาด ผลที่เด่นที่สุดของโมเดลอยู่ฝั่งสตรีมมิง ซึ่งเป็นจุดที่ตัวเลือกทางสถาปัตยกรรมถูกทดสอบโดยตรงที่สุด
ความเป็นปฏิสัมพันธ์
FD-bench v1.5 ให้อินพุตเป็นเสียงที่บันทึกล่วงหน้าและวัดพฤติกรรมของโมเดลในสี่สถานการณ์:
- ผู้ใช้ขัดจังหวะ
- ผู้ใช้แทรกเสียงยืนยันสั้น ๆ
- คุยกับผู้อื่น
- เสียงพูดพื้นหลัง
TML-Interaction-Small ทำได้ 77.8 เทียบกับ 54.3 สำหรับ Gemini-3.1-flash-live-preview ที่ตั้งค่าต่ำสุด และ 46.8 สำหรับ GPT-Realtime-2.0 ที่ตั้งค่าต่ำสุด แม้แต่ GPT-Realtime-2.0 ที่ตั้งค่าการให้เหตุผลสูงสุด (xhigh) ก็ได้เพียง 47.8
นี่คือการทดสอบที่วัดสิ่งที่ Thinking Machines มุ่งสร้างได้โดยตรงที่สุด ช่องว่าง 30 คะแนนเหนือคู่แข่งที่ใกล้ที่สุดไม่ใช่ความต่างเล็กน้อย คำถามคือ FD-bench v1.5 ครอบคลุมมิติของความเป็นปฏิสัมพันธ์ที่สำคัญในทางปฏิบัติครบถ้วนหรือไม่ ซึ่งทาง Thinking Machines เองก็ยอมรับว่ายังเป็นคำถามวิจัยที่เปิดกว้าง
เวลาแฝงในการผลัดกันพูด
TML-Interaction-Small ทำเวลาแฝงในการผลัดกันพูดได้ 0.40 วินาทีใน FD-bench v1 ซึ่งเร็วที่สุดในบรรดาโมเดลที่เทียบกัน Gemini-3.1-flash-live-preview ตามมาที่ 0.57 วินาที แม้ที่ตั้งค่าต่ำสุด GPT-Realtime-2.0 ก็ใช้เวลาประมาณสามเท่า (1.18 วินาที); ที่ระดับ xhigh ใช้ 1.63 วินาที
เวลาแฝงสำคัญต่อปฏิสัมพันธ์ด้วยเสียงมากกว่าข้อความ ช่องว่าง 1.2 วินาทีระหว่างจบคำพูดของผู้ใช้กับจังหวะที่โมเดลเริ่มตอบ ไม่เพียงรู้สึกได้แต่ยังรบกวนจังหวะการสนทนาด้วย ผล 0.40 วินาทีทำให้ TML-Interaction-Small เข้าใกล้เวลาตอบสนองของมนุษย์มากขึ้น
ความฉลาดและการทำตามคำสั่ง
Audio MultiChallenge วัดความฉลาดและการทำตามคำสั่งในเสียง TML-Interaction-Small ได้ 43.4% สูงกว่า GPT-Realtime-1.5 (34.7%) และ Gemini-3.1-flash-live-preview (26.8%) แต่ต่ำกว่า GPT-Realtime-2.0 ที่ xhigh (48.5%) นี่คือการทดสอบที่เห็นการแลกเปลี่ยนระหว่างความฉลาดกับความเป็นปฏิสัมพันธ์
ช่องว่างระหว่าง TML-Interaction-Small กับ GPT-Realtime-2.0 ที่ xhigh อยู่ที่ 5.1 จุด ถือว่ามีนัยสำคัญแต่ไม่ใหญ่ และมาพร้อมต้นทุนเวลาแฝงที่สูงกว่ามากในฝั่ง GPT-Realtime-2.0 (1.63 วินาที เทียบกับ 0.40 วินาที) ความคุ้มค่าของการแลกเปลี่ยนนี้ขึ้นกับแอปพลิเคชัน
คุณภาพการตอบและการใช้เครื่องมือ
FD-bench v3 วัดคุณภาพการตอบและความแม่นยำของการเรียกใช้เครื่องมือในสถานการณ์เสียงบวกเครื่องมือ TML-Interaction-Small ได้คุณภาพการตอบ 82.8% และ pass@1 ที่ 68.0% เมื่อเปิดใช้งานตัวแทนแบ็กกราวด์ เทียบกับ 80.0% / 52.0% สำหรับ GPT-Realtime-2.0 ที่ตั้งค่าต่ำสุด และ 81.0% / 58.0% ที่ xhigh
ช่องว่างของ pass@1 (68.0% เทียบกับ 58.0%) คือค่าที่มีความหมายที่สุดที่นี่ เพราะวัดว่าโมเดลทำงานที่พึ่งพาเครื่องมือได้ถูกต้องจริงหรือไม่ ดูเหมือนสถาปัตยกรรมคู่ที่แยกการเรียกเครื่องมือออกจากปฏิสัมพันธ์กับผู้ใช้จะได้ผลดี
การทดสอบความเป็นปฏิสัมพันธ์ใหม่: TimeSpeak, CueSpeak และความริเริ่มด้านภาพ
Thinking Machines สร้างเกณฑ์ภายในสองตัวและดัดแปลงอีกสามตัวที่ใช้น้อยกว่าเพื่อวัดความสามารถด้านปฏิสัมพันธ์โดยตรง สิ่งเหล่านี้ควรพิจารณาอย่างรอบคอบเพราะไม่มีโมเดลคู่แข่งใดทำผลงานได้อย่างมีนัยสำคัญเลย
- TimeSpeak (เริ่มพูดตามเวลา): TML-Interaction-Small ได้ความแม่นยำแบบมาโคร 64.7%
- CueSpeak (เริ่มพูดตามสัญญาณวาจา): TML-Interaction-Small ได้ความแม่นยำแบบมาโคร 81.7%
- RepCount-A (นับการกระทำจากภาพ): TML-Interaction-Small ได้ความแม่นยำคลาดเคลื่อนหนึ่งครั้ง 33.4%
- ProactiveVideoQA (เริ่มพูดตามสัญญาณจากภาพ): TML-Interaction-Small ได้ 31.5 PAUC (ฐานที่ไม่ตอบ = 25.0%)
- Charades temporal localization (จับเวลาการกระทำจากภาพ): TML-Interaction-Small ได้ 30.4 mIoU
ในการทดสอบใหม่ส่วนใหญ่เหล่านี้ GPT Realtime-2.0 ล้มเหลวโดยสิ้นเชิง ได้ผลลัพธ์ใกล้ศูนย์ หรือศูนย์ด้วยซ้ำ (บนชุด Charades ซึ่งต้องให้โมเดลพูดว่า "start" และ "stop" ในจังหวะที่ถูกต้องระหว่างวิดีโอ)
ยากที่ฉันจะบอกว่าผลเหล่านี้มีความหมายเพียงใด เพราะเกณฑ์เหล่านี้ยังใหม่และยังไม่ผ่านการยืนยันอิสระ แต่ก็สอดคล้องกับภาพรวมของความต่างด้านสถาปัตยกรรมและผลการทดสอบที่เทียบเคียงกัน
ราคาและการให้บริการของ TML-Interaction-Small
TML-Interaction-Small อยู่ในช่วงพรีวิวงานวิจัยแบบจำกัด และยังไม่ประกาศรายละเอียดราคา Thinking Machines วางแผนเปิดให้เข้าถึงกว้างขึ้นในช่วงปลายปี 2026 นักวิจัยและนักพัฒนาที่สนใจสามารถติดต่อทีมได้ที่ interaction@thinkingmachines.ai เพื่อขอเข้าถึง
เพื่อเปรียบเทียบ GPT-Realtime-2 มีราคา $32 ต่อโทเค็นอินพุตเสียงหนึ่งล้าน และ $64 ต่อโทเค็นเอาต์พุตเสียงหนึ่งล้าน ตามที่เราครอบคลุมไว้ใน ภาพรวม GPT-Realtime-2 ราคาของ TML-Interaction-Small น่าจะประกาศพร้อมการเปิดให้ใช้งานวงกว้าง
ตามที่อาจสังเกตได้ โมเดลมีคำต่อท้ายว่า "-Small" และคาดได้ว่า Thinking Machines จะตามมาด้วยโมเดลขนาดใหญ่กว่า ซึ่งตอนนี้ยังช้าเกินกว่าจะให้บริการ แต่มีแผนปล่อยช่วงปลายปี 2026
TML-Interaction-Small เทียบกับ GPT-Realtime-2
ช่องว่างที่น่าสนใจกว่าระหว่างสองโมเดลอยู่ที่เกณฑ์ความเป็นปฏิสัมพันธ์ บน FD-bench v1.5 ซึ่งวัดพฤติกรรมในสถานการณ์ผู้ใช้ขัดจังหวะ การแทรกเสียงยืนยัน คุยกับผู้อื่น และเสียงพื้นหลัง TML-Interaction-Small ได้ 77.8 ส่วน GPT-Realtime-2.0 ที่ตั้งค่าต่ำสุดได้ 46.8 และที่ระดับการให้เหตุผลสูงสุด (xhigh) ได้ 47.8 นั่นคือช่องว่าง 30 คะแนนบนเกณฑ์ที่วัดสิ่งที่ Thinking Machines โฟกัสโดยตรงที่สุด
มีการแลกเปลี่ยนด้านความฉลาด แต่ช่องว่างตรงนี้แคบกว่าด้านปฏิสัมพันธ์มาก GPT-Realtime-2.0 ที่ xhigh ได้ 48.5% บน Audio MultiChallenge เทียบกับ 43.4% ของ TML-Interaction-Small บน BigBench Audio GPT-Realtime-2.0 ที่ high ได้ 96.6% เทียบกับ 75.7% สำหรับ TML-Interaction-Small (แม้ว่า TML-Interaction-Small จะไปถึง 96.5% เมื่อเปิดตัวแทนแบ็กกราวด์)
ภาพรวมที่เห็นคือ TML-Interaction-Small นำหน้าด้านความตอบสนองและปฏิสัมพันธ์ ส่วน GPT-Realtime-2.0 ที่ตั้งค่าการให้เหตุผลสูงนำหน้าบนเกณฑ์ความฉลาดดิบ
| เกณฑ์ทดสอบ | TML-Interaction-Small | GPT-Realtime-2.0 (ต่ำสุด) | GPT-Realtime-2.0 (xhigh) | Gemini-3.1-flash-live (ต่ำสุด) |
|---|---|---|---|---|
| FD-bench v1 เวลาแฝงผลัดกันพูด (วินาที) | 0.40 | 1.18 | 1.63 | 0.57 |
| FD-bench v1.5 ค่าเฉลี่ย | 77.8 | 46.8 | 47.8 | 54.3 |
| FD-bench v3 คุณภาพการตอบ (%) | 82.8* | 80.0 | 81.0 | 68.5 |
| Audio MultiChallenge APR (%) | 43.4 | 37.6 | 48.5 | 26.8 |
| BigBench Audio ความถูกต้อง (%) | 75.7 / 96.5* | 71.8 | 96.6 | 71.3 |
| IFEval (VoiceBench) ความถูกต้อง (%) | 82.1 | 81.7 | 83.2 | 67.6 |
| IFEval ข้อความ ความถูกต้อง (%) | 89.7 | 89.6 | 95.2 | 85.8 |
* เปิดใช้งานตัวแทนแบ็กกราวด์
หากต้องการดูตระกูลโมเดลเสียงของ OpenAI ในการใช้งานจริง ลองดู บทเรียน API ของ GPT-Realtime-2
ข้อสรุป
TML-Interaction-Small ดูมีอนาคต หากทำได้ตามที่ระบุในบันทึกการปล่อย โมเดลใหม่นำความเป็นปฏิสัมพันธ์ที่ดีขึ้นอย่างมีนัยสำคัญพร้อมเวลาแฝงสั้น โดยไม่ลดทอนคุณภาพคำตอบหรือพลังการให้เหตุผล ความสามารถในการพูด ฟัง และตอบสนองต่อสัญญาณจากภาพได้พร้อมกันยังไม่มีใครเทียบ และเปิดโอกาสอีกมาก ฉันอยากรู้ว่าราคาจะออกมาอย่างไรเมื่อเปิดตัวสู่สาธารณะ
ช่องว่างด้านความฉลาดเมื่อเทียบกับ GPT-Realtime-2 มีอยู่จริง แต่แคบกว่าช่องว่างด้านปฏิสัมพันธ์ สำหรับแอปที่ต้องการให้การสนทนารู้สึกเป็นธรรมชาติ ความต่างของเวลาแฝงสำคัญกว่าช่องว่างด้านความฉลาด สำหรับแอปที่ให้ความสำคัญกับความแม่นยำบนงานให้เหตุผลยาก ๆ GPT-Realtime-2.0 ที่ตั้งค่าการให้เหตุผลสูงยังคงนำอยู่
หากต้องการทันต่อภูมิทัศน์ของโมเดล AI โดยรวมและวิธีใช้งานให้เกิดประสิทธิผล แนะนำให้เริ่มจาก เส้นทางทักษะ AI Fundamentals ของเรา
คำถามที่พบบ่อยเกี่ยวกับ TML-Interaction-Small
โมเดลปฏิสัมพันธ์คืออะไร?
โมเดลปฏิสัมพันธ์คือระบบเสียงของ AI ที่ฝังความสามารถในการโต้ตอบอยู่ในตัวโมเดลเอง แทนที่จะเพิ่มผ่านคอมโพเนนต์ภายนอกอย่างการตรวจจับกิจกรรมเสียงและการจัดการบทสนทนา มันประมวลผลอินพุตและเอาต์พุตพร้อมกัน จึงสามารถฟังและพูดได้ในเวลาเดียวกัน แทนการรอผลัดกันพูด
ใครอยู่เบื้องหลัง Thinking Machines Lab?
Thinking Machines Lab มี Mira Murati อดีต CTO ของ OpenAI เป็นผู้นำ TML-Interaction-Small เป็นการปล่อยโมเดลสู่สาธารณะครั้งแรกของแล็บ ซึ่งอธิบายว่าเป็นพรีวิวงานวิจัยของสถาปัตยกรรมโมเดลปฏิสัมพันธ์
TML-Interaction-Small เปรียบเทียบกับ GPT-Realtime-2 ของ OpenAI อย่างไร?
TML-Interaction-Small นำหน้าด้านปฏิสัมพันธ์ โดยได้ 77.8 บน FD-bench v1.5 เทียบกับ 47.8 สำหรับ GPT-Realtime-2 ที่ตั้งค่าสูงสุด และมีเวลาแฝงผลัดกันพูดที่เร็วกว่า 0.40 วินาที เทียบกับ 1.63 วินาที ส่วน GPT-Realtime-2 นำหน้าบนเกณฑ์ความฉลาดดิบอย่าง Audio MultiChallenge (48.5% เทียบกับ 43.4%)
TML-Interaction-Small ประมวลผลวิดีโอได้ไหม?
ได้ โมเดลประมวลผลวิดีโอควบคู่กับเสียงและสามารถตอบสนองต่อเหตุการณ์จากภาพโดยไม่ต้องมีพรอมต์ด้วยวาจาจากผู้ใช้ ตัวอย่างเช่น นับจำนวนครั้งของท่าออกกำลังกายหน้ากล้อง หรือเรียกชื่อวัตถุเมื่อปรากฏ ความริเริ่มด้านภาพนี้ยังไม่มีใน GPT-Realtime-2 หรือ Gemini Live