ข้ามไปยังเนื้อหาหลัก

โมเดลปฏิสัมพันธ์: จุดที่ TML-Interaction-Small ทำได้ดี

Thinking Machines Lab ของ Mira Murati สร้างโมเดลที่ฟังและพูดได้พร้อมกัน เราแยกฟีเจอร์และเปรียบเทียบกับ GPT-Realtime-2
อัปเดตแล้ว 13 พ.ค. 2569  · 10 นาที อ่าน

สัปดาห์ที่แล้ว GPT-Realtime-2 ของ OpenAI ยกระดับมาตรฐานด้านเสียงของ AI ด้วยเหตุผลระดับ GPT-5 และหน้าต่างบริบท 128K ตอนนี้ Thinking Machines Lab ของ Mira Murati กำลังเสนอแนวทางที่ต่างออกไปว่า ความตอบสนองและความฉลาดควรถูกฝึกฝังอยู่ในโมเดลเดียวตั้งแต่ต้น ไม่ใช่ประกอบเข้าด้วยกันภายหลังด้วยฮาร์เนสตรวจจับกิจกรรมเสียงและคอมโพเนนต์จัดการบทสนทนา

ห้องแล็บเรียกโมเดลชนิดใหม่นี้ว่า "โมเดลปฏิสัมพันธ์"

งานวิจัยตัวอย่างของพวกเขา TML-Interaction-Small คือผลลัพธ์แรกจากแนวทางนี้ เป็นโมเดล Mixture-of-Experts ที่มีพารามิเตอร์ 276B โดยมีพารามิเตอร์ทำงานจริง 12B ประมวลผลเสียง วิดีโอ และข้อความเป็นช่วงสั้น ๆ ต่อเนื่อง 200 มิลลิวินาที ทำให้รับรู้และตอบสนองไปพร้อมกัน แทนการรอให้ผู้พูดพูดจบ

ในบทความนี้ ฉันจะอธิบายว่า TML-Interaction-Small คืออะไร เดินผ่านคุณสมบัติด้านสถาปัตยกรรมหลัก ๆ เปรียบเทียบโดยตรงกับ GPT-Realtime-2 และดูผลลัพธ์การทดสอบเชิงเปรียบเทียบอย่างละเอียด

โมเดลปฏิสัมพันธ์คืออะไร?

Thinking Machines Lab อธิบายโมเดลปฏิสัมพันธ์ว่าเป็นระบบที่การโต้ตอบถูกฝังอยู่ในตัวโมเดลเอง ไม่ได้ทำผ่านฮาร์เนสภายนอก หลักการแกนกลางคือควรฝึกความตอบสนองและความฉลาดร่วมกันตั้งแต่ต้น บนสตรีมเสียงและวิดีโอต่อเนื่อง แทนที่จะประกบเข้ากับโมเดลที่เน้นข้อความภายหลัง

ระบบเสียงเรียลไทม์ส่วนใหญ่ในปัจจุบันมักเย็บรวมคอมโพเนนต์ตรวจจับกิจกรรมเสียง ตัวเข้ารหัสแยกต่างหาก และเลเยอร์จัดการบทสนทนาเพื่อจำลองความตอบสนอง Thinking Machines Lab ให้เหตุผลว่าวิธีนี้จะล้าหลังโมเดลที่รองรับการโต้ตอบโดยกำเนิดเสมอ เพราะมีขอบเขตของรอบการพูดแบบประดิษฐ์ที่จำกัดความสามารถของโมเดลที่ไม่โต้ตอบ

แทนที่จะรับอินพุตของผู้ใช้ตามลำดับแล้วค่อยสร้างคำตอบจนจบ โมเดลปฏิสัมพันธ์ของแล็บถูกออกแบบให้ใกล้เคียงการรับรู้ของมนุษย์ โดยมองทั้งโทเค็นอินพุตและเอาต์พุตเป็นสตรีม และทั้งสองจะถูกสลับสอดในแต่ละไมโครเทิร์นความยาว 200 มิลลิวินาที

ลำดับโทเค็นตามลำดับเทียบกับการรับรู้ของมนุษย์ผลก็คือ โมเดลปฏิสัมพันธ์จะรับรู้และตอบสนองพร้อมกัน ประมวลผลอินพุตและเอาต์พุตแบบขนาน โดยไม่ต้องรอให้ผู้พูดพูดจบ ซึ่งเอื้อให้ทำสิ่งที่น่าสนใจได้หลายอย่าง:

  • พูดไปพร้อมกับฟัง
  • ตอบสนองต่อสัญญาณจากภาพโดยไม่ต้องมีคำสั่ง
  • ติดตามเวลาที่ล่วงไปได้โดยตรง

ทั้งหมดนี้เป็นสิ่งที่โมเดลแบบผลัดกันพูดที่พึ่งพาฮาร์เนสภายนอกทำซ้ำไม่ได้ ต่อให้มีความสามารถด้านเหตุผลมากเพียงใดก็ตาม

TML-Interaction-Small คืออะไร?

TML-Interaction-Small เป็นการปล่อยโมเดลสู่สาธารณะครั้งแรกของ Thinking Machines Lab และเป็นการนำสถาปัตยกรรมโมเดลปฏิสัมพันธ์มาใช้จริงครั้งแรก

เป็นโมเดล Mixture-of-Experts ขนาด 276B พารามิเตอร์ โดยมีพารามิเตอร์ทำงานจริง 12B ฝึกจากศูนย์บนสตรีมเสียงและวิดีโอต่อเนื่อง โดยใช้ดีไซน์ไมโครเทิร์นหลายสตรีมตามที่อธิบายไปก่อนหน้า ที่ประมวลผลอินพุตและเอาต์พุตเป็นช่วงละ 200 มิลลิวินาที

การผสมผสานของสองโมเดลที่แชร์บริบทเดียวกันช่วยให้ได้ทั้งความตอบสนองและความฉลาด ผู้ใช้จะได้รับคำตอบจากโมเดลปฏิสัมพันธ์แบบเรียลไทม์ ขณะที่การวางแผน การใช้เครื่องมือ และการให้เหตุผลเชิงลึกจะถูกมอบหมายให้โมเดลแบ็กกราวด์ที่ทำงานแบบอะซิงโครนัส

จากนั้นโมเดลปฏิสัมพันธ์จะผสานผลลัพธ์จากแบ็กกราวด์เข้ากับบทสนทนาเมื่อมาถึง โดยไม่หลุดจากบริบทของการสนทนา

คุณสมบัติของ TML-Interaction-Small

ขณะที่โมเดลเสียงส่วนใหญ่ทำงานแบบผลัดกันพูด (คุณพูด แล้วมันตอบ) TML-Interaction-Small ทำงานคล้ายคู่สนทนามนุษย์มากกว่า ต่อไปนี้คือสี่ความสามารถที่ทำให้โดดเด่น

พูดและฟังได้พร้อมกัน

TML-Interaction-Small สามารถสร้างเสียงพูดได้ในขณะที่ผู้ใช้ยังพูดอยู่ ทำให้การแปลพร้อมกันเป็นไปได้: คุณพูดด้วยภาษาใดภาษาหนึ่ง และโมเดลจะเริ่มแปลก่อนที่คุณจะพูดจบประโยค นอกจากนี้ยังหมายความว่าโมเดลสามารถแทรกกลางประโยคเมื่อจับข้อผิดพลาดได้ หรือให้สัญญาณด้วยเสียง ("รับทราบ" "พูดต่อได้") ระหว่างที่คุณกำลังอธิบาย

ประโยชน์นี้ยังใช้กับการตอบสนองแบบเรียลไทม์ที่ปรับแต่งได้เมื่อเกิดเหตุการณ์ตามที่กำหนด ตัวอย่างหนึ่งในบันทึกการปล่อยแสดงให้เห็นว่า โมเดลจะแปลงจำนวนเงิน EUR และบอกจำนวนเงิน USD ที่สอดคล้องกันทุกครั้งที่ผู้ใช้เอ่ยถึงการชำระเงิน

มองเห็นและตอบสนองต่อวิดีโอได้โดยไม่ต้องถูกขอ

TML-Interaction-Small ประมวลผลวิดีโอควบคู่กับเสียง และสามารถเริ่มพูดตามสิ่งที่เห็นได้โดยไม่ต้องมีพรอมต์ด้วยวาจา

หากคุณกำลังวิดพื้นอยู่หน้ากล้อง มันจะนับจำนวนครั้งออกเสียงตามที่เกิดขึ้น หากมีวัตถุที่เกี่ยวข้องปรากฏในสตรีมวิดีโอ ก็สามารถเรียกออกมาได้ทันทีที่มันมองเห็น อย่างไรก็ตาม คุณสมบัตินี้ยังพัฒนาได้อีก ดังจะเห็นจากคะแนน RepCount-A ภายใน ซึ่งมีเพียงหนึ่งในสาม (33.4%) ที่คลาดเคลื่อนจากความจริงไม่เกินหนึ่งครั้ง

คลิปหนึ่งในบันทึกการปล่อย (ซึ่งส่วนตัวฉันว่าดูแปลกนิดหน่อย) สาธิตสิ่งนี้: เมื่อถูกขอให้ใส่ใจกับท่าทางของผู้ใช้ โมเดลตรวจจับการนั่งหลังค่อมที่หน้าคอมพิวเตอร์ได้ทันทีและเตือนให้ปรับท่า

API เชิงพาณิชย์แบบเรียลไทม์ที่มีอยู่ในปัจจุบันรองรับเฉพาะเสียง พวกมันตอบสนองต่อรอบการพูด แต่ไม่สามารถตอบสนองเชิงรุกต่อการเปลี่ยนแปลงทางภาพได้ ความสามารถนี้ยังไม่มีใน GPT-Realtime-2 หรือ Gemini Live ในตอนนี้

จัดการการขัดจังหวะและการแก้คำพูดของตัวเองได้อย่างเป็นธรรมชาติ

หากคุณเริ่มพูดประโยคหนึ่ง เปลี่ยนใจ แล้วแก้คำพูดกลางทาง TML-Interaction-Small จะติดตามการแก้ไขนั้นและตอบตามสิ่งที่คุณตั้งใจจริง ๆ มันจัดการการแทรกเสียงยืนยันสั้น ๆ (คุณพูดว่า "อืม" หรือ "ใช่") ระหว่างที่มันพูด และแยกแยะได้ว่ามีคนกำลังคุยกับมันหรือคุยกับคนอื่นในห้อง

นี่เป็นสถานการณ์ที่โมเดลแบบผลัดกันพูดมักพังบ่อย ๆ พวกมันหยุดพูดตอนที่ไม่ควรหยุด หรือไปตอบส่วนที่ผิดของสิ่งที่ถูกพูด จะน่าสนใจว่ากรณีใช้งานในชีวิตประจำวัน TML-Interaction-Small จะรับมือได้ดีเท่าคลิปเดโมที่คัดสรรหรือไม่

รันงานซับซ้อนเบื้องหลังพร้อมกับอยู่ในบทสนทนา

โมเดลแบ็กกราวด์ทำให้โมเดลปฏิสัมพันธ์ไม่เพียงเร็ว แต่ยังฉลาดด้วย คุณสามารถถามต่อเนื่องหรือเปลี่ยนหัวข้อได้ขณะงานเบื้องหลังยังทำอยู่ เมื่อผลลัพธ์พร้อม โมเดลจะสอดแทรกกลับเข้าบทสนทนาในจังหวะที่เป็นธรรมชาติ แทนที่จะขัดจังหวะด้วยการสลับบริบทกะทันหัน

นั่นหมายความว่าคุณได้ทั้งคำตอบสนทนาที่รวดเร็วและความสามารถในการจัดการงานหลายขั้นตอนที่ปกติจะทำให้โมเดลเงียบไปหลายวินาที ในคลิปเดโมแบบควิซ สิ่งนี้ทำงานได้ค่อนข้างดี: ผู้ใช้สามคนยิงคำถามเกร็ดความรู้ด้วยความเร็วสูง และโมเดลสามารถตามทันได้เกือบตลอด

ผลทดสอบของ TML-Interaction-Small

Thinking Machines รายงานผลในสองหมวด: การทดสอบแบบสตรีมมิงที่วัดความเป็นปฏิสัมพันธ์ และการทดสอบแบบผลัดกันพูดที่วัดความฉลาด ผลที่เด่นที่สุดของโมเดลอยู่ฝั่งสตรีมมิง ซึ่งเป็นจุดที่ตัวเลือกทางสถาปัตยกรรมถูกทดสอบโดยตรงที่สุด

ความเป็นปฏิสัมพันธ์

FD-bench v1.5 ให้อินพุตเป็นเสียงที่บันทึกล่วงหน้าและวัดพฤติกรรมของโมเดลในสี่สถานการณ์:

  • ผู้ใช้ขัดจังหวะ
  • ผู้ใช้แทรกเสียงยืนยันสั้น ๆ
  • คุยกับผู้อื่น
  • เสียงพูดพื้นหลัง

TML-Interaction-Small ทำได้ 77.8 เทียบกับ 54.3 สำหรับ Gemini-3.1-flash-live-preview ที่ตั้งค่าต่ำสุด และ 46.8 สำหรับ GPT-Realtime-2.0 ที่ตั้งค่าต่ำสุด แม้แต่ GPT-Realtime-2.0 ที่ตั้งค่าการให้เหตุผลสูงสุด (xhigh) ก็ได้เพียง 47.8

นี่คือการทดสอบที่วัดสิ่งที่ Thinking Machines มุ่งสร้างได้โดยตรงที่สุด ช่องว่าง 30 คะแนนเหนือคู่แข่งที่ใกล้ที่สุดไม่ใช่ความต่างเล็กน้อย คำถามคือ FD-bench v1.5 ครอบคลุมมิติของความเป็นปฏิสัมพันธ์ที่สำคัญในทางปฏิบัติครบถ้วนหรือไม่ ซึ่งทาง Thinking Machines เองก็ยอมรับว่ายังเป็นคำถามวิจัยที่เปิดกว้าง

เวลาแฝงในการผลัดกันพูด

TML-Interaction-Small ทำเวลาแฝงในการผลัดกันพูดได้ 0.40 วินาทีใน FD-bench v1 ซึ่งเร็วที่สุดในบรรดาโมเดลที่เทียบกัน Gemini-3.1-flash-live-preview ตามมาที่ 0.57 วินาที แม้ที่ตั้งค่าต่ำสุด GPT-Realtime-2.0 ก็ใช้เวลาประมาณสามเท่า (1.18 วินาที); ที่ระดับ xhigh ใช้ 1.63 วินาที

เวลาแฝงสำคัญต่อปฏิสัมพันธ์ด้วยเสียงมากกว่าข้อความ ช่องว่าง 1.2 วินาทีระหว่างจบคำพูดของผู้ใช้กับจังหวะที่โมเดลเริ่มตอบ ไม่เพียงรู้สึกได้แต่ยังรบกวนจังหวะการสนทนาด้วย ผล 0.40 วินาทีทำให้ TML-Interaction-Small เข้าใกล้เวลาตอบสนองของมนุษย์มากขึ้น

ความฉลาดและการทำตามคำสั่ง

Audio MultiChallenge วัดความฉลาดและการทำตามคำสั่งในเสียง TML-Interaction-Small ได้ 43.4% สูงกว่า GPT-Realtime-1.5 (34.7%) และ Gemini-3.1-flash-live-preview (26.8%) แต่ต่ำกว่า GPT-Realtime-2.0 ที่ xhigh (48.5%) นี่คือการทดสอบที่เห็นการแลกเปลี่ยนระหว่างความฉลาดกับความเป็นปฏิสัมพันธ์

ช่องว่างระหว่าง TML-Interaction-Small กับ GPT-Realtime-2.0 ที่ xhigh อยู่ที่ 5.1 จุด ถือว่ามีนัยสำคัญแต่ไม่ใหญ่ และมาพร้อมต้นทุนเวลาแฝงที่สูงกว่ามากในฝั่ง GPT-Realtime-2.0 (1.63 วินาที เทียบกับ 0.40 วินาที) ความคุ้มค่าของการแลกเปลี่ยนนี้ขึ้นกับแอปพลิเคชัน

คุณภาพการตอบและการใช้เครื่องมือ

FD-bench v3 วัดคุณภาพการตอบและความแม่นยำของการเรียกใช้เครื่องมือในสถานการณ์เสียงบวกเครื่องมือ TML-Interaction-Small ได้คุณภาพการตอบ 82.8% และ pass@1 ที่ 68.0% เมื่อเปิดใช้งานตัวแทนแบ็กกราวด์ เทียบกับ 80.0% / 52.0% สำหรับ GPT-Realtime-2.0 ที่ตั้งค่าต่ำสุด และ 81.0% / 58.0% ที่ xhigh

ช่องว่างของ pass@1 (68.0% เทียบกับ 58.0%) คือค่าที่มีความหมายที่สุดที่นี่ เพราะวัดว่าโมเดลทำงานที่พึ่งพาเครื่องมือได้ถูกต้องจริงหรือไม่ ดูเหมือนสถาปัตยกรรมคู่ที่แยกการเรียกเครื่องมือออกจากปฏิสัมพันธ์กับผู้ใช้จะได้ผลดี

การทดสอบความเป็นปฏิสัมพันธ์ใหม่: TimeSpeak, CueSpeak และความริเริ่มด้านภาพ

Thinking Machines สร้างเกณฑ์ภายในสองตัวและดัดแปลงอีกสามตัวที่ใช้น้อยกว่าเพื่อวัดความสามารถด้านปฏิสัมพันธ์โดยตรง สิ่งเหล่านี้ควรพิจารณาอย่างรอบคอบเพราะไม่มีโมเดลคู่แข่งใดทำผลงานได้อย่างมีนัยสำคัญเลย

  • TimeSpeak (เริ่มพูดตามเวลา): TML-Interaction-Small ได้ความแม่นยำแบบมาโคร 64.7%
  • CueSpeak (เริ่มพูดตามสัญญาณวาจา): TML-Interaction-Small ได้ความแม่นยำแบบมาโคร 81.7%
  • RepCount-A (นับการกระทำจากภาพ): TML-Interaction-Small ได้ความแม่นยำคลาดเคลื่อนหนึ่งครั้ง 33.4%
  • ProactiveVideoQA (เริ่มพูดตามสัญญาณจากภาพ): TML-Interaction-Small ได้ 31.5 PAUC (ฐานที่ไม่ตอบ = 25.0%)
  • Charades temporal localization (จับเวลาการกระทำจากภาพ): TML-Interaction-Small ได้ 30.4 mIoU

ในการทดสอบใหม่ส่วนใหญ่เหล่านี้ GPT Realtime-2.0 ล้มเหลวโดยสิ้นเชิง ได้ผลลัพธ์ใกล้ศูนย์ หรือศูนย์ด้วยซ้ำ (บนชุด Charades ซึ่งต้องให้โมเดลพูดว่า "start" และ "stop" ในจังหวะที่ถูกต้องระหว่างวิดีโอ)

ยากที่ฉันจะบอกว่าผลเหล่านี้มีความหมายเพียงใด เพราะเกณฑ์เหล่านี้ยังใหม่และยังไม่ผ่านการยืนยันอิสระ แต่ก็สอดคล้องกับภาพรวมของความต่างด้านสถาปัตยกรรมและผลการทดสอบที่เทียบเคียงกัน

ราคาและการให้บริการของ TML-Interaction-Small

TML-Interaction-Small อยู่ในช่วงพรีวิวงานวิจัยแบบจำกัด และยังไม่ประกาศรายละเอียดราคา Thinking Machines วางแผนเปิดให้เข้าถึงกว้างขึ้นในช่วงปลายปี 2026 นักวิจัยและนักพัฒนาที่สนใจสามารถติดต่อทีมได้ที่ interaction@thinkingmachines.ai เพื่อขอเข้าถึง

เพื่อเปรียบเทียบ GPT-Realtime-2 มีราคา $32 ต่อโทเค็นอินพุตเสียงหนึ่งล้าน และ $64 ต่อโทเค็นเอาต์พุตเสียงหนึ่งล้าน ตามที่เราครอบคลุมไว้ใน ภาพรวม GPT-Realtime-2 ราคาของ TML-Interaction-Small น่าจะประกาศพร้อมการเปิดให้ใช้งานวงกว้าง

ตามที่อาจสังเกตได้ โมเดลมีคำต่อท้ายว่า "-Small" และคาดได้ว่า Thinking Machines จะตามมาด้วยโมเดลขนาดใหญ่กว่า ซึ่งตอนนี้ยังช้าเกินกว่าจะให้บริการ แต่มีแผนปล่อยช่วงปลายปี 2026

TML-Interaction-Small เทียบกับ GPT-Realtime-2

ช่องว่างที่น่าสนใจกว่าระหว่างสองโมเดลอยู่ที่เกณฑ์ความเป็นปฏิสัมพันธ์ บน FD-bench v1.5 ซึ่งวัดพฤติกรรมในสถานการณ์ผู้ใช้ขัดจังหวะ การแทรกเสียงยืนยัน คุยกับผู้อื่น และเสียงพื้นหลัง TML-Interaction-Small ได้ 77.8 ส่วน GPT-Realtime-2.0 ที่ตั้งค่าต่ำสุดได้ 46.8 และที่ระดับการให้เหตุผลสูงสุด (xhigh) ได้ 47.8 นั่นคือช่องว่าง 30 คะแนนบนเกณฑ์ที่วัดสิ่งที่ Thinking Machines โฟกัสโดยตรงที่สุด

มีการแลกเปลี่ยนด้านความฉลาด แต่ช่องว่างตรงนี้แคบกว่าด้านปฏิสัมพันธ์มาก GPT-Realtime-2.0 ที่ xhigh ได้ 48.5% บน Audio MultiChallenge เทียบกับ 43.4% ของ TML-Interaction-Small บน BigBench Audio GPT-Realtime-2.0 ที่ high ได้ 96.6% เทียบกับ 75.7% สำหรับ TML-Interaction-Small (แม้ว่า TML-Interaction-Small จะไปถึง 96.5% เมื่อเปิดตัวแทนแบ็กกราวด์)

ภาพรวมที่เห็นคือ TML-Interaction-Small นำหน้าด้านความตอบสนองและปฏิสัมพันธ์ ส่วน GPT-Realtime-2.0 ที่ตั้งค่าการให้เหตุผลสูงนำหน้าบนเกณฑ์ความฉลาดดิบ

เกณฑ์ทดสอบ TML-Interaction-Small GPT-Realtime-2.0 (ต่ำสุด) GPT-Realtime-2.0 (xhigh) Gemini-3.1-flash-live (ต่ำสุด)
FD-bench v1 เวลาแฝงผลัดกันพูด (วินาที) 0.40 1.18 1.63 0.57
FD-bench v1.5 ค่าเฉลี่ย 77.8 46.8 47.8 54.3
FD-bench v3 คุณภาพการตอบ (%) 82.8* 80.0 81.0 68.5
Audio MultiChallenge APR (%) 43.4 37.6 48.5 26.8
BigBench Audio ความถูกต้อง (%) 75.7 / 96.5* 71.8 96.6 71.3
IFEval (VoiceBench) ความถูกต้อง (%) 82.1 81.7 83.2 67.6
IFEval ข้อความ ความถูกต้อง (%) 89.7 89.6 95.2 85.8

* เปิดใช้งานตัวแทนแบ็กกราวด์

หากต้องการดูตระกูลโมเดลเสียงของ OpenAI ในการใช้งานจริง ลองดู บทเรียน API ของ GPT-Realtime-2

ข้อสรุป

TML-Interaction-Small ดูมีอนาคต หากทำได้ตามที่ระบุในบันทึกการปล่อย โมเดลใหม่นำความเป็นปฏิสัมพันธ์ที่ดีขึ้นอย่างมีนัยสำคัญพร้อมเวลาแฝงสั้น โดยไม่ลดทอนคุณภาพคำตอบหรือพลังการให้เหตุผล ความสามารถในการพูด ฟัง และตอบสนองต่อสัญญาณจากภาพได้พร้อมกันยังไม่มีใครเทียบ และเปิดโอกาสอีกมาก ฉันอยากรู้ว่าราคาจะออกมาอย่างไรเมื่อเปิดตัวสู่สาธารณะ

ช่องว่างด้านความฉลาดเมื่อเทียบกับ GPT-Realtime-2 มีอยู่จริง แต่แคบกว่าช่องว่างด้านปฏิสัมพันธ์ สำหรับแอปที่ต้องการให้การสนทนารู้สึกเป็นธรรมชาติ ความต่างของเวลาแฝงสำคัญกว่าช่องว่างด้านความฉลาด สำหรับแอปที่ให้ความสำคัญกับความแม่นยำบนงานให้เหตุผลยาก ๆ GPT-Realtime-2.0 ที่ตั้งค่าการให้เหตุผลสูงยังคงนำอยู่

หากต้องการทันต่อภูมิทัศน์ของโมเดล AI โดยรวมและวิธีใช้งานให้เกิดประสิทธิผล แนะนำให้เริ่มจาก เส้นทางทักษะ AI Fundamentals ของเรา

คำถามที่พบบ่อยเกี่ยวกับ TML-Interaction-Small

โมเดลปฏิสัมพันธ์คืออะไร?

โมเดลปฏิสัมพันธ์คือระบบเสียงของ AI ที่ฝังความสามารถในการโต้ตอบอยู่ในตัวโมเดลเอง แทนที่จะเพิ่มผ่านคอมโพเนนต์ภายนอกอย่างการตรวจจับกิจกรรมเสียงและการจัดการบทสนทนา มันประมวลผลอินพุตและเอาต์พุตพร้อมกัน จึงสามารถฟังและพูดได้ในเวลาเดียวกัน แทนการรอผลัดกันพูด

ใครอยู่เบื้องหลัง Thinking Machines Lab?

Thinking Machines Lab มี Mira Murati อดีต CTO ของ OpenAI เป็นผู้นำ TML-Interaction-Small เป็นการปล่อยโมเดลสู่สาธารณะครั้งแรกของแล็บ ซึ่งอธิบายว่าเป็นพรีวิวงานวิจัยของสถาปัตยกรรมโมเดลปฏิสัมพันธ์

TML-Interaction-Small เปรียบเทียบกับ GPT-Realtime-2 ของ OpenAI อย่างไร?

TML-Interaction-Small นำหน้าด้านปฏิสัมพันธ์ โดยได้ 77.8 บน FD-bench v1.5 เทียบกับ 47.8 สำหรับ GPT-Realtime-2 ที่ตั้งค่าสูงสุด และมีเวลาแฝงผลัดกันพูดที่เร็วกว่า 0.40 วินาที เทียบกับ 1.63 วินาที ส่วน GPT-Realtime-2 นำหน้าบนเกณฑ์ความฉลาดดิบอย่าง Audio MultiChallenge (48.5% เทียบกับ 43.4%)

TML-Interaction-Small ประมวลผลวิดีโอได้ไหม?

ได้ โมเดลประมวลผลวิดีโอควบคู่กับเสียงและสามารถตอบสนองต่อเหตุการณ์จากภาพโดยไม่ต้องมีพรอมต์ด้วยวาจาจากผู้ใช้ ตัวอย่างเช่น นับจำนวนครั้งของท่าออกกำลังกายหน้ากล้อง หรือเรียกชื่อวัตถุเมื่อปรากฏ ความริเริ่มด้านภาพนี้ยังไม่มีใน GPT-Realtime-2 หรือ Gemini Live

หัวข้อ

เรียนรู้ AI กับ DataCamp!

Tracks

พื้นฐาน AI

10 ชม.
ค้นพบพื้นฐานของ AI เรียนรู้วิธีใช้ AI อย่างมีประสิทธิภาพในการทำงาน และเจาะลึกโมเดลอย่าง ChatGPT เพื่อรับมือกับภูมิทัศน์ AI ที่เปลี่ยนแปลงอย่างรวดเร็ว
ดูรายละเอียดRight Arrow
เริ่มหลักสูตร
ดูเพิ่มเติมRight Arrow