โมเดลปฏิสัมพันธ์: จุดเด่นของ TML-Interaction-Small

ห้องปฏิบัติการ Thinking Machines ของ Mira Murati สร้างโมเดลที่ฟังและพูดได้พร้อมกัน เราแยกส่วนฟีเจอร์และเปรียบเทียบกับ GPT-Realtime-2

อัปเดตแล้ว 13 พ.ค. 2569 · 10 นาที อ่าน

สัปดาห์ที่แล้ว GPT-Realtime-2 ของ OpenAI ยกระดับมาตรฐานด้านเสียงของ AI ด้วยเหตุผลเชิงตรรกะระดับ GPT-5 และหน้าต่างบริบท 128K ขณะนี้ Thinking Machines Lab ของ Mira Murati กำลังเสนอแนวทางที่ต่างออกไป: ความตอบสนองฉับไวและความฉลาดควรถูกฝึกในโมเดลเดียวตั้งแต่ต้น แทนที่จะนำมาประกบกันภายหลังด้วยตัวตรวจจับกิจกรรมเสียงและคอมโพเนนต์จัดการบทสนทนา

ห้องแล็บเรียกโมเดลประเภทใหม่นี้ว่า “โมเดลปฏิสัมพันธ์”

งานพรีวิวงานวิจัย TML-Interaction-Small คือผลลัพธ์แรกของแนวทางนี้ เป็นโมเดล Mixture-of-Experts ที่มีพารามิเตอร์ 276B โดยมีพารามิเตอร์ที่ทำงานจริง 12B ประมวลผลเสียง วิดีโอ และข้อความเป็นไมโครเทิร์นต่อเนื่องความยาว 200 มิลลิวินาที ซึ่งหมายความว่าสามารถรับรู้และตอบสนองไปพร้อมกัน ไม่ต้องรอให้ผู้พูดพูดจบก่อน

ในบทความนี้ ฉันจะอธิบายว่า TML-Interaction-Small คืออะไร ไล่ดูคุณลักษณะทางสถาปัตยกรรมที่สำคัญ เปรียบเทียบโดยตรงกับ GPT-Realtime-2 และ เจาะรายละเอียดผลการทดสอบมาตรฐาน

โมเดลปฏิสัมพันธ์คืออะไร?

Thinking Machines Lab อธิบายโมเดลปฏิสัมพันธ์ว่าเป็นระบบที่ทำให้ความเป็นปฏิสัมพันธ์เป็นส่วนหนึ่งของตัวโมเดลเอง ไม่ใช่สิ่งที่นำไปครอบด้วยฮาร์เนสภายนอก หลักการสำคัญคือความตอบสนองฉับไวและความฉลาดต้องถูกฝึกให้ไปด้วยกันตั้งแต่ต้น บนสตรีมเสียงและวิดีโอต่อเนื่อง แทนที่จะไปติดตั้งเพิ่มบนโมเดลที่อิงข้อความภายหลัง

ระบบเสียง AI แบบเรียลไทม์ส่วนใหญ่ในปัจจุบันจะเย็บต่อชิ้นส่วนอย่างตัวตรวจจับกิจกรรมเสียง เอนโค้ดเดอร์แยกกัน และเลเยอร์จัดการบทสนทนาเพื่อเลียนแบบความตอบสนอง Thinking Machines Lab ให้เหตุผลว่าแนวทางนี้จะล่าช้ากว่าโมเดลที่รองรับปฏิสัมพันธ์โดยกำเนิดเสมอ เพราะมีขอบเขตเทิร์นที่เป็นเทียมซึ่งจำกัดความสามารถของโมเดลที่ไม่โต้ตอบ

แทนที่จะรับอินพุตแบบเรียงลำดับแล้วจึงสร้างคำตอบจนจบ โมเดลปฏิสัมพันธ์ของห้องแล็บถูกออกแบบให้ใกล้เคียงการรับรู้ของมนุษย์มากขึ้น โดยมองทั้งโทเค็นอินพุตและเอาต์พุตเป็นสตรีม และทั้งสองถูกสลับกันในแต่ละไมโครเทิร์นความยาว 200 มิลลิวินาที

ด้วยเหตุนี้ โมเดลปฏิสัมพันธ์จึงรับรู้และตอบสนองพร้อมกัน ประมวลผลอินพุตและเอาต์พุตแบบขนาน โดยไม่ต้องรอให้ผู้พูดจบ ช่วยให้ทำสิ่งเจ๋ง ๆ ได้หลายอย่าง เช่น:

พูดพร้อมกับฟัง
ตอบสนองต่อสัญญาณจากภาพโดยไม่ต้องมีพรอมต์
ติดตามเวลาที่ผ่านไปได้โดยตรง

ทั้งหมดนี้คือสิ่งที่โมเดลแบบผลัดกันพูดที่พึ่งพาฮาร์เนสภายนอกไม่สามารถทำซ้ำได้ ไม่ว่าจะมีความสามารถด้านเหตุผลมากเพียงใด

TML-Interaction-Small คืออะไร?

TML-Interaction-Small คือโมเดลที่เปิดตัวสู่สาธารณะรุ่นแรกของ Thinking Machines Lab และเป็นการนำสถาปัตยกรรมโมเดลปฏิสัมพันธ์มาประยุกต์ใช้เป็นครั้งแรก

เป็นโมเดล Mixture-of-Experts ที่มีพารามิเตอร์ 276B และพารามิเตอร์ที่ทำงานจริง 12B ฝึกจากศูนย์บนสตรีมเสียงและวิดีโอต่อเนื่อง โดยใช้ดีไซน์ไมโครเทิร์นหลายสตรีมตามที่อธิบายไว้ก่อนหน้า ซึ่งอินพุตและเอาต์พุตถูกประมวลผลเป็นช่วง ๆ ละ 200 มิลลิวินาที

การผสานโมเดลสองตัวที่ใช้บริบทเดียวกันทำให้ได้ทั้งความตอบสนองฉับไวและความฉลาด ผู้ใช้ได้รับคำตอบจากโมเดลปฏิสัมพันธ์แบบเรียลไทม์ ขณะที่การวางแผน การใช้เครื่องมือ และการให้เหตุผลลึกจะถูกมอบหมายให้โมเดลเบื้องหลังที่ทำงานแบบอะซิงโครนัส

จากนั้นโมเดลปฏิสัมพันธ์จะผสานผลลัพธ์จากเบื้องหลังเข้ามาในบทสนทนาเมื่อมาถึง โดยไม่หลุดจากบทสนทนา

คุณสมบัติของ TML-Interaction-Small

ขณะที่โมเดลเสียง AI ที่มีอยู่ส่วนใหญ่ผลัดกันพูด (คุณพูด แล้วมันตอบ) TML-Interaction-Small ทำงานคล้ายคู่สนทนามนุษย์มากกว่า ต่อไปนี้คือสี่ความสามารถที่ทำให้โดดเด่น

พูดและฟังพร้อมกัน

TML-Interaction-Small สามารถสร้างคำพูดได้ขณะที่ผู้ใช้ยังพูดอยู่ ทำให้การแปลพร้อมกันเป็นไปได้: คุณพูดอีกภาษา โมเดลก็เริ่มแปลก่อนที่คุณจะพูดจบ นอกจากนี้ โมเดลยังสามารถขัดจังหวะกลางประโยคเมื่อจับ错误ได้ หรือส่งสัญญาณด้วยคำพูด (“รับทราบ”, “พูดต่อได้”) ระหว่างที่คุณอธิบายอยู่

ยังมีประโยชน์สำหรับการตอบสนองแบบเรียลไทม์ตามอีเวนต์ที่กำหนดเองด้วย ตัวอย่างในบันทึกการเปิดตัวแสดงให้เห็นว่าโมเดลจะแปลงจำนวนเงินเป็น EUR และบอกจำนวนเงิน USD ที่สอดคล้องกันทุกครั้งเมื่อผู้ใช้พูดถึงการชำระเงิน

ดูและตอบสนองต่อวิดีโอโดยไม่ต้องถูกขอ

TML-Interaction-Small ประมวลผลวิดีโอควบคู่กับเสียงและสามารถเริ่มพูดได้จากสิ่งที่เห็น โดยไม่ต้องมีพรอมต์ด้วยคำพูด

หากคุณกำลังวิดีโอวิดพื้นอยู่ มันสามารถนับจำนวนครั้งให้แบบเปล่งเสียงตามเวลาจริง หากมีวัตถุที่เกี่ยวข้องโผล่มาในสตรีมวิดีโอ ก็สามารถระบุทันทีที่มองเห็น อย่างไรก็ตาม คุณสมบัตินี้ยังพัฒนาได้อีก ดังเห็นจากคะแนนภายใน RepCount-A ที่มีเพียงหนึ่งในสาม (33.4%) ของกรณีที่คลาดเคลื่อนจากความจริงไม่เกินหนึ่งครั้ง

คลิปหนึ่งในบันทึกการเปิดตัว (ที่ดูแปลกตาเล็กน้อยในมุมมองของฉัน) สาธิตสิ่งนี้: เมื่อตั้งให้สนใจท่าทางของผู้ใช้ โมเดลตรวจพบการนั่งหลังค่อมที่หน้าคอมพิวเตอร์ได้ทันทีและเตือนให้ปรับ

API เชิงพาณิชย์แบบเรียลไทม์ที่มีอยู่ในปัจจุบันรองรับเฉพาะเสียง ตอบสนองต่อรอบคำพูดเท่านั้น และไม่สามารถตอบโต้การเปลี่ยนแปลงทางภาพแบบเชิงรุกได้ ความสามารถนี้ยังไม่มีใน GPT-Realtime-2 หรือ Gemini Live ในตอนนี้

รับมือการแทรกและการแก้คำพูดตนเองอย่างเป็นธรรมชาติ

หากคุณเริ่มพูด ประมาณใจใหม่ แล้วแก้คำพูดกลางคัน TML-Interaction-Small จะติดตามการแก้ไขและตอบสนองต่อสิ่งที่ตั้งใจจริง ๆ จัดการ backchanneling (เช่นคุณพูด “อืม” หรือ “ใช่” ระหว่างที่มันพูด) และแยกแยะได้ว่ามีคนกำลังคุยกับมันหรือคุยกับคนอื่นในห้อง

สถานการณ์เหล่านี้มักทำให้โมเดลแบบผลัดกันพูดล้มเหลว พวกมันหยุดพูดเมื่อไม่ควรหยุด หรือไปตอบส่วนที่ผิดของสิ่งที่ถูกกล่าวไป น่าสนใจว่าจะเห็นว่า TML-Interaction-Small จะรับมือได้ดีในสถานการณ์จริงเหมือนในวิดีโอโชว์หรือไม่

รันงานซับซ้อนเบื้องหลังโดยยังคงอยู่กับบทสนทนา

โมเดลเบื้องหลังคือสิ่งที่ทำให้โมเดลปฏิสัมพันธ์ไม่เพียงเร็ว แต่ยังฉลาดด้วย คุณสามารถถามต่อหรือเปลี่ยนหัวข้อได้ขณะงานเบื้องหลังยังทำอยู่ เมื่อผลลัพธ์พร้อม โมเดลจะสอดแทรกกลับเข้าบทสนทนาในจังหวะที่เป็นธรรมชาติ แทนที่จะขัดจังหวะคุณด้วยการตัดบริบทกะทันหัน

นั่นหมายความว่าคุณจะได้ทั้งการสนทนาที่ตอบไว และความสามารถในการจัดการงานหลายขั้นตอนที่ปกติจะทำให้โมเดลต้องเงียบไปหลายวินาที ในคลิปเดโมแบบตอบคำถามความรู้รอบตัว สิ่งนี้ทำงานได้ดีทีเดียว: ผู้ใช้สามคนยิงคำถามอย่างรวดเร็ว และโมเดลก็ตามทันได้เกือบทั้งหมด

การทดสอบมาตรฐานของ TML-Interaction-Small

Thinking Machines รายงานผลลัพธ์ในสองหมวด: การทดสอบสตรีมมิงที่วัดความเป็นปฏิสัมพันธ์ และการทดสอบแบบผลัดกันพูดที่วัดความฉลาด ผลลัพธ์ที่แข็งแกร่งที่สุดของโมเดลอยู่ฝั่งสตรีมมิง ซึ่งเป็นจุดที่ทางเลือกด้านสถาปัตยกรรมถูกทดสอบโดยตรงที่สุด

ความเป็นปฏิสัมพันธ์

FD-bench v1.5 ให้โมเดลฟังเสียงที่บันทึกไว้ล่วงหน้าและวัดพฤติกรรมในสี่สถานการณ์:

ผู้ใช้ขัดจังหวะ
ผู้ใช้ส่งสัญญาณยืนยันระหว่างฟัง (backchannel)
คุยกับผู้อื่น
มีเสียงพูดพื้นหลัง

TML-Interaction-Small ได้คะแนน 77.8 เทียบกับ Gemini-3.1-flash-live-preview ที่ตั้งค่าน้อยสุด 54.3 และ GPT-Realtime-2.0 ที่ตั้งค่าน้อยสุด 46.8 แม้ตั้งค่าสูงสุดด้านเหตุผล (xhigh) GPT-Realtime-2.0 ก็ได้เพียง 47.8

นี่เป็นการทดสอบที่วัดสิ่งที่ Thinking Machines มุ่งสร้างได้ตรงที่สุด ช่องว่าง 30 คะแนนเหนือคู่แข่งที่ใกล้สุดไม่ใช่ความต่างเล็กน้อย คำถามคือ FD-bench v1.5 ครอบคลุมช่วงความเป็นปฏิสัมพันธ์ที่สำคัญในทางปฏิบัติครบถ้วนหรือไม่ ซึ่งทาง Thinking Machines เองก็ยอมรับว่ายังเป็นคำถามวิจัยเปิดอยู่

เวลาแฝงในการผลัดกันพูด

TML-Interaction-Small ทำเวลาแฝงผลัดกันพูดได้ 0.40 วินาทีใน FD-bench v1 เร็วที่สุดในทุกโมเดลที่เปรียบเทียบ Gemini-3.1-flash-live-preview ใกล้สุดที่ 0.57 วินาที แม้ตั้งค่าต่ำสุด GPT-Realtime-2.0 ใช้เวลาประมาณสามเท่า (1.18 วินาที); ที่เหตุผล xhigh GPT-Realtime-2.0 อยู่ที่ 1.63 วินาที

เวลาแฝงมีความสำคัญมากกว่าสำหรับปฏิสัมพันธ์ด้วยเสียงเมื่อเทียบกับข้อความ ช่องว่าง 1.2 วินาทีระหว่างที่ผู้ใช้พูดจบกับที่โมเดลเริ่มตอบ นอกจากสังเกตได้ชัดแล้วยังรบกวนจังหวะด้วย ผลลัพธ์ 0.40 วินาทีทำให้ TML-Interaction-Small เข้าใกล้เวลาตอบสนองของการสนทนามนุษย์

ความฉลาดและการทำตามคำสั่ง

Audio MultiChallenge วัดความฉลาดและการทำตามคำสั่งจากเสียง TML-Interaction-Small ได้ 43.4% สูงกว่า GPT-Realtime-1.5 (34.7%) และ Gemini-3.1-flash-live-preview (26.8%) แต่ต่ำกว่า GPT-Realtime-2.0 ที่ xhigh (48.5%) นี่คือการทดสอบที่เห็นสมดุลระหว่างความฉลาดกับความเป็นปฏิสัมพันธ์

ช่องว่างระหว่าง TML-Interaction-Small กับ GPT-Realtime-2.0 ที่ xhigh อยู่ที่ 5.1 จุด ถือว่าเด่นชัดแต่ไม่มาก และมาพร้อมต้นทุนเวลาแฝงที่สูงบนฝั่ง GPT-Realtime-2.0 (1.63 วินาทีเทียบกับ 0.40 วินาที) ความคุ้มค่าของการแลกเปลี่ยนนั้นขึ้นอยู่กับแอปพลิเคชัน

คุณภาพคำตอบและการใช้เครื่องมือ

FD-bench v3 วัดคุณภาพคำตอบและความแม่นยำการเรียกเครื่องมือในสถานการณ์เสียงบวกเครื่องมือ TML-Interaction-Small ได้คุณภาพคำตอบ 82.8% และ pass@1 ที่ 68.0% เมื่อเปิดใช้งานตัวแทนเบื้องหลัง เทียบกับ GPT-Realtime-2.0 ตั้งค่าต่ำสุดที่ 80.0% / 52.0% และที่ xhigh 81.0% / 58.0%

ช่องว่าง pass@1 (68.0% เทียบกับ 58.0%) เป็นตัวเลขที่สำคัญที่สุด เพราะวัดว่าโมเดลทำงานที่พึ่งพาเครื่องมือได้ถูกต้องจริงหรือไม่ ดูเหมือนสถาปัตยกรรมคู่ที่แยกการเรียกเครื่องมือออกจากการโต้ตอบกับผู้ใช้จะให้ผลดี

การทดสอบใหม่ด้านปฏิสัมพันธ์: TimeSpeak, CueSpeak และเชิงรุกด้านภาพ

Thinking Machines สร้างการทดสอบภายในสองชุดและดัดแปลงอีกสามชุดที่ไม่ค่อยถูกใช้เพื่อวัดความสามารถด้านปฏิสัมพันธ์โดยตรง ควรพิจารณาอย่างใกล้ชิด เพราะไม่มีโมเดลคู่แข่งใดทำผลงานได้อย่างมีนัยสำคัญในชุดเหล่านี้

TimeSpeak (เริ่มพูดตามเวลา): TML-Interaction-Small ได้ 64.7% macro-accuracy
CueSpeak (เริ่มพูดเมื่อมีสัญญาณคำพูด): TML-Interaction-Small ได้ 81.7% macro-accuracy
RepCount-A (นับการกระทำจากภาพ): TML-Interaction-Small ได้ 33.4% off-by-one accuracy
ProactiveVideoQA (เริ่มพูดเมื่อมีสัญญาณจากภาพ): TML-Interaction-Small ได้ 31.5 PAUC (ฐานที่ไม่ตอบ = 25.0%)
Charades temporal localization (ระบุเวลาการกระทำจากภาพ): TML-Interaction-Small ได้ 30.4 mIoU

ในหลายการทดสอบใหม่เหล่านี้ GPT realtime-2.0 ล้มเหลวอย่างสิ้นเชิง ได้ผลลัพธ์ใกล้ศูนย์ หรือเป็นศูนย์เลย (เช่นบน Charades ที่ต้องให้โมเดลพูด “เริ่ม” และ “หยุด” ให้ตรงจังหวะในวิดีโอ)

ยากที่จะบอกว่าผลลัพธ์เหล่านี้มีนัยสำคัญเพียงใด เพราะบรรดาการทดสอบยังใหม่และยังไม่ถูกยืนยันโดยอิสระ แต่ก็สอดคล้องกับภาพรวมของความต่างด้านสถาปัตยกรรมและผลการทดสอบที่เปรียบเทียบกัน

ราคาและการเปิดให้ใช้ TML-Interaction-Small

TML-Interaction-Small อยู่ในช่วงพรีวิวงานวิจัยแบบจำกัด และยังไม่ประกาศรายละเอียดราคา Thinking Machines มีแผนเปิดให้เข้าถึงกว้างขึ้นในช่วงปลายปี 2026 นักวิจัยและนักพัฒนาที่สนใจสามารถติดต่อทีมได้ที่ interaction@thinkingmachines.ai เพื่อขอเข้าถึง

เพื่อเปรียบเทียบ GPT-Realtime-2 มีราคา $32 ต่อโทเค็นอินพุตเสียงหนึ่งล้าน และ $64 ต่อโทเค็นเอาต์พุตเสียงหนึ่งล้าน ตามที่เราครอบคลุมไว้ใน ภาพรวม GPT-Realtime-2 ราคาของ TML-Interaction-Small น่าจะประกาศพร้อมการเปิดให้ใช้ในวงกว้าง

อย่างที่สังเกตได้ โมเดลลงท้ายด้วย “-Small” และคาดได้ว่า Thinking Machines จะตามมาด้วยโมเดลที่ใหญ่กว่า ปัจจุบันยังช้าเกินกว่าจะให้บริการ แต่มีแผนเปิดตัวปลายปี 2026

TML-Interaction-Small เทียบกับ GPT-Realtime-2

ช่องว่างที่น่าสนใจกว่าระหว่างสองโมเดลอยู่ที่การทดสอบด้านปฏิสัมพันธ์ บน FD-bench v1.5 ซึ่งวัดพฤติกรรมในสถานการณ์ผู้ใช้ขัดจังหวะ การ backchannel การคุยกับผู้อื่น และเสียงพื้นหลัง TML-Interaction-Small ได้ 77.8 ส่วน GPT-Realtime-2.0 ตั้งค่าต่ำสุดได้ 46.8 และที่เหตุผลสูงสุด (xhigh) ได้ 47.8 นั่นคือช่องว่าง 30 คะแนนบนการทดสอบที่วัดสิ่งที่ Thinking Machines ปรับแต่งโดยตรงที่สุด

มีการแลกกับความฉลาด แต่ช่องว่างนี้เล็กกว่าของด้านปฏิสัมพันธ์มาก GPT-Realtime-2.0 ที่ xhigh ได้ 48.5% บน Audio MultiChallenge เทียบกับ 43.4% ของ TML-Interaction-Small บน BigBench Audio GPT-Realtime-2.0 ที่ high ได้ 96.6% เทียบกับ 75.7% ของ TML-Interaction-Small (แม้ TML-Interaction-Small จะทำได้ 96.5% เมื่อเปิดตัวแทนเบื้องหลัง)

ภาพรวมที่ได้คือ TML-Interaction-Small นำหน้าในด้านความตอบสนองและความเป็นปฏิสัมพันธ์ ขณะที่ GPT-Realtime-2.0 ที่การให้เหตุผลสูงนำหน้าบนการทดสอบมาตรฐานด้านความฉลาดดิบ

การทดสอบมาตรฐาน	TML-Interaction-Small	GPT-Realtime-2.0 (ต่ำสุด)	GPT-Realtime-2.0 (xhigh)	Gemini-3.1-flash-live (ต่ำสุด)
FD-bench v1 เวลาแฝงผลัดกันพูด (วินาที)	0.40	1.18	1.63	0.57
FD-bench v1.5 ค่าเฉลี่ย	77.8	46.8	47.8	54.3
FD-bench v3 คุณภาพคำตอบ (%)	82.8*	80.0	81.0	68.5
Audio MultiChallenge APR (%)	43.4	37.6	48.5	26.8
BigBench Audio ความแม่นยำ (%)	75.7 / 96.5*	71.8	96.6	71.3
IFEval (VoiceBench) ความแม่นยำ (%)	82.1	81.7	83.2	67.6
IFEval ข้อความ ความแม่นยำ (%)	89.7	89.6	95.2	85.8

* เปิดใช้งานตัวแทนเบื้องหลัง

เพื่อชมตระกูลโมเดลเสียงของ OpenAI ในการใช้งาน ลองดู บทเรียน API ของ GPT-Realtime-2

ข้อคิดส่งท้าย

TML-Interaction-Small ดูมีอนาคต หากทำได้ตามที่อ้างในบันทึกการเปิดตัว โมเดลใหม่นี้จะยกระดับปฏิสัมพันธ์อย่างมีนัยสำคัญด้วยเวลาแฝงสั้น โดยไม่ต้องแลกกับคุณภาพคำตอบหรือพลังการให้เหตุผล ความสามารถในการพูด ฟัง และตอบสนองต่อสัญญาณจากภาพไปพร้อมกันยังคงเป็นเอกลักษณ์ และเปิดโอกาสอีกมาก อยากเห็นโครงสร้างราคาตอนที่เปิดให้ใช้สาธารณะ

ช่องว่างด้านความฉลาดเมื่อเทียบกับ GPT-Realtime-2 มีอยู่จริง แต่แคบกว่าช่องว่างด้านปฏิสัมพันธ์ สำหรับงานที่ต้องการให้การสนทนาดูเป็นธรรมชาติ ความต่างของเวลาแฝงสำคัญกว่าช่องว่างด้านความฉลาด สำหรับงานที่ความแม่นยำบนโจทย์ให้เหตุผลยากเป็นเป้าหมาย GPT-Realtime-2.0 ที่การให้เหตุผลสูงยังนำอยู่

หากต้องการติดตามภาพรวมโลกของโมเดล AI และวิธีใช้งานอย่างมีประสิทธิภาพ แนะนำให้เริ่มจาก เส้นทางทักษะ AI Fundamentals ของเรา

หัวข้อ

ปัญญาประดิษฐ์

โมเดลภาษาขนาดใหญ่

เรียนรู้ AI กับ DataCamp!

Tracks

AI Fundamentals

10 ชม.

Discover the fundamentals of AI, learn to leverage AI effectively for work, and dive into models like ChatGPT to navigate the dynamic AI landscape.

ดูรายละเอียด

เริ่มหลักสูตร

Tracks

AI Agent Fundamentals

6 ชม.

Discover how AI agents can change how you work and deliver value for your organization!

ดูรายละเอียด

เริ่มหลักสูตร

Courses

Multi-Modal Systems with the OpenAI API

2 ชม.

2.8K

Create multi-modal systems using OpenAI's text and audio models, including an end-to-end customer support chatbot!

ดูรายละเอียด

เริ่มหลักสูตร

ดูเพิ่มเติม

โมเดลปฏิสัมพันธ์คืออะไร?

TML-Interaction-Small คืออะไร?

คุณสมบัติของ TML-Interaction-Small

พูดและฟังพร้อมกัน

ดูและตอบสนองต่อวิดีโอโดยไม่ต้องถูกขอ

รับมือการแทรกและการแก้คำพูดตนเองอย่างเป็นธรรมชาติ

รันงานซับซ้อนเบื้องหลังโดยยังคงอยู่กับบทสนทนา

การทดสอบมาตรฐานของ TML-Interaction-Small

ความเป็นปฏิสัมพันธ์

เวลาแฝงในการผลัดกันพูด

ความฉลาดและการทำตามคำสั่ง

คุณภาพคำตอบและการใช้เครื่องมือ

การทดสอบใหม่ด้านปฏิสัมพันธ์: TimeSpeak, CueSpeak และเชิงรุกด้านภาพ

ราคาและการเปิดให้ใช้ TML-Interaction-Small

TML-Interaction-Small เทียบกับ GPT-Realtime-2

ข้อคิดส่งท้าย

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}AI Fundamentals

AI Agent Fundamentals

Multi-Modal Systems with the OpenAI API

AI Fundamentals