Courses
Human-in-the-Loop (HITL) เป็นหนึ่งในคำที่ถูกใช้บ่อยจนเริ่มไร้ความหมาย หลังจากทำงานกับระบบ AI มานานกว่าสิบปี ฉันเห็นมันถูกลดทอนเหลือเพียงช่องให้ติ๊กว่า "มีมนุษย์ตรวจทานแล้ว" ก่อนตัดสินใจแบบอัตโนมัติ
แล้วการมีมนุษย์อยู่ในลูปหมายความว่าอย่างไร? แก่นของ HITL คือ มนุษย์มีส่วนร่วมอย่างแข็งขันในการพัฒนา ฝึกสอน ประเมินผล และใช้งานโมเดล AI และยิ่งมีความสำคัญมากขึ้นเมื่อระบบ AI มีความเป็นตัวกระทำมากขึ้น
การกำกับดูแลโดยมนุษย์ช่วยเพิ่มชั้นของความเข้าใจตามบริบท วิจารณญาณทางจริยธรรม และความสามารถในการปรับตัว เพื่อทำให้ AI ใช้งานได้จริงอย่างมีประสิทธิภาพ
ในบทความนี้ เราจะก้าวข้ามคำนิยามเชิงนามธรรมของ HITL และโฟกัสที่มันในฐานะระเบียบวินัยด้านการออกแบบระบบ
Human-in-the-Loop (HITL) คืออะไร?
HITL คือการผสานอินพุตจากมนุษย์อย่างตั้งใจตลอดวงจรชีวิตของระบบแมชชีนเลิร์นนิง ทั้งก่อน ระหว่าง และหลังการทำงานของโมเดล เป็นรูปแบบการออกแบบที่ฝังวิจารณญาณของมนุษย์เพื่อชี้นำ ตรวจสอบความถูกต้อง และปรับปรุงพฤติกรรมของระบบ

แน่นอน การมีส่วนร่วมของมนุษย์จะแตกต่างกันไปตามตำแหน่งในวงจรชีวิต ML
การติดป้ายกำกับและการคัดสรรข้อมูล
ในขั้นข้อมูล มนุษย์จะใส่คำอธิบายกำกับอินพุตดิบเพื่อสร้างชุดข้อมูลที่มีป้ายกำกับให้โมเดลเรียนรู้ ซึ่งเป็นจุดที่หลายทีมลงทุนไม่พอ การติดป้ายกำกับที่ผิดพลาดในขั้นนี้จะส่งผลกระทบต่อทุกอย่างถัดลงไป และที่แย่คือความผิดพลาดมักไม่ปรากฏชัดจนกลายเป็นจุดบอดเชิงระบบในอีกหลายเดือนต่อมา
การฝึกสอนโมเดล
ข้อเสนอแนะจากมนุษย์คือความจริงชั้นทอง และเป็นหลักการสำคัญที่อยู่เบื้องหลังกระบวนการเรียนรู้ของระบบที่ปรับตัวได้
การประเมินและการตรวจสอบความถูกต้อง
มนุษย์ประเมินผลลัพธ์ว่าถูกต้อง ละเมียดละไม และสอดคล้องกับโลกจริงเพียงใด — ส่วนนี้ชัดเจนอยู่แล้ว แต่สิ่งที่มักมองข้ามคือการประเมินมีหลายมิติ ไม่ได้จำกัดแค่ “accuracy” มาตรฐานหรือคะแนน benchmark เวอร์ชันที่มีประโยชน์กว่าคือการนำผลลัพธ์ของโมเดลไปให้ผู้ใช้จริงดูและบันทึกข้อกังวลของพวกเขา
การเปิดใช้งานและการมอนิเตอร์
ในขั้นใช้งาน ส่วนใหญ่ทีมจะมีมนุษย์คอยจัดการกรณียกเว้นและคาดการณ์ความเสี่ยงที่เปลี่ยนแปลง เช่น ระบบตรวจจับการฉ้อโกงจะทำการติดธงธุรกรรมที่น่าสงสัย แต่สุดท้ายแล้วนักวิเคราะห์มนุษย์จะเป็นผู้ตัดสินใจขั้นสุดท้ายว่าจะบล็อกบัญชีหรือไม่
ก่อนจะลงลึกใน HITL ควรแยกให้ชัดจากสองคำที่มักถูกใช้ปะปน:
- Human-on-the-Loop (HOTL) หมายถึง มีมนุษย์คอยเฝ้าดูและเข้าแทรกเมื่อมีสัญญาณเตือน คิดเสียว่า HOTL คล้ายระบบกลั่นกรองเนื้อหาที่ลบสิ่งที่ถูกติดธงโดยอัตโนมัติ แต่ส่งเคสชายขอบให้มนุษย์ตรวจทาน
- Human-out-of-the-Loop (HOOTL) คือความอัตโนมัติเต็มรูปแบบ อัลกอริทึมเทรดดิ้งความถี่สูงที่ดำเนินการเทรดนับพันครั้งต่อวินาทีเป็นตัวอย่างที่มนุษย์อยู่นอกลูป
การใช้งานจริงส่วนใหญ่มักเป็นส่วนผสมของทั้งสาม ระบบภาพถ่ายทางการแพทย์อาจปล่อยผ่านสแกนตามปกติโดยอัตโนมัติ (Human-out-of-the-Loop) ขณะที่ส่งภาพที่มีความผิดปกติให้รังสีแพทย์ตรวจ (Human-in-the-Loop) การปรับจูนให้ถูกต้อง—คือรู้ว่าจะวางมนุษย์ไว้ตรงไหนในกระบวนการ—เป็นหนึ่งในการตัดสินใจด้านสถาปัตยกรรมระบบ AI ที่สำคัญที่สุด
คุณลักษณะสำคัญของระบบ HITL คือการถือว่าการมีส่วนร่วมของมนุษย์เป็นส่วนประกอบที่ขาดไม่ได้ของการทำงาน มนุษย์เป็นผู้มีบทบาทในกระบวนการตัดสินใจหรือการเรียนรู้ของระบบ ทำให้ลูปจะไม่ปิดลงหากปราศจากอินพุตของพวกเขา ระบบถูกออกแบบโดยคาดหวังว่าความเห็นจากมนุษย์จะกำหนดพฤติกรรมของมันอย่างต่อเนื่อง
HITL ทำงานอย่างไร?
การทำงานของ HITL ในทางปฏิบัติมีสองด้าน: วิธีที่มนุษย์โต้ตอบกับระบบ และการใช้งานทางเทคนิคที่รองรับปฏิสัมพันธ์เหล่านั้น
วิธีการโต้ตอบของมนุษย์
คำถามที่พบบ่อยเกี่ยวกับการฝังมนุษย์ไว้ในลูปคือ ควรผสานมนุษย์อย่างไร เมื่อไร และที่ไหน ระบบ HITL ที่มีประสิทธิภาพทำให้จุดสัมผัสเหล่านี้ไม่ใช่การแทรกแซงแบบฉุกเฉิน แต่เป็นจุดเชื่อมต่อที่ผ่านการออกแบบมาอย่างดี
การติดป้ายกำกับข้อมูล
นี่คือรูปแบบ HITL ที่พบบ่อยและเป็นรากฐานที่มนุษย์ใส่คำอธิบายกำกับข้อมูลดิบ ทั้งรูปภาพ ข้อความ และเสียง เพื่อสร้างชุดข้อมูลที่มีป้ายกำกับ
เมื่อรังสีแพทย์อธิบายกำกับภาพเอ็กซเรย์ หรือผู้ทำงานบนแพลตฟอร์ม crowdsourcing ติดป้ายกำกับภาพเพื่อการตรวจจับวัตถุ พวกเขากำลังกำหนดความหมายของคำว่า "ถูกต้อง" ให้กับโมเดล คุณภาพของป้ายกำกับเหล่านี้มีบทบาทสำคัญต่อการที่โมเดลเรียนรู้การมองโลก และยังกำหนดประสิทธิภาพของโมเดลด้วย แค่ให้คู่มือผู้ติดป้ายกำกับ อาจทำให้ได้ชุดข้อมูลที่เอนเอียงไปตามผู้ที่คุณจ้าง คำสั่งที่คุณเขียน และเคสชายขอบที่คุณคาดถึง
แนวทางที่ดีกว่าคือแบบวนซ้ำ โดยติดป้ายกำกับเป็นชุด ย่อย ฝึกโมเดล แล้วประเมินว่ามันล้มเหลวตรงไหนเพื่อปรับแนวทาง จากนั้นติดป้ายใหม่ เข้าใจได้ว่าการวนซ้ำทำให้กระบวนการช้าลง แต่ก็นับเป็นหนทางเดียวที่จะสร้างระบบที่เชื่อถือได้
การประเมินโมเดล
มนุษย์ประเมินระบบ AI และให้ข้อเสนอแนะเชิงคุณภาพเมื่อผลลัพธ์ของโมเดลเบี่ยงเบนจากที่คาดหวัง มักเป็นผู้เชี่ยวชาญเฉพาะด้านที่มีความรู้โดเมน
ประสบการณ์ของฉันพบว่าการให้ผู้ใช้ปลายทางดูผลลัพธ์ของโมเดลเป็นวิธีที่ดีที่สุดในการหาช่องโหว่ ในโครงการ AI ล่าสุด ฉันตรวจสอบผลลัพธ์ของผู้ช่วยอัจฉริยะโดยให้ทีมที่จะใช้งานจริงประเมินด้านความช่วยเหลือ ความถูกต้อง และน้ำเสียง การประเมินเช่นนี้สำคัญในกรณีที่ความถูกต้องเป็นเรื่องอัตวิสัยหรือขึ้นกับบริบท
การเรียนรู้เชิงรุก (Active learning)
แทนที่จะติดป้ายกำกับข้อมูลแบบสุ่ม Active learning พลิกความสัมพันธ์ให้โมเดลระบุว่าตัวอย่างที่ยังไม่มีป้ายกำกับใดที่มันไม่แน่ใจที่สุด และขอให้มนุษย์ติดป้ายกำกับตัวอย่างเหล่านั้นโดยเฉพาะ สัญชาตญาณคือ โมเดลจะเรียนรู้ได้มากกว่าจากตัวอย่างเดียวที่มันสับสน มากกว่าตัวอย่างนับร้อยที่มันทำได้คร่าว ๆ แล้ว ฉันเห็นว่าช่วยลดต้นทุนการอธิบายกำกับได้อย่างมากในทางปฏิบัติ
Reinforcement learning with human feedback (RLHF)
RLHF เป็นเทคนิคที่ปรับโมเดลเชิงกำเนิดอย่าง GPT-5.5 และ Claude Opus 4.8 ให้สอดคล้องกับความต้องการของมนุษย์ หากเคยโต้ตอบกับโมเดลภาษาขนาดใหญ่หลัก ๆ ในช่วงไม่กี่ปีที่ผ่านมา แสดงว่าคุณสัมผัสผลพวงของ HITL ในระดับมหภาคแล้ว กระบวนการนี้ให้โมเดลฐานสร้างหลายคำตอบต่อพรอมป์ต และต้องการข้อเสนอแนะจากมนุษย์ต่อผลลัพธ์ของโมเดลเพื่อสร้างโมเดลรางวัล จากนั้นจึงปรับแต่งโมเดลฐานด้วยการเรียนรู้แบบเสริมแรงให้ได้คะแนนโมเดลรางวัลสูงสุด
การใช้งานทางเทคนิค
HITL มักถูกมองว่าเป็น “ขั้นมนุษย์” ที่เพิ่มเข้าไปในไปป์ไลน์ที่มีอยู่ สำหรับระบบแบบเอเจนต์ที่โมเดลลงมือทำเป็นลำดับ ไม่ใช่แค่สร้างผลลัพธ์ครั้งเดียว เรื่องนี้ซับซ้อนกว่านั้น ต้องสามารถหยุดการทำงานในจังหวะที่เหมาะสมและรวบรวมบริบทมากพอให้มนุษย์ตัดสินใจได้อย่างมีข้อมูล
เครื่องมือเวิร์กโฟลว์อย่าง LangGraph รองรับฟังก์ชันขัดจังหวะที่ทริกเกอร์ได้เมื่อเกินเกณฑ์ความไม่มั่นใจหรือเมื่อมีการละเมิดนโยบาย ส่วนที่ยากที่สุดคือการกำหนดตำแหน่งจุดตรวจ เพราะน้อยไปจะกลายเป็นกล่องดำ มากไปจะทำให้ผู้ตรวจทานมนุษย์ล้นมือจากการต้องตรวจตัดสินใจจำนวนมาก
ความสำคัญของ HITL ในแมชชีนเลิร์นนิง
HITL เติมเต็มช่องว่างเมื่อโมเดลแตะเพดานการฝึกของตน และช่วยให้ระบบปรับตัวเมื่อโลกความจริงเปลี่ยนแปลงอยู่ตลอด
การเชื่อมช่องว่าง
โมเดลแมชชีนเลิร์นนิงเก่งในการค้นหารูปแบบจากข้อมูลที่เคยเห็น ปัญหาเริ่มขึ้นเมื่อโลกจริงมาพร้อมอินพุตที่ไม่สมบูรณ์ บริบทคลุมเครือ หรือสถานการณ์ที่ต้องใช้วิจารณญาณที่ไม่มีชุดฝึกใดครอบคลุมอย่างครบถ้วน
ตรงนี้เองที่ระบบ HITL รับมือกับความไม่แน่นอน เติมความละเมียดละไม อาศัยสัญญาณบริบทและการให้เหตุผล ซึ่งเมื่อผสานกับจุดแข็งของแมชชีนเลิร์นนิงแล้วจะกลายเป็นส่วนผสมที่ชนะเลิศ
ความสามารถในการปรับตัว
พูดถึงสภาพแวดล้อมจริง ก็ย่อมมีความพลวัตโดยเนื้อแท้ ความชอบของผู้ใช้เปลี่ยน ภาษาในโซเชียลมีเดียเปลี่ยน กลยุทธ์ฉ้อโกงก็เปลี่ยนเพื่อหลบเลี่ยงระบบตรวจจับ
โมเดลที่เปิดใช้งานในเดือนมกราคมอาจเสื่อมประสิทธิภาพลงอย่างเงียบ ๆ ภายในเดือนกรกฎาคม เพราะโลกที่มันทำงานอยู่ลื่นไหลห่างจากโลกที่มันถูกฝึกมา มนุษย์ในลูปสามารถสังเกตการลื่นไหลของผลลัพธ์และทริกเกอร์การฝึกใหม่เพื่อปรับ ปรับปรุง และขัดเกลาความเข้าใจของโมเดล
ประโยชน์ของ Human-in-the-Loop (HITL)
ข้อดีของ HITL ปรากฏได้หลายมิติ ตั้งแต่คุณภาพผลลัพธ์ไปจนถึงความเชื่อมั่นของผู้ใช้
ความแม่นยำและความน่าเชื่อถือที่เพิ่มขึ้น
ผลลัพธ์อันดับแรกของระบบ HITL คือความแม่นยำและความน่าเชื่อถือที่สูงขึ้น โดยเฉพาะงานที่เกี่ยวข้องกับบริบทและความเชี่ยวชาญโดเมน การกำกับดูแลโดยมนุษย์ช่วยจับความผิดพลาดที่ระบบอัตโนมัติอาจมองข้าม โดยเฉพาะในเคสชายขอบ
การบรรเทาอคติ
ทุกชุดข้อมูลสะท้อนบริบทขณะถูกสร้าง นั่นหมายความว่าโมเดลทุกตัวเสี่ยงจะเข้ารหัสและขยายอคติที่มีอยู่ เมื่อมีผู้ตรวจมนุษย์ฝังอยู่ในขั้นติดป้ายกำกับ ฝึกสอน และประเมินผล จะมีพื้นที่ในการระบุและแก้อคติเหล่านี้ก่อนลามไปปลายน้ำ ทั้งนี้ไม่ใช่การแก้ครั้งเดียวจบ อคติสามารถย้อนกลับเข้ามาผ่านข้อมูลใหม่ ทำให้ HITL อย่างต่อเนื่องเป็นสิ่งจำเป็น
ความโปร่งใสและการอธิบายได้
ข้อกังวลเรื้อรังของระบบแมชชีนเลิร์นนิงคือการตัดสินใจที่ทึบแสง กระบวนการ HITL โดยธรรมชาติสร้างเอกสารประกอบในรูปของป้ายกำกับ บันทึกข้อเสนอแนะ และคำตัดสินในการทบทวน ร่องรอยตรวจสอบนี้ทำให้การอธิบายพฤติกรรมของโมเดลง่ายขึ้น และสืบย้อนปัญหากลับไปยังต้นตอได้ ซึ่งสำคัญอย่างยิ่งในอุตสาหกรรมที่มีการกำกับดูแล
ความเชื่อมั่นของผู้ใช้ที่ดีขึ้น
ผู้ใช้มักเชื่อมั่นมากขึ้นกับระบบที่มีมนุษย์กำกับดูแล ไม่ว่าจะเป็นการอนุมัติสินเชื่อ แปลผลการวินิจฉัย หรือชี้ขาดว่าเนื้อหาชิ้นหนึ่งละเมิดมาตรฐานชุมชนหรือไม่ การกำกับดูแลโดยมนุษย์ส่งสัญญาณความน่าเชื่อถือแก่ผู้ใช้ แม้พวกเขาจะไม่ได้โต้ตอบกับกลไกการกำกับดูแลนั้นโดยตรง
การปรับปรุงอย่างต่อเนื่อง
ต่างจากซอฟต์แวร์ที่มีกฎตายตัว ระบบ HITL สามารถเรียนรู้และพัฒนาขึ้นตามกาลเวลา ทุกวงรอบของข้อเสนอแนะจะสร้างข้อมูลที่ทำให้รอบถัดไปมีความสามารถมากขึ้น การทบต้นของการพัฒนานี้คือคุณสมบัติที่ให้ผลคุ้มค่าที่สุดประการหนึ่งของระบบ HITL ที่ออกแบบอย่างดี
ตัวอย่าง HITL
มีหลายโดเมนที่แสดงรูปแบบนี้ได้ชัดเจนเป็นพิเศษ
การจำแนกรูปภาพ
โมเดล AI ที่ตรวจจับความผิดปกติในเอ็กซเรย์ทรวงอก MRI และสไลด์พยาธิวิทยา มักเกี่ยวข้องกับรังสีแพทย์หรือพยาธิแพทย์มนุษย์ที่ตรวจทานเคสที่ AI ติดธง การผสานปัญญามนุษย์–AI นี้แม่นยำกว่าการทำงานฝ่ายใดฝ่ายหนึ่งลำพัง เหตุผลคือค่าความเสียหายจากการวินิจฉัยพลาดสูงพอจะคุ้มค่าโอเวอร์เฮด และมนุษย์มีความเชี่ยวชาญแท้จริงที่โมเดลจำลองไม่ได้
ประมวลผลภาษาธรรมชาติ
ความละเมียดทางภาษาในงานอย่างการแปลภาษา วิเคราะห์อารมณ์ และกรองสแปม มักต้องการการตีความของมนุษย์เพื่อจับเสียดสี สำนวนวัฒนธรรม และความหมายที่ขึ้นกับบริบทซึ่งทำให้แนวทางเชิงอัลกอริทึมสับสน
การสร้างและทบทวนเนื้อหา
แพลตฟอร์มที่รองรับเนื้อหาที่ผู้ใช้สร้างจำนวนมากอาศัย AI ในการจัดลำดับความสำคัญและติดธงการละเมิดนโยบายให้มนุษย์ทบทวน นี่คือตัวอย่างคลาสสิกของความร่วมมือมนุษย์–AI ที่ AI จัดการปริมาณ ส่วนมนุษย์รับมือเคสชายขอบที่ต้องใช้บริบทวัฒนธรรมและความเข้าใจประชดประชันที่ละเอียดอ่อน
แอปพลิเคชันเฉพาะทาง
การตัดสินใจด้านเครดิต การตรวจจับการฉ้อโกง และระบบเทรดดิ้งเชิงอัลกอริทึม ล้วนทำงานภายใต้ข้อกำกับที่กำหนดความรับผิดชอบของมนุษย์ กลไก HITL ทำให้การตัดสินใจที่มีผลกระทบสามารถถูกทบทวน อธิบาย และโต้แย้งได้ ตอบโจทย์ทั้งมาตรฐานทางกฎหมายและพันธกรณีทางจริยธรรม
หลักการออกแบบสำหรับระบบ HITL
ความแตกต่างระหว่าง HITL ที่ได้ผลกับ HITL ที่ดูดีแต่ไม่เวิร์ก อยู่ที่หลักการไม่กี่ข้อ

ให้คุณค่ากับอำนาจตัดสินใจของมนุษย์
ระบบ HITL ที่มีประสิทธิภาพที่สุดมองว่าข้อมูลจากมนุษย์มีคุณค่าแท้จริง ไม่ใช่แค่ทางลัดหรือแผนสำรอง ซึ่งต้องออกแบบงานให้ใช้ความสามารถเฉพาะของมนุษย์ในการตัดสินตามบริบท การให้เหตุผลเชิงจริยธรรม และการประเมินเชิงสร้างสรรค์ แทนการใช้มนุษย์ทำงานที่ระบบอัตโนมัติทำได้ดีอยู่แล้ว
ระดับความละเอียดของการควบคุม
HITL ที่มีประสิทธิภาพแทบไม่เคยหมายถึงการมีมนุษย์ยุ่งเกี่ยวทั้งหมดหรือไม่ยุ่งเกี่ยวเลย ระบบที่ดีที่สุดใช้ด่านตรวจของมนุษย์แบบละเอียด เปิดให้มนุษย์ทบทวนเฉพาะเคสชายขอบและการตัดสินใจที่มีความเสี่ยงสูง ขณะที่ปล่อยให้โมเดลทำงานอัตโนมัติในกรณีรูทีนที่มีความเชื่อมั่นสูง วิธีที่ปรับเทียบเช่นนี้ช่วยใช้ความสนใจของมนุษย์ได้คุ้มค่าที่สุด
ส่วนต่อประสานที่ใช้งานง่าย
คุณภาพของผลลัพธ์ HITL ถูกจำกัดด้วยคุณภาพของอินเทอร์เฟซที่มนุษย์ใช้ส่งข้อมูลเข้าไป เครื่องมือติดป้ายกำกับ แดชบอร์ดทบทวน และอินเทอร์เฟซข้อเสนอแนะ ควรลดภาระทางความคิด แสดงบริบทที่เกี่ยวข้อง และทำให้ผู้ตรวจมนุษย์ให้ข้อมูลที่แม่นยำและนำไปปฏิบัติได้ง่าย อินเทอร์เฟซที่เทอะทะทำให้สัญญาณการฝึกเต็มไปด้วยสัญญาณรบกวนรูปแบบหนึ่ง
สมดุลระหว่างระบบอัตโนมัติและการโต้ตอบ
ทุกการปรับใช้ HITL ต้องหาสมดุลระหว่างระบบอัตโนมัติกับการมีมนุษย์โต้ตอบ น้อยไปจะเสียประโยชน์จากการกำกับดูแล มากไปจะทำให้ระบบช้าลงจนข้อได้เปรียบด้านประสิทธิภาพหายไป การหาจุดที่เหมาะสมขึ้นกับบริบท ต้องอาศัยการทดสอบเชิงประจักษ์ การปรับเทียบต่อเนื่อง และการประเมินอย่างตรงไปตรงมาว่าที่ใดที่วิจารณญาณของมนุษย์เพิ่มคุณค่าได้จริง
ข้อจำกัดของ HITL
แม้จะมีคุณค่ามาก HITL ก็มีข้อแลกเปลี่ยนจริง
ความผิดพลาดของมนุษย์
การมีมนุษย์เกี่ยวข้องไม่ได้กำจัดความผิดพลาดเสียทีเดียว ระบบ HITL ก็มีข้อจำกัด และดีได้เท่ากับคุณภาพของมนุษย์ที่เข้าร่วมเท่านั้น ความล้าในการติดป้ายกำกับ มาตรฐานไม่สม่ำเสมอ อคติทางความคิด และช่องว่างความรู้ ล้วนส่งผลต่อคุณภาพข้อเสนอแนะจากมนุษย์ แต่สามารถบรรเทาได้ด้วยแนวทางอย่างการวัดความสอดคล้องระหว่างผู้ติดป้ายกำกับ การฝึกและการปรับเทียบ และการทบทวนซ้ำซ้อนสำหรับป้ายกำกับที่มีความเสี่ยงสูง
ความสามารถในการขยายขนาด
ข้อจำกัดหลักอย่างหนึ่งของมนุษย์ในลูปคือความสามารถในการทำงานในสเกลใหญ่ ใช่ ความสนใจของมนุษย์คือคอขวดพื้นฐาน เมื่อชุดข้อมูลเติบโตเป็นระดับพันล้านตัวอย่างและโมเดลทำงานในสเกลอินเทอร์เน็ต อัตราส่วนผู้ตรวจมนุษย์ต่อการตัดสินใจจะเล็กมาก แม้ Active learning การสุ่มตามความไม่มั่นใจ และการจัดเส้นทางอัจฉริยะจะช่วยโฟกัสความพยายามของมนุษย์ไปยังจุดที่สำคัญที่สุด แต่การทำให้ HITL ขยายขนาดได้ยังคงเป็นปัญหาใหญ่ที่ยังไม่คลี่คลาย
ต้นทุน
ในมุมพลวัตต้นทุน การอธิบายกำกับและการทบทวนโดยมนุษย์มีราคาแพง โดยเฉพาะในสาขาที่ต้องใช้ผู้เชี่ยวชาญเฉพาะทาง การอธิบายกำกับภาพทางการแพทย์โดยรังสีแพทย์ผู้เชี่ยวชาญ การทบทวนเอกสารทางกฎหมายโดยทนายความ หรือการรีวิวโค้ดโดยวิศวกรอาวุโส ล้วนมีต้นทุนต่อชั่วโมงที่ทำให้การใช้ HITL บางกรณีท้าทายด้านเศรษฐศาสตร์เมื่อขยายสเกล
ความซับซ้อนของการบูรณาการ
การฝังกลไก HITL ลงในไปป์ไลน์ ML ที่มีอยู่เป็นเรื่องของกระบวนการในสถาบัน เช่น การกำหนดเส้นทางยกระดับปัญหาและโครงสร้างความรับผิดชอบ พอกับเรื่องโครงสร้างพื้นฐานทางเทคนิค ขณะที่ทีมวิศวกรรมต้องสร้างระบบจัดเส้นทาง การติดธง และการเก็บข้อเสนอแนะ ฉันก็เคยทำงานกับทีม Mops (Manual operations) ที่ต้องให้ความสำคัญเท่า ๆ กันทั้งด้านกำลังคนและการบริหารคิวรีวิว
เมื่อใดที่ HITL ล้มเหลว?
HITL ไม่ได้จะแก้ปัญหา “ระบบ AI ทำงานไม่เป็นไปตามคาด” ได้ทั้งหมด มีสถานการณ์ชัดเจนที่มันใช้ไม่ได้ผล
ระบบความถี่สูง
ในสภาพแวดล้อมที่ต้องการการตอบสนองระดับมิลลิวินาที เช่น การรักษาเสถียรภาพของโดรน การแทรกแซงของมนุษย์ช้าเกินไปและไม่เหมาะสม การยัด HITL เข้าไปในบริบทเช่นนี้จะสร้างความล่าช้าที่บั่นทอนการทำงานของระบบ
ความล้าและปัญหาความสม่ำเสมอ
การติดป้ายกำกับหรือทบทวนเป็นเวลานานทำให้ประสิทธิภาพมนุษย์ลดลง งานวิจัยเกี่ยวกับการกลั่นกรองเนื้อหาโดยเฉพาะ แสดงให้เห็นถึงต้นทุนทางจิตใจและการรับรู้ที่สูงต่อผู้ที่ต้องทบทวนเนื้อหาที่เป็นอันตรายจำนวนมาก ผู้ตรวจที่ล้าจะให้ป้ายกำกับที่ไม่สม่ำเสมอ ซึ่งทำให้ประสิทธิภาพโมเดลลดลง
การพึ่งพาระบบอัตโนมัติเกินไป
และยังมีอคติจากระบบอัตโนมัติ คือแนวโน้มที่มนุษย์ไว้ใจระบบมากเกินไปจนหยุดประเมินผลลัพธ์อย่างวิพากษ์ หากผู้ตรวจของคุณอนุมัติ 98% ของสิ่งที่โมเดลผลิต แปลว่าคุณจ่ายค่ากำกับดูแลแต่ไม่ได้ประโยชน์ มักเห็นได้จากผู้ตรวจให้คะแนนสำเนียงบางแบบว่าดูเป็นมืออาชีพมากหรือน้อยกว่า หรือยึดสมมติฐานทางวัฒนธรรมบางอย่างอย่างสม่ำเสมอที่ไม่อาจทั่วไปได้
ทิศทางในอนาคต
อนาคตของ HITL อยู่ที่การบูรณาการที่ดีขึ้น ไม่ใช่การแทรกแซงให้มากขึ้น
เครื่องมือขั้นก้าวหน้า
แพลตฟอร์มใหม่ ๆ กำลังทำให้การจัดการข้อเสนอแนะจากมนุษย์และการติดตามการตัดสินใจทำได้ง่ายขึ้น
กรอบจริยธรรม
เมื่อระบบ AI ถูกใช้งานในโดเมนที่มีผลกระทบต่อชีวิต ความกดดันด้านกฎระเบียบเพื่อคงไว้ซึ่งการกำกับดูแลโดยมนุษย์ที่มีความหมายกำลังเพิ่มสูงขึ้น ตัวอย่างเช่น EU AI Act กำหนดข้อกำหนดด้านการกำกับดูแลโดยมนุษย์ในแอปพลิเคชัน AI ที่มีความเสี่ยงสูง HITL กำลังกลายเป็นข้อกำหนดเพื่อการปฏิบัติตาม และกรอบการนำไปใช้อย่างรับผิดชอบก็กำลังพัฒนาอย่างแข็งขัน
การบูรณาการกับ Generative AI
โมเดล Generative AI ที่สามารถผลิตผลลัพธ์ในสเกลใหญ่ ต้องการการประเมินโดยมนุษย์ในขอบเขตที่เกินความสามารถการติดป้ายกำกับแบบดั้งเดิม
พัฒนาการที่น่าสนใจกว่าคือการรีวิวที่ AI ช่วยมนุษย์ โดยใช้โมเดลช่วยให้มนุษย์รับมือกับปริมาณงานที่เกินกำลัง เป็นวงจรประหลาดที่ใช้ AI ทำให้การกำกับดูแล AI โดยมนุษย์เป็นไปได้ แต่มีแนวโน้มว่าวงการกำลังมุ่งไปทางนี้ และการหาวิธีทำโดยไม่ลดทอนคุณภาพของการกำกับดูแลยังเป็นปัญหาเปิด
บทสรุป
คำมั่นของระบบอัตโนมัติเต็มรูปแบบฟังดูน่าตื่นเต้น เพราะมาพร้อมประโยชน์ด้านประสิทธิภาพ ต้นทุนที่ลดลง และสเกล แต่สเกลนั้นก็หมายความว่าความล้มเหลวอาจเกิดขึ้นในสเกลเดียวกันได้ด้วย
Human-in-the-Loop คือกระบวนทัศน์ในการสร้างระบบ AI ที่ดีกว่า โดยผสานจุดแข็งของเครื่องจักรและมนุษย์เพื่อส่งมอบระบบที่แม่นยำ ปรับตัวได้ และน่าเชื่อถือมากขึ้น
เป้าหมายคือวางการมีส่วนร่วมของมนุษย์ที่เหมาะสม ในจังหวะที่เหมาะสม ด้วยอินเทอร์เฟซที่เหมาะสม โดยมีบุคลากรที่ไม่เหนื่อยล้าจากการแจ้งเตือนมากเกินไปและไม่อนุมัติโดยอัตโนมัติ การปรับเทียบให้ถูกต้องนั้นยากกว่าที่คิด แต่ก็เป็นหนึ่งในโจทย์วิศวกรรมที่สำคัญที่สุดของ AI ในตอนนี้
HITL คำถามที่พบบ่อย
Human-in-the-Loop (HITL) คืออะไรแบบเข้าใจง่าย?
HITL คือแนวทางการออกแบบระบบที่ให้มนุษย์มีส่วนร่วมอย่างแข็งขันในการสร้าง ฝึกสอน ประเมินผล และมอนิเตอร์ระบบ AI เพื่อยกระดับประสิทธิภาพและความน่าเชื่อถือ
HITL ต่างจาก Human-on-the-Loop (HOTL) อย่างไร?
HITL ต้องการการมีส่วนร่วมโดยตรงของมนุษย์ในการตัดสินใจ ขณะที่ HOTL คือการที่มนุษย์คอยกำกับดูแลระบบและแทรกแซงเฉพาะเมื่อจำเป็น
ทำไม HITL จึงสำคัญต่อระบบ AI สมัยใหม่?
ช่วยเพิ่มวิจารณญาณตามบริบท ลดอคติ เพิ่มความแม่นยำ และทำให้ระบบปรับตัวได้เมื่อสภาพจริงเปลี่ยนแปลง
กรณีใช้งาน HITL ที่พบบ่อยมีอะไรบ้าง?
งานวินิจฉัยด้านสุขภาพ การตรวจจับการฉ้อโกง การกลั่นกรองเนื้อหา และระบบประมวลผลภาษาธรรมชาติมักใช้ HITL เพื่อเพิ่มความแม่นยำและความรับผิดชอบ
ความท้าทายหลักของระบบ HITL คืออะไร?
ความสามารถในการขยายขนาด ต้นทุน ความผิดพลาดของมนุษย์ และความซับซ้อนของการบูรณาการคือความท้าทายใหญ่ โดยเฉพาะในระบบปริมาณมากหรือแบบเรียลไทม์