ข้ามไปยังเนื้อหาหลัก

อธิบาย SubQ AI: LLM หน้าต่างบริบท 12M ดีแค่ไหน

โมเดล SubQ ของ Subquadratic อ้างหน้าต่างบริบท 12M โทเค็น ประสิทธิภาพสูงขึ้น 52 เท่า และสมรรถนะระดับแนวหน้า ต่อไปนี้คือวิธีทำงานของสถาปัตยกรรม SSA และสิ่งที่เบนช์มาร์กบอกจริง ๆ
อัปเดตแล้ว 12 พ.ค. 2569  · 13 นาที อ่าน

เมื่อวันที่ 5 พฤษภาคม 2026 สตาร์ตอัปขนาดเล็กในไมอามีชื่อ Subquadratic ได้ปล่อยโมเดลชื่อ SubQ ทีมมีขนาดเล็ก แต่ระดมทุนเมล็ดได้ 29 ล้านดอลลาร์ และอ้างว่าโมเดลสามารถประมวลผลได้สูงสุด 12 ล้านโทเค็นใน ครั้งเดียว

พวกเขายังมีข้ออ้างที่ดูเหลือเชื่ออื่น ๆ เช่น โมเดลของตนมีประสิทธิภาพมากกว่า FlashAttention ถึง 52 เท่า ที่ 1M โทเค็น และทำผลงานด้านโค้ดได้ใกล้เคียงกับ Claude Opus ในต้นทุนประมาณ 1/20

นี่เป็นข้อกล่าวอ้างที่ใหญ่มาก จึงสมเหตุสมผลที่จะลองแยกแยะดูว่าจริง ๆ แล้วเกิดอะไรขึ้น บทความนี้จะพาไปดูว่า SubQ คืออะไร สถาปัตยกรรมทำงานอย่างไร และรายละเอียดเบื้องต้นรวมถึงสิ่งที่ชุมชนนักพัฒนาชี้ให้เห็นเกี่ยวกับข้ออ้างเหล่านี้

SubQ คืออะไร?

SubQ คือ LLM ของ Subquadratic เปิดตัวเมื่อวันที่ 5 พฤษภาคม 2026 และถูกสร้างขึ้นจากจุดเด่นเพียงข้อเดียว: หน้าต่างบริบท 12 ล้านโทเค็น เป็นโมเดลตัวแรกที่บริษัทปล่อยออกมา และมาพร้อมข้ออ้างที่กล้าหาญด้านประสิทธิภาพและต้นทุน ซึ่งได้จุดประกายการถกเถียงอย่างกว้างขวางแล้ว 

โมเดลยังไม่เปิดให้ใช้งานสาธารณะ การเข้าถึง API, SubQ Code และ SubQ Search ยังจำกัดอยู่ที่การเข้าถึงล่วงหน้าผ่านรายชื่อรอเท่านั้น

มันถูกสร้างบนสิ่งที่เรียกว่า SSA ซึ่งย่อมาจาก Subquadratic Sparse Attention

แทนที่จะเปรียบเทียบทุกโทเค็นกับทุกโทเค็นอื่นเหมือนที่ dense attention มาตรฐานทำ SSA ใช้วิธีเลือกสรร สำหรับแต่ละโทเค็น โมเดลจะเลือกโทเค็นที่เกี่ยวข้องที่สุด และคำนวณความสัมพันธ์เฉพาะภายในชุดนั้น

สิ่งนี้ก่อให้เกิดผลที่ชัดเจนสองประการ

  • ประการแรก ลดจำนวนการคำนวณ ซึ่งช่วยเพิ่มประสิทธิภาพโดยตรงและลดต้นทุน 
  • ประการที่สอง การคัดเลือกขึ้นกับเนื้อหา หมายความว่าโมเดลไม่ได้มองแค่โทเค็นที่อยู่ใกล้ ๆ แต่สามารถดึงโทเค็นที่เกี่ยวข้องจากที่ใดก็ได้ในลำดับ แม้จะอยู่ห่างกันมาก

อะไรทำให้ SubQ พิเศษ?

ในทางปฏิบัติ สถาปัตยกรรม SSA ทำให้โมเดลโฟกัสกับสิ่งที่สำคัญจริง ๆ แทนที่จะประมวลผลทุกอย่างอย่างเท่าเทียมกัน ผลลัพธ์ที่คาดหวังคือได้ความแม่นยำใกล้เคียงกับ full attention แต่ต้องใช้คอมพิวต์และหน่วยความจำน้อยลงอย่างมาก

มาดู dense attention ให้ใกล้ชิดขึ้นก่อน แล้วค่อยเปรียบเทียบทั้งสองแนวทาง

ปัญหาการสเกลกำลังสองในทรานส์ฟอร์เมอร์

โมเดลปัจจุบันอย่าง GPT, Claude และ Gemini พึ่งพา dense attention โดยรวมหมายความว่า ทุกโทเค็นจะถูกเปรียบเทียบกับทุกโทเค็นอื่นในอินพุต เมื่ออินพุตยาวขึ้น จำนวนการเปรียบเทียบจะเพิ่มขึ้นเป็นกำลังสอง

ลองนึกถึงเอกสารยาว ๆ ที่โมเดลต้องสร้างคำสุดท้าย มันจะย้อนดูทุกโทเค็นในเอกสารนั้น สร้างความสัมพันธ์ แล้วจึงตัดสินใจว่าควรตามด้วยอะไร นั่นคือเหตุผลที่ dense attention ทำงานได้ดี เพราะมันพิจารณาทุกอย่าง

แต่จุดแข็งนั้นก็มาพร้อมต้นทุน เมื่อขนาดอินพุตเพิ่มขึ้น ความต้องการคอมพิวต์และหน่วยความจำจะพุ่งสูง และสร้างข้อจำกัดของ หน้าต่างบริบท กล่าวอย่างง่ายคือ สเกลที่ O(n²) โดย n คือจำนวนโทเค็น

นี่คือเหตุผลที่โมเดลส่วนใหญ่อยู่ในขอบเขตที่ใช้งานได้จริง ปกติจะอยู่ที่ 128k โทเค็น และโมเดลทรงพลังส่วนใหญ่อย่าง Claude Opus สูงสุดที่หน้าต่างบริบท 1M

เพื่อเลี่ยงปัญหานี้ ระบบที่ขับเคลื่อนด้วย AI ส่วนใหญ่จะหลีกเลี่ยงการป้อนข้อมูลทั้งชุดให้โมเดล แต่ใช้เทคนิคอย่างเช่น:

  • RAG (Retrieval-Augmented Generation): เก็บข้อมูลภายนอก ดึงมาเฉพาะชิ้นส่วนที่เกี่ยวข้อง แล้วส่งเข้าโมเดล
  • การแบ่งชิ้น (Chunking): แยกข้อความขนาดใหญ่เป็นส่วนย่อย แล้วส่งเฉพาะส่วนที่เกี่ยวข้องให้โมเดล
  • กลยุทธ์การสรุป: บีบอัดเนื้อหายาว แล้วป้อนบทสรุปแทนข้อความทั้งหมด

หากต้องการเข้าใจกลไก attention ลึกขึ้น ลองดูบทเรียนเรื่อง Attention Mechanism ใน LLMs และเพื่อฝึกภาคปฏิบัติกับบล็อกพื้นฐานของ LLM สมัยใหม่ แนะนำหลักสูตร Transformer Models with PyTorch

แนวทางที่ SubQ วางตำแหน่งต่างออกไป

Dense attention เติบโตแบบกำลังสองตามขนาดอินพุต ขณะที่ SSA ถูกออกแบบให้สเกลแบบต่ำกว่ากำลังสอง เข้าใกล้ O(n·k) แทน O(n²) โดยที่ k คือจำนวนโทเค็นที่ถูกเลือกต่อสเต็ป เมื่อคงค่า k ให้เล็กเมื่อเทียบกับ n วิธีนี้มีประสิทธิภาพกว่าการใช้ full attention มาก

ไดอะแกรม attention แบบกำลังสองกับเชิงเส้น แสดงการเชื่อมต่อหนาแน่นแบบทุกจุดเชื่อมทุกจุด เทียบกับการเชื่อมต่อแบบเบาบางที่เลือกสรร

ไดอะแกรม attention แบบกำลังสองกับเชิงเส้น แสดงการเชื่อมต่อหนาแน่นแบบทุกจุดเชื่อมทุกจุด เทียบกับการเชื่อมต่อแบบเบาบางที่เลือกสรร

ข้อกังวลที่เห็นได้ชัดคือความแม่นยำ หากโมเดลมองเพียงส่วนหนึ่งของอินพุต อาจพลาดความสัมพันธ์สำคัญ นี่คือข้อแลกเปลี่ยนที่มักเป็นเหตุผลให้ dense attention มีอยู่ตั้งแต่แรก

SubQ อ้างว่าข้อแลกเปลี่ยนนี้ไม่เกิดขึ้นจริง พวกเขาบอกว่าโมเดลให้ความสนใจกับโทเค็นที่จำเป็นทั้งหมด แม้จะอยู่ไกลจากโทเค็นปัจจุบัน และคงความแม่นยำใกล้เคียงกับโมเดลชั้นนำ

Subquadratic Sparse Attention ทำงานอย่างไร?

จนถึงตอนนี้ เราทราบแล้วว่าแทนที่จะเปรียบเทียบทุกโทเค็นกับทุกโทเค็น SSA จะเลือกเฉพาะโทเค็นที่สำคัญในลำดับ และคำนวณ attention เฉพาะตำแหน่งเหล่านั้น มาดูว่ามันเลือกอย่างไร

วิธีที่ SSA คัดเลือกความสัมพันธ์ที่เกี่ยวข้อง

SSA ใช้การกำหนดเส้นทางตามเนื้อหา กล่าวอย่างง่ายคือ เลือกโทเค็นตามความเกี่ยวข้องกับโทเค็นปัจจุบัน มันคำนวณคะแนนความคล้ายกันระหว่างโทเค็น คล้ายกับ similarity(query_i, key_j) แล้วเก็บเฉพาะโทเค็นอันดับต้น ๆ จำนวน k ที่มีคะแนนสูงสุดไว้สำหรับ attention

เมื่อเวลาผ่านไป โมเดลจะเรียนรู้ที่จะให้ความสำคัญกับโทเค็นที่มีความหมาย และมองข้ามสัญญาณรบกวน ซึ่งรวมถึงคีย์เวิร์ด เอนทิตีสำคัญ และโทเค็นที่มีสัญญาณเชิงบริบทที่ชัดเจน

นอกจากขึ้นกับเนื้อหา SSA ยังรักษาความสัมพันธ์เชิงโครงสร้างในลำดับไว้ด้วย เช่น โทเค็นที่อยู่ใกล้กันจะได้รับความสนใจเสมอผ่านรูปแบบ local attention ขณะที่โทเค็นบางชนิดที่เป็น global ถูกออกแบบให้เข้าถึงทั่วทั้งลำดับ

SSA ยังรวมเทคนิค attention แบบลำดับชั้นและอิงคลัสเตอร์ เช่น จัดกลุ่มโทเค็นที่คล้ายกัน และคำนวณ attention กับคลัสเตอร์ที่เกี่ยวข้องที่สุด หมายความว่าโมเดลไม่จำเป็นต้องประเมินทุกโทเค็นทีละตัว แต่วิเคราะห์ในระดับกลุ่มก่อน แล้วค่อยซูมเข้าไปยังโทเค็นภายในคลัสเตอร์เมื่อจำเป็น

การฝึกเพื่อการเรียกคืนบริบทยาว

เพียงมีหน้าต่างบริบทขนาดใหญ่ไม่ได้ทำให้เกิดเวทมนตร์ แม้ให้โมเดล 12M โทเค็น มันก็ยังต้องรู้จักใช้บริบทนั้นอย่างมีประสิทธิภาพ SSA ถูกฝึกมาเพื่อเป้าหมายนี้:

  • การพรีเทรน: โมเดลฐานถูกฝึกด้วยชุดข้อมูลขนาดใหญ่และหลากหลายที่มีการแทนค่าแบบบริบทยาว 
  • การปรับจูนแบบมีผู้สอน: จากนั้นโมเดลถูกฝึกบนงานที่มีโครงสร้าง รวมถึงการให้เหตุผลและการสร้างโค้ด 
  • การเรียนรู้แบบเสริมกำลัง: แทนที่จะจำกัดให้โมเดลพิจารณาเฉพาะโทเค็นใกล้เคียง (local attention) ขั้นตอนนี้มุ่งให้มันใช้โทเค็นที่เกี่ยวข้องจากทั้งข้อความ (global attention)

ขั้นตอนการเรียนรู้แบบเสริมกำลังสำคัญเป็นพิเศษสำหรับการใช้งานด้านโค้ดระดับองค์กร ทำให้โมเดลสามารถพิจารณาบริบทกว้างขึ้นพร้อมกัน ในที่นี้คือทั้งโค้ดเบส ระหว่างการสร้างผลลัพธ์

เบนช์มาร์กและสมรรถนะของ SubQ

หมายเหตุว่า "SubQ 1M-Preview" หมายถึงเวอร์ชันที่ทดสอบที่ 1M โทเค็น ส่วนหน้าต่างบริบทเต็ม 12M เข้าถึงได้ผ่าน API

ในสามเบนช์มาร์กที่ Subquadratic เลือกเผยแพร่ SubQ 1M-Preview ทำคะแนนสูสีกับ Claude Opus 4.7, GPT-5.5 และ Gemini 3.1 Pro 

แต่การเลือกเบนช์มาร์กค่อนข้างแคบ มีเพียงสามการทดสอบ และทั้งหมดโฟกัสที่การเรียกคืนบริบทยาวและการเขียนโค้ด ซึ่งเป็นสองเรื่องที่ SubQ ถูกออกแบบมาให้ทำได้ดีโดยเฉพาะ การประเมินที่กว้างขึ้นด้านการให้เหตุผลทั่วไป คณิตศาสตร์ พหุภาษา และความปลอดภัย ยังไม่ถูกเผยแพร่

การ์ดโมเดลฉบับเต็มถูกระบุว่า "เร็ว ๆ นี้" บนเว็บไซต์ ดังนั้นเราน่าจะได้เห็น เบนช์มาร์กเพิ่มเติมสำหรับเคสการใช้งานทั่วไปที่นั่น

สำหรับตอนนี้ นี่คือผลลัพธ์ในงานเรียกคืนบริบทยาวและการเขียนโค้ด:

โมเดล

SWE-Bench Verified

RULER 128K

MRCR v2 (8-needle, 1M)

SubQ (Subquadratic)

81.8%

95.0%

65.9%

Claude Opus 4.7

(Anthropic)

87.6%

94.8%

32.2%

GPT-5.5 (OpenAI)

88.7%

Not available

74.0%

Gemini 3.1 Pro (Google DeepMind)

80.6%

Not available

26.3%

DeepSeek V4 Pro (DeepSeek)

80.6%

Not available

83.5%

ตัวเลขบอกอะไร

RULER 128K: SubQ ได้ 95% เมื่อเทียบกับ Opus 4.7 ที่ 94.8% แม้ส่วนต่างความแม่นยำจะเล็กน้อย แต่สิ่งสำคัญจริง ๆ คือค่าใช้จ่าย: Subquadratic อ้างว่าการรันทดสอบนี้บน SubQ มีค่าใช้จ่ายราว 8 ดอลลาร์ เทียบกับประมาณ 2,600 ดอลลาร์บน Opus ที่ความยาวบริบทเดียวกัน

MRCR v2 (8-needle, 1M): เบนช์มาร์กนี้ทดสอบว่าโมเดลดึงและติดตามข้อเท็จจริงแยกกัน 8 ข้อ ที่ฝังอยู่ในบริบท 1M โทเค็นได้ถูกต้องหรือไม่ SubQ แสดงผลวิจัยที่ 83% แต่คะแนนในระบบจริงลดลงเหลือ 65.9% ช่องว่างราว 17 คะแนนระหว่างห้องแล็บกับการใช้งานจริงนี้โดดเด่นและยังไม่ได้อธิบายอย่างครบถ้วน ถึงอย่างนั้น ก็ยังแข่งขันได้กับ GPT-5.5 (74.0%) และนำหน้า Claude Opus 4.7 (32.2%) และ Gemini 3.1 Pro (26.3%) อย่างมาก

SWE-Bench Verified: SubQ ทำได้ 81.8% เหนือ Opus 4.6 ที่ 80.8% แต่ตามหลัง Opus 4.7 ที่ 87.6% ส่วนต่างเมื่อเทียบกับ Opus 4.6 มีน้อยและไวต่อการตั้งค่าเครื่องมือทดสอบ เทียบกับ Opus 4.7 และ GPT-5.5 SubQ ยังตามหลังอย่างชัดเจน

ที่ 12 ล้านโทเค็น: มีรายงานว่า SubQ ทำคะแนนเกิน 90% บนงานเข็มในกองฟางที่บริบท 12M แม้ว่าตัวเลขนี้ยังไม่ถูกยืนยันในเบนช์มาร์กทางการ ไม่มีโมเดลระดับแนวหน้าอื่นที่ถูกทดสอบที่ความยาวนี้ จึงไม่มีสิ่งให้เปรียบเทียบโดยตรง นี่เป็นผลลัพธ์ที่น่าสนใจที่สุดเชิงสถาปัตยกรรมจากการเปิดตัว และเป็นสิ่งที่ต้องการการทำซ้ำโดยอิสระก่อนสรุปผล

SubQ หมายถึงอะไรสำหรับ RAG เอเจนต์โค้ด และต้นทุน AI

หากสถาปัตยกรรมของ SubQ ใช้งานได้ในสเกลใหญ่ มันจะเปลี่ยนวิธีสร้างระบบ LLM บริบทที่ยาวขึ้นจะใช้งานได้จริง ลดความจำเป็นของการแบ่งชิ้น การดึงข้อมูล และการเพิ่มประสิทธิภาพโทเค็นเชิงรุก มาดูการเปลี่ยนแปลงเหล่านี้ให้ละเอียดขึ้น

เมื่อ RAG กลายเป็นตัวเลือก

ตลอดสองปีที่ผ่านมา Retrieval-Augmented Generation (RAG) เป็นคำตอบมาตรฐานต่อข้อจำกัดพื้นฐานของ LLM: โมเดลไม่สามารถอ่านทุกอย่างพร้อมกันได้ หากคลังความรู้ใหญ่กว่าหน้าต่างบริบท ก็ต้องแบ่งเอกสาร ฝังเวกเตอร์ เก็บในฐานข้อมูลเวกเตอร์ ดึงชิ้นส่วนที่เกี่ยวข้องที่สุด และส่งเฉพาะชิ้นส่วนนั้นเข้าโมเดลพร้อมพรอมป์ต์

ทั้งระบบนิเวศนั้นมีอยู่เพราะบริบทเป็นทรัพยากรที่หายาก

เมื่อโมเดลสามารถประมวลผลโทเค็นนับล้านได้อย่างเชื่อถือได้ในครั้งเดียว เลเยอร์วิศวกรรมจำนวนมากที่สร้างขึ้นรอบการดึงข้อมูลจะกลายเป็นสิ่งที่ไม่จำเป็นสำหรับบางเวิร์กโฟลว์ แทนที่จะเสียเวลาเลือกชิ้นส่วนที่จะดึง ระบบสามารถป้อนข้อมูลดิบเข้าไปโดยตรง และให้เหตุผลแบบปลายทางถึงปลายทาง

อย่างไรก็ตาม นอกเหนือจากหน้าต่างบริบท RAG ยังสำคัญสำหรับความสามารถเหล่านี้:

  • หน่วยความจำข้ามเซสชัน: LLMs จะไม่จดจำอะไรเมื่อเซสชันจบลง หากผู้ใช้กลับมาในภายหลัง โมเดลจะเริ่มใหม่ ระบบดึงข้อมูล (หรือฐานข้อมูล) จะเก็บข้อมูลสำคัญอย่างการตัดสินใจก่อนหน้า เอกสาร หรือข้อมูลผู้ใช้ เพื่อให้โมเดลจำและใช้ในอนาคตได้
  • การกำหนดสิทธิ์และการควบคุมการเข้าถึง: ระบบดึงข้อมูลสามารถบังคับใช้กฎเช่น “ผู้ใช้นี้เข้าถึงข้อมูลได้เฉพาะของทีมตน” แบบนี้โมเดลจะได้รับเฉพาะเอกสารที่ผู้ใช้มีสิทธิ์ดู ป้องกันการรั่วไหลของข้อมูลโดยไม่ตั้งใจ
  • การตรวจสอบย้อนกลับ: ในสภาพแวดล้อมองค์กร แค่ให้คำตอบไม่พอ ต้องแสดงด้วยว่าทำไมถึงถูกต้อง ระบบดึงข้อมูลสามารถชี้ไปยังเอกสารหรือแหล่งที่มาอย่างเจาะจง เพื่อให้ทีมตรวจสอบผลลัพธ์และดีบักหากเกิดปัญหา
  • การจัดการความรู้เชิงโครงสร้าง: บริษัทเพิ่ม อัปเดต และลบเอกสารตลอดเวลา ระบบดึงข้อมูลใช้อิมเบดดิงและการทำดัชนีเพื่อจัดระเบียบข้อมูลนี้ ให้โมเดลค้นหาข้อมูลล่าสุดและเกี่ยวข้องที่สุดได้รวดเร็ว โดยไม่ต้องประมวลผลทุกอย่างใหม่ทุกครั้ง

สำหรับแนวทางใหม่ที่น่าสนใจในการเพิ่มหน่วยความจำถาวรให้เอเจนต์ AI โปรดอ่าน คู่มือ Supermemory ซึ่งให้คุณเรียนรู้การสร้างผู้ฝึกสอนออกกำลังกายที่มีทั้งความจำระยะสั้นและระยะยาว

เวิร์กโฟลว์การเขียนโค้ดด้วยบริบทยาว

ปัจจุบัน โมเดลเขียนโค้ดส่วนใหญ่ไม่สามารถมองเห็นทั้งโค้ดเบสได้ เราจึงต้องเพิ่มเลเยอร์อย่างการค้นหาไฟล์ การแบ่งชิ้น การจัดอันดับ และการวางแผนหลายขั้นตอน เพื่อคงบริบทที่ถูกต้องไว้ในหน้าต่าง และสร้างความสัมพันธ์ข้ามไฟล์

แต่ด้วยบริบท 12M ของ SubQ โค้ดเบสทั้งหมดถูกโหลดเข้าโมเดลพร้อมกัน สิ่งนี้ทำให้การออกแบบเอเจนต์ง่ายขึ้นอย่างมีนัยสำคัญ

  • การวางแผนกลายเป็นเชิงองค์รวม: โมเดลสามารถให้เหตุผลเกี่ยวกับสถาปัตยกรรม การพึ่งพา และปฏิสัมพันธ์ข้ามไฟล์โดยไม่พลาดบริบท
  • การดำเนินการสอดคล้องมากขึ้น: การเปลี่ยนแปลงหลายไฟล์ประสานกันได้ในครั้งเดียว แทนการอัปเดตแบบทีละนิด
  • การทบทวนเชื่อถือได้มากขึ้น: โมเดลตรวจสอบการเปลี่ยนแปลงของตนกับทั้งโค้ดเบส ลดความไม่สอดคล้อง

เศรษฐศาสตร์ด้านต้นทุน

ในโมเดล ทรานส์ฟอร์เมอร์มาตรฐาน attention จะสเกลแบบกำลังสองตามความยาวลำดับ หากคุณเพิ่มหน้าต่างบริบทเป็นสองเท่า ต้นทุนไม่ได้เพิ่มแค่สองเท่า แต่อาจแพงขึ้นสี่เท่า

SubQ อ้างว่าทำลายข้อแลกเปลี่ยนนั้นได้

  • รายงานว่า ถูกลงราว 1/20 เมื่อเทียบกับโมเดลระดับแนวหน้า (Claude Opus)
  • และลดคอมพิวต์ได้สูงสุดถึง ~1,000× ที่บริบท 12M โทเค็น

หากเป็นจริงในการใช้งานจริง การประมวลผลบริบทยาวจะเลิกเป็นกรณีใช้งานที่แพง และกลายเป็นสิ่งที่ใช้ได้เป็นกิจวัตรมากขึ้น

อย่างไรก็ตาม พร้อมกับหน้าต่างบริบทที่ถูกลง โมเดลก็ควรใช้ข้อมูลในบริบทได้อย่างมีประสิทธิภาพ จากเบนช์มาร์ก SubQ อ้างความแม่นยำใกล้เคียงในต้นทุนที่ต่ำกว่ามาก แต่ยังเร็วเกินไปที่จะสรุป

จะเข้าถึง SubQ ได้อย่างไร?

SubQ ยังไม่เปิดให้ใช้งานสาธารณะ ทั้งสามผลิตภัณฑ์ ได้แก่ API หลัก SubQ Code และ SubQ Search อยู่ในช่วงเบต้าแบบปิด และต้องขอเข้าถึงล่วงหน้าผ่านเว็บไซต์ SubQ

ในมุมมองนักพัฒนา API ถูกออกแบบมาให้ผสานรวมได้ง่าย รองรับ:

  • การสตรีมคำตอบ
  • การเรียกใช้เครื่องมือ/ฟังก์ชัน
  • เอ็นด์พอยต์ที่เข้ากันได้กับ OpenAI

นั่นหมายความว่า หากสแตกของคุณทำงานกับ API แบบ OpenAI อยู่แล้ว โดยทั่วไปไม่ต้องเขียนอินทิเกรชันใหม่

SubQ Code ถูกวางตำแหน่งเป็นเอเจนต์เขียนโค้ดแบบบรรทัดคำสั่ง ขณะที่ SubQ Search โฟกัสการค้นหาแบบบริบทยาวเพื่อเวิร์กโฟลว์วิจัยเชิงลึก ให้นึกว่าเป็นเวอร์ชันของ SubQ ที่เทียบได้กับ Claude Code และ Perplexity 

ราคาสำหรับเครื่องมือเหล่านี้ยังไม่โปร่งใส ยังไม่มีอัตราต่อโทเค็นที่เปิดเผยต่อสาธารณะ ซึ่งทำให้ยากต่อการตรวจสอบข้ออ้างด้านต้นทุนของบริษัทอย่างอิสระ

ความสงสัยและคำถามที่ยังค้างคา

ภายในไม่กี่ชั่วโมงหลังการเปิดตัว ก็มีความสงสัยและเสียงตอบรับหลากหลายบนโซเชียลมีเดียและกระดานสนทนาอย่าง Hacker News การสนทนาแยกเป็นสองฝั่ง บางคนมองว่าเป็นความก้าวหน้าครั้งใหญ่ ขณะที่บางคนเปรียบเทียบกับ “Theranos แห่งวงการ AI” (อ้างถึงสตาร์ตอัปตรวจเลือดที่ล้มเหลวซึ่งเคยอ้างเทคโนโลยีอันเป็นเท็จ)

ทวีตโดย Dan McAteer (@daniel_mac8)

SubQ อาจเป็นความก้าวหน้าครั้งใหญ่ที่สุดนับตั้งแต่ Transformer...

> เร็วกว่า FlashAttention 52 เท่าที่บริบท 1 ล้านโทเค็น
> ถูกกว่า Opus 20 เท่า

...หรือไม่ก็เป็น Theranos แห่งวงการ AI

ได้ขอเข้าถึงล่วงหน้าแล้ว หวังว่าจะได้ตรวจสอบในเร็ว ๆ นี้

ข้อสงสัยส่วนใหญ่โฟกัสที่: 

  • อ้างหน้าต่างบริบท 12M แต่เบนช์มาร์กที่แชร์ทั้งหมดอยู่ที่ 1M
  • ตั้งชื่อบริษัทว่า Subquadratic แต่บางที่กล่าวถึงการสเกลคล้าย O(1) หากเป็น O(1) ควรคาดหวังหน้าต่างบริบทมากกว่า 12M โทเค็นมาก แม้แต่ O(log n) ก็ยังเปิดทางให้ขีดจำกัดใหญ่กว่านี้

เรื่องราวทำนองเดียวกันเกิดกับ Magic.dev ในปี 2024 พวกเขามีข้ออ้างแรงเกี่ยวกับหน้าต่างบริบทขนาดใหญ่มาก สูงถึง 100M โทเค็น และประสิทธิภาพที่ดีขึ้นมาก โดยเฉพาะเวิร์กโฟลว์ด้านโค้ด 

พิตช์แทบจะเหมือนกัน: โหลดทั้งโค้ดเบส ลดความซับซ้อนของการดึงข้อมูล และทำให้การออกแบบเอเจนต์ง่ายลง แต่ผลลัพธ์ในที่สาธารณะยังค่อนข้างเงียบ แม้筹เงินได้ราว 500 ล้านดอลลาร์ ก็ยังมีการมองเห็นหรือการยอมรับในโลกจริงจำกัด ณ ต้นปี 2026

สิ่งที่ได้รับการยืนยันแล้ว

ข้ออ้างของ SubQ ไม่ได้เป็นทฤษฎีล้วน Subquadratic รายงานว่าเบนช์มาร์กบน RULER, MRCR v2 และ SWE-Bench Verified ถูกดำเนินการโดยบริการทดสอบภายนอก แสดงผลงานที่แข็งแกร่งในงานเรียกคืนบริบทยาว และผลลัพธ์ที่แข่งขันได้ในงานเขียนโค้ด 

อย่างไรก็ตาม ผลลัพธ์เหล่านี้ยังไม่ถูกทำซ้ำอย่างอิสระโดยนักวิจัยภายนอก และขอบเขตการประเมินค่อนข้างแคบ ทั้งสามเบนช์มาร์กเน้นย้ำพื้นที่ที่ SubQ ถูกสร้างมาเพื่อมันโดยตรง (การดึงสัญญาณจากบริบทขนาดใหญ่และการทำงานกับโค้ด)

รายละเอียดสำคัญอีกประการคือสถาปัตยกรรม CTO ยืนยันว่า SubQ ไม่ได้ฝึกโมเดลตั้งแต่ศูนย์ แต่สร้างบนโมเดลโอเพ่นซอร์สฐาน (น่าจะมาจากตระกูลอย่าง DeepSeek หรือ Kimi) นี่เป็นทางเลือกปฏิบัติได้สำหรับทีมเล็ก ช่วยเร่งการวนรอบและลดต้นทุนการฝึก ซึ่งยังหมายความว่านวัตกรรมหลักไม่ได้อยู่ที่โมเดลฐานเอง แต่เป็นกลไก attention และการออกแบบระบบรอบ ๆ มัน

บทสรุป

SubQ มาแล้ว พร้อมข้ออ้างที่กล้าหาญ ทิศทางชัดเจน: ยกเลิกข้อจำกัดหน้าต่างบริบท และให้โมเดลจัดการอินพุตที่ใหญ่กว่ามาก พวกเขาวางตำแหน่งว่าเทียบชั้นหรือเหนือกว่าโมเดลแนวหน้าในงานเขียนโค้ดและการเรียกคืนบริบทยาว ในต้นทุนที่ต่ำกว่ามาก

อย่างไรก็ตาม ยังเป็นช่วงต้น เรายังรอการ์ดโมเดลฉบับเต็มเพื่อให้เห็นภาพความสามารถและการทดสอบที่กว้างขึ้น ผลิตภัณฑ์ที่สร้างบนมันอย่าง SubQ Code และ API ก็ยังไม่เปิดสาธารณะ คาดหวังที่จะได้ลองใช้เครื่องมือเหล่านี้ด้วยตนเอง และดูว่าข้ออ้างจะยืนหยัดได้เพียงใดในการใช้งานจริง

คำถามที่พบบ่อยเกี่ยวกับโมเดล SubQ

SubQ จะเปลี่ยนวิธีการเขียนพรอมป์ต์หรือไม่?

มีความเป็นไปได้ หากข้ออ้างเป็นจริงและบริบทที่ยาวขึ้นมีราคาถูกลงอย่างมีนัยสำคัญ การออกแบบพรอมป์ต์อาจเปลี่ยนไปในทิศทางที่ใส่ข้อมูลดิบมากขึ้น แทนอินพุตที่ถูกปรับแต่งหรือบีบอัดอย่างหนัก

SubQ รองรับอินพุตหลายโมดัลอย่างรูปภาพและโค้ดหรือไม่?

เว็บไซต์ของ Subquadratic เองอธิบายว่าสถาปัตยกรรมของพวกเขารองรับ “การอนุมานแบบบริบทใหญ่และหลายโมดัล” บ่งชี้ว่าการรองรับมัลติโมดัลอยู่ในวิสัยทัศน์ อย่างไรก็ตาม ยังไม่มีการเผยแพร่เบนช์มาร์กหลายโมดัล และ API กับผลิตภัณฑ์ที่อยู่ในเบต้าแบบปิดตอนนี้โฟกัสที่ข้อความและโค้ดทั้งหมด ยังไม่ชัดเจนว่าการรับภาพเข้าใช้งานได้แล้วหรืออยู่ในแผนปล่อยระยะใกล้

SubQ ทำงานอย่างไรเมื่ออินพุตสั้นมาก?

เบนช์มาร์กที่เผยแพร่ทั้งหมดทดสอบ SubQ ที่ 128K โทเค็นขึ้นไป ผลการทำงานกับอินพุตสั้นมากในระดับมาตรฐานเทียบกับโมเดลแนวหน้ายังไม่ถูกเปิดเผย กลไก attention แบบเบาบางอาจทำงานด้อยกว่า dense attention ที่ความยาวลำดับสั้น ๆ ซึ่งค่าโสหุ้ยของการคัดเลือกโทเค็นสูงกว่าประโยชน์ด้านประสิทธิภาพ ควรจับตาเมื่อการ์ดโมเดลฉบับเต็มปล่อย

บริษัทตั้งเป้า 50M หรือ 100M โทเค็นต่อไป?

The New Stack รายงานว่า Subquadratic ตั้งเป้าหน้าต่างบริบท 50 ล้านโทเค็นในไตรมาส 4 หากสถาปัตยกรรมสเกลแบบเชิงเส้น ก็เป็นไปได้ในทางเทคนิค

หัวข้อ

เรียนรู้ AI กับ DataCamp!

Tracks

พื้นฐานของ AI Agent

6 ชม.
ค้นพบว่า AI agents สามารถเปลี่ยนวิธีการทำงานของคุณและสร้างคุณค่าให้กับองค์กรของคุณได้อย่างไร!
ดูรายละเอียดRight Arrow
เริ่มหลักสูตร
ดูเพิ่มเติมRight Arrow