SubQ AI 해설: 1,200만 토큰 컨텍스트 윈도의 LLM, 얼마나 좋을까?

Subquadratic의 SubQ 모델은 1,200만 토큰 컨텍스트 윈도, 52배 효율, 최전선 성능을 주장합니다. SSA 아키텍처의 작동 방식과 벤치마크가 실제로 무엇을 말하는지 살펴봅니다.

업데이트됨 2026년 5월 12일 · 13분 읽다

2026년 5월 5일, 마이애미에 기반을 둔 작은 스타트업 Subquadratic이 SubQ라는 모델을 공개했습니다. 팀 규모는 작지만 시드 라운드로 2,900만 달러를 유치했으며, 이 모델이 한 번의 패스로 최대 1,200만 토큰을 처리할 수 있다고 주장합니다.

또한 100만 토큰에서 FlashAttention 대비 최대 52배 더 효율적이며, 비용은 대략 1/20로 줄이면서 Claude Opus와 유사한 코딩 성능을 낸다는 등 다소 과감한 주장도 내놓았습니다.

주장이 큰 만큼, 실제로 무엇이 어떻게 이루어지는지 살펴보는 게 합리적입니다. 이 글에서는 SubQ가 무엇인지, 아키텍처가 어떻게 동작하는지, 그리고 초기 자료와 개발자 커뮤니티가 이 주장들에 대해 무엇을 시사하는지 차례로 정리합니다.

SubQ란 무엇인가?

SubQ는 Subquadratic이 2026년 5월 5일에 공개한 LLM으로, 1,200만 토큰 컨텍스트 윈도우라는 하나의 핵심 기능을 중심으로 설계되었습니다. 회사가 처음으로 선보인 모델이며, 효율성과 비용을 둘러싼 대담한 주장으로 이미 큰 논쟁을 불러일으켰습니다.

현재 모델은 아직 공개되지 않았으며, API, SubQ Code, SubQ Search에 대한 접근은 대기자 명단을 통한 사전 접속으로 제한되어 있습니다.

이 모델은 SSA(Subquadratic Sparse Attention)라는 방식에 기반합니다.

표준의 밀집(dense) 어텐션처럼 모든 토큰을 서로 비교하는 대신, SSA는 선택적 접근을 취합니다. 각 토큰마다 가장 관련성이 높은 토큰들을 고르고, 그 부분집합에 대해서만 관계를 계산합니다.

이는 두 가지 뚜렷한 효과를 냅니다.

첫째, 연산 수가 줄어들어 효율성이 직접적으로 높아지고 비용이 낮아집니다.
둘째, 선택이 내용 의존적입니다. 즉, 단지 인접 토큰만 보는 것이 아니라, 시퀀스 어디에서든 관련 토큰을 가져올 수 있습니다. 비록 멀리 떨어져 있더라도 말이죠.

SubQ의 차별점은 무엇인가?

실무적으로, SSA 아키텍처는 모든 것을 똑같이 처리하는 대신 실제로 중요한 것에 집중하게 합니다. 목표는 전체 어텐션과 유사한 정확도를 유지하면서도, 연산과 메모리 요구량을 크게 줄이는 것입니다.

먼저 밀집 어텐션을 조금 더 자세히 보고, 두 접근을 비교해 보겠습니다.

트랜스포머의 제곱 급확장 문제

오늘날 GPT, Claude, Gemini 같은 모델은 밀집 어텐션에 의존합니다. 높은 수준에서 보면, 입력의 모든 토큰을 다른 모든 토큰과 비교한다는 뜻입니다. 입력이 커질수록 비교 횟수는 제곱으로 증가합니다.

긴 문서를 두고 모델이 마지막 단어를 생성해야 한다고 가정해 보세요. 모델은 문서의 모든 토큰을 되돌아보며 관계를 구성한 뒤 다음에 올 단어를 결정합니다. 이것이 밀집 어텐션이 잘 작동하는 이유입니다. 모든 것을 고려하기 때문입니다.

하지만 그 강점에는 비용이 따릅니다. 입력 크기가 커질수록 연산과 메모리 요구량이 급격히 증가하고, 컨텍스트 윈도우 한계를 만듭니다. 쉽게 말해, 토큰 수 n에 대해 O(n²)로 확장됩니다.

이 때문에 대부분의 모델은 실용적인 한계를 지킵니다. 표준 모델은 128k 토큰이 일반적이고, Claude Opus 같은 강력한 모델도 최대 100만 토큰 컨텍스트 윈도우가 한계입니다.

이를 우회하기 위해 대부분의 AI 시스템은 전체 데이터셋을 모델에 그대로 넣지 않습니다. 대신 다음과 같은 기법을 활용합니다.

RAG(Retrieval-Augmented Generation): 데이터를 외부에 저장하고 관련성이 높은 조각만 가져와 모델에 전달합니다.
청킹: 큰 텍스트를 작은 조각으로 나누고, 그중 관련 있는 부분만 모델에 보냅니다.
요약 전략: 긴 콘텐츠를 압축해 전체 텍스트 대신 요약본을 모델에 제공합니다.

어텐션 메커니즘을 더 깊이 이해하고 싶다면, LLM의 어텐션 메커니즘 튜토리얼을 확인하세요. 최신 LLM의 구성 요소를 실습으로 익히고 싶다면 Transformer Models with PyTorch 과정을 추천합니다.

SubQ의 포지셔닝

밀집 어텐션은 입력 크기에 따라 제곱으로 증가하는 반면, SSA는 O(n·k)에 가까운 준-제곱(sub-quadratic) 확장을 목표로 합니다. 여기서 k는 단계별로 선택되는 토큰 수입니다. k를 n에 비해 작게 유지하면, 전체 어텐션보다 훨씬 효율적입니다.

조밀한 전체 연결과 희소한 선택적 연결을 비교한, 제곱 대 선형 어텐션 다이어그램.

여기서 분명한 우려는 정확도입니다. 입력의 일부만 본다면 중요한 관계를 놓칠 수 있습니다. 이 트레이드오프 때문에 원래 밀집 어텐션이 존재하는 것이기도 합니다.

SubQ의 주장은, 실제로 이 트레이드오프가 나타나지 않는다는 것입니다. 현재 토큰에서 멀리 떨어져 있더라도 필요한 토큰에는 모두 주의를 기울이며, 최상위 모델과 유사한 정확도를 유지한다고 합니다.

Subquadratic Sparse Attention은 어떻게 동작하나?

이제, 모든 토큰을 서로 비교하는 대신 SSA가 시퀀스에서 중요한 토큰만 골라 그 위치들에 대해 어텐션을 계산한다는 점을 알았습니다. 그러면 관련 토큰을 어떻게 고르는지 살펴보겠습니다.

SSA의 관련성 선택 방식

SSA는 내용 의존 라우팅(content-dependent routing)을 사용합니다. 간단히 말해, 현재 토큰과의 관련성에 따라 토큰을 고릅니다. similarity(query_i, key_j) 같은 방식으로 토큰 간 유사도를 계산하고, 점수가 가장 높은 상위 k개 토큰만 어텐션 대상으로 유지합니다.

시간이 지남에 따라 모델은 의미 있는 토큰을 우선순위로 두고, 잡음을 무시하도록 학습합니다. 여기에는 키워드, 중요한 개체, 강한 문맥 신호를 지닌 토큰 등이 포함됩니다.

SSA는 내용뿐 아니라 시퀀스의 구조적 관계도 보존합니다. 예를 들어, 인접 토큰은 로컬 어텐션 패턴을 통해 항상 주의를 받으며, 특정 글로벌 토큰은 전체 시퀀스에 걸쳐 주의를 주고받도록 설계됩니다.

SSA에는 계층적 및 클러스터링 기반 어텐션 기법도 포함됩니다. 예를 들어 유사한 토큰을 클러스터로 묶고, 가장 관련성 높은 클러스터와 우선 어텐션을 계산합니다. 즉, 모델은 모든 토큰을 개별적으로 평가할 필요 없이, 먼저 그룹 단위로 추론한 다음 필요 시 해당 클러스터 내부의 토큰으로 확대해 들어갈 수 있습니다.

장문맥 검색을 위한 학습

큰 컨텍스트 윈도우 자체만으로는 마법이 일어나지 않습니다. 1,200만 토큰을 준다 해도, 그 문맥을 효과적으로 활용하는 법을 모델이 알아야 합니다. SSA는 이 목적을 위해 다음과 같이 학습됩니다.

사전학습: 장문맥 표현을 포함한 방대한 다양 데이터셋으로 베이스 모델을 학습합니다.
지도 미세조정: 추론과 코드 생성 등 구조화된 작업으로 추가 학습시킵니다.
강화학습: 모델이 인접 토큰(로컬 어텐션)만 보도록 제한하지 않고, 전체 텍스트에서 관련 토큰(글로벌 어텐션)을 사용하도록 만듭니다.

강화학습 단계는 특히 엔터프라이즈 코딩 활용에서 중요합니다. 이 단계는 출력 생성 시, 한 번에 더 넓은 문맥—이 경우 전체 코드베이스—을 고려할 수 있게 합니다.

SubQ의 벤치마크와 성능

"SubQ 1M-Preview"는 100만 토큰에서 벤치마크된 버전을 의미합니다. 전체 1,200만 토큰 컨텍스트 윈도우는 API를 통해 접근할 수 있습니다.

Subquadratic이 공개한 세 가지 벤치마크에서, SubQ 1M-Preview는 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro와 견줄 만한 성적을 냅니다.

다만 벤치마크 선택 폭이 좁습니다. 장문맥 검색과 코딩에만 초점이 맞춰진 정확히 세 가지 테스트로, 이는 SubQ가 잘하도록 설계된 두 영역입니다. 일반 추론, 수학, 다국어 성능, 안전성에 대한 보다 폭넓은 평가는 공개되지 않았습니다.

웹사이트의 전체 모델 카드에는 "곧 공개"라고만 되어 있어, 그곳에서 보다 광범위한 벤치마크를 기대할 수 있습니다.

현재로서는, 장문맥 검색과 코딩 활용 사례에서의 결과는 다음과 같습니다:

모델	SWE-Bench Verified	RULER 128K	MRCR v2 (8-needle, 1M)
SubQ (Subquadratic)	81.8%	95.0%	65.9%
Claude Opus 4.7 (Anthropic)	87.6%	94.8%	32.2%
GPT-5.5 (OpenAI)	88.7%	Not available	74.0%
Gemini 3.1 Pro (Google DeepMind)	80.6%	Not available	26.3%
DeepSeek V4 Pro (DeepSeek)	80.6%	Not available	83.5%

숫자가 말해주는 것

RULER 128K: SubQ는 95%로, Opus 4.7의 94.8%와 비슷합니다. 정확도 차이는 미미하지만, 여기서 진짜 중요한 것은 비용입니다. Subquadratic은 동일한 컨텍스트 길이에서 SubQ로 이 평가를 실행하는 데 약 8달러가 들었다고 주장하는 반면, Opus에서는 약 2,600달러가 들었다고 합니다.

MRCR v2 (8-needle, 1M): 이 벤치마크는 100만 토큰 컨텍스트 전반에 흩어진 8개의 사실을 모델이 제대로 검색하고 추적하는지 평가합니다. SubQ는 연구 환경에서 83%를 보였지만, 프로덕션 점수는 65.9%로 떨어집니다. 연구와 배포 간 약 17포인트의 격차는 주목할 만하나 아직 충분히 설명되지는 않았습니다. 그럼에도 GPT-5.5(74.0%)와는 경쟁 구도를 보이고, Claude Opus 4.7(32.2%)과 Gemini 3.1 Pro(26.3%)보다는 상당히 앞섭니다.

SWE-Bench Verified: SubQ는 81.8%로, Opus 4.6의 80.8%보다는 앞서지만 Opus 4.7의 87.6%보다는 뒤처집니다. Opus 4.6과의 격차는 작고 하니스 설정에 민감합니다. Opus 4.7 및 GPT-5.5와 비교하면 SubQ는 확실히 뒤입니다.

1,200만 토큰에서: SubQ는 1,200만 컨텍스트에서 건초 더미 속 바늘(needle-in-a-haystack) 과제에서 90%를 넘는 점수를 기록한 것으로 보고되었지만, 이는 공식 벤치마크로 검증되지 않았습니다. 이 길이에서 테스트된 다른 최전선 모델이 없어 직접 비교할 대상을 찾기 어렵습니다. 출시에서 가장 아키텍처적으로 흥미로운 결과이지만, 결론을 내리기 전에는 독립 재현이 필요합니다.

SubQ가 RAG, 코딩 에이전트, AI 비용에 의미하는 것

SubQ의 아키텍처가 규모 확장에서 유효하다면, LLM 시스템의 구축 방식이 달라집니다. 더 긴 컨텍스트가 실용화되어, 과도한 청킹, 검색, 토큰 최적화의 필요성이 줄어듭니다. 이러한 변화를 조금 더 자세히 보겠습니다.

RAG가 선택지가 되는 순간

지난 2년간 Retrieval-Augmented Generation(RAG)은 LLM의 근본적 한계—모델은 한 번에 모든 것을 읽지 못한다—에 대한 기본 해답이었습니다. 지식 베이스가 컨텍스트 윈도우보다 크면, 문서를 청킹하고 임베딩해 벡터 DB에 저장한 뒤, 가장 관련성이 높은 조각만 검색해 프롬프트와 함께 모델에 전달합니다.

이 모든 생태계는 컨텍스트가 희소하기 때문에 존재해 왔습니다.

한 번의 패스로 수백만 토큰을 안정적으로 처리할 수 있다면, 검색에 얹었던 많은 엔지니어링 레이어가 특정 워크플로에서는 덜 필요해집니다. 어떤 청크를 가져올지 고민하는 대신, 원본 자료를 그대로 투입하고 처음부터 끝까지 추론할 수 있습니다.

다만 컨텍스트 윈도우를 넘어서는 영역에서는, RAG가 여전히 다음과 같은 역량에서 중요합니다.

세션 간 메모리: LLM은 세션이 끝나면 아무것도 기억하지 못합니다. 사용자가 나중에 돌아오면 모델은 처음부터 다시 시작합니다. 검색 시스템(또는 데이터베이스)은 과거 결정, 문서, 사용자 데이터 같은 중요한 정보를 저장해, 모델이 이후 상호작용에서 이를 기억하고 활용하도록 합니다.
권한 및 접근 제어: 검색 시스템은 “이 사용자는 자신의 팀 데이터만 접근 가능” 같은 규칙을 집행할 수 있습니다. 이로써 모델은 사용자가 볼 수 있는 문서만 받게 되어, 우발적 데이터 유출을 방지합니다.
감사 가능성: 엔터프라이즈 환경에서는 정답만이 아니라, 왜 맞는지 설명할 수 있어야 합니다. 검색 시스템은 사용된 정확한 문서나 출처를 지목할 수 있어, 팀이 결과를 검증하고 문제가 생기면 디버깅할 수 있습니다.
구조적 지식 관리: 기업은 문서를 지속적으로 추가, 갱신, 삭제합니다. 검색 시스템은 임베딩과 인덱싱으로 데이터를 조직화해, 모델이 매번 모든 것을 재처리하지 않고도 최신·관련 정보를 빠르게 찾게 합니다.

지속 메모리를 AI 에이전트에 추가하는 새로운 접근에 대해서는 Supermemory 튜토리얼을 참고하세요. 이 튜토리얼에서는 단기·장기 메모리를 갖춘 운동 트레이너를 만드는 방법을 배웁니다.

장문맥 코딩 워크플로

현재 대부분의 코딩 모델은 전체 코드베이스를 볼 수 없습니다. 그래서 파일 검색, 청킹, 랭킹, 다단계 계획 같은 레이어를 덧붙여, 올바른 문맥을 윈도우에 유지하고 파일 간 관계를 구축합니다.

하지만 SubQ의 1,200만 토큰 컨텍스트가 있으면, 전체 코드베이스를 한 번에 모델에 로드할 수 있습니다. 이는 에이전트 설계를 의미 있게 단순화합니다.

계획이 전역화됨: 모델은 아키텍처, 의존성, 파일 간 상호작용을 놓치지 않고 추론할 수 있습니다.
실행이 더 일관됨: 여러 파일에 걸친 변경을 증분 업데이트가 아니라 한 번의 패스로 조율할 수 있습니다.
리뷰가 더 신뢰할 만함: 모델이 전체 코드베이스를 기준으로 자신의 변경을 검증해, 불일치를 줄일 수 있습니다.

비용 경제성

표준 트랜스포머 모델에서는 어텐션이 시퀀스 길이에 따라 제곱으로 증가합니다. 컨텍스트를 두 배로 늘리면, 비용도 단순히 두 배가 아니라 네 배 가까이 뛸 수 있습니다.

SubQ는 이 트레이드오프를 깬다고 주장합니다.

비슷한 최전선 모델(Claude Opus) 대비 약 1/20 비용을 보고
1,200만 토큰 컨텍스트에서 최대 약 1,000배 연산 감소를 주장합니다

이 주장이 프로덕션에서 유지된다면, 장문맥 처리는 비싼 특수 사례가 아니라 일상적으로 사용할 수 있는 것이 됩니다.

다만 저렴한 컨텍스트 윈도우와 함께, 모델이 컨텍스트에 로드된 정보를 효율적으로 활용할 수 있어야 합니다. 벤치마크에 따르면 SubQ는 훨씬 낮은 비용으로 비슷한 정확도를 주장하지만, 최종 결론을 내리기에는 아직 이릅니다.

SubQ는 어떻게 접근할 수 있나?

SubQ는 아직 공개되지 않았습니다. 코어 API, SubQ Code, SubQ Search 등 세 제품 모두 현재 비공개 베타 단계이며, SubQ 웹사이트를 통한 사전 접속 요청이 필요합니다.

개발자 관점에서 API는 통합이 쉽도록 설계되었습니다. 지원 기능:

스트리밍 응답
툴/함수 호출
OpenAI 호환 엔드포인트

즉, 스택이 이미 OpenAI 스타일 API와 호환된다면, 일반적으로 통합을 다시 작성할 필요가 없습니다.

SubQ Code는 커맨드라인 코딩 에이전트로 포지셔닝되어 있으며, SubQ Search는 심층 연구 워크플로를 위한 장문맥 검색에 집중합니다. 각각 Claude Code와 Perplexity의 SubQ 버전으로 생각하셔도 좋습니다.

이 도구들의 가격 또한 아직 투명하게 공개되지 않았습니다. 공개된 토큰당 요금이 없어서, 회사의 비용 관련 주장을 독립적으로 검증하기 어렵습니다.

회의론과 열린 질문들

출시 직후 몇 시간 만에, 소셜 미디어와 Hacker News 같은 게시판에서 회의적 반응과 엇갈린 평가가 잇따랐습니다. 어떤 이들은 진정한 돌파구로 보지만, 다른 이들은 이를 “AI 테라노스”에 비유하기도 합니다(사기 기술 주장을 했던 실패한 혈액 검사 스타트업을 가리킵니다).

주요 의문점은 다음과 같습니다.

1,200만 토큰 컨텍스트를 주장하지만, 공유된 벤치마크는 모두 100만에서 수행되었습니다.
회사명이 Subquadratic(준-제곱)인데, 일부 곳에서는 O(1)에 가까운 확장을 언급합니다. O(1)이라면 1,200만 토큰보다 훨씬 큰 컨텍스트 윈도우를 기대할 수 있습니다. 심지어 O(log n)만 되어도 더 큰 한계를 허용할 수 있습니다.

비슷한 이야기는 2024년 Magic.dev에서도 나왔습니다. 최대 1억 토큰에 달하는 거대 컨텍스트와, 특히 코딩 워크플로에서의 대규모 효율 향상을 강하게 주장했죠.

제안 내용은 거의 동일했습니다. 전체 코드베이스를 로드하고, 검색 복잡도를 줄이며, 에이전트 설계를 단순화한다는 것이었습니다. 그러나 최소한 공개적으로는 결과가 더 미온적이었습니다. 약 5억 달러를 조달했음에도, 2026년 초 현재까지 실질적 가시성이나 채택 사례는 제한적입니다.

검증된 것들

SubQ의 주장은 순전히 이론에 그치지 않습니다. Subquadratic은 RULER, MRCR v2, SWE-Bench Verified 벤치마크가 제3자 테스트 서비스에 의해 수행되었으며, 장문맥 검색에서 강한 성능과 코딩 작업에서 경쟁력 있는 결과를 보였다고 보고합니다.

다만 이 결과는 아직 외부 연구자들에 의해 독립적으로 재현되지 않았고, 평가 범위도 좁습니다. 세 벤치마크 모두 SubQ가 설계상 강점을 지닌 영역(거대 문맥에서 신호 검색, 코드 조작)에 초점을 둡니다.

또 하나 중요한 디테일은 아키텍처입니다. CTO는 SubQ가 베이스 모델을 처음부터 학습하지 않고, 대신 오픈소스 베이스 모델(아마도 DeepSeek이나 Kimi 계열)을 기반으로 구축한다고 확인했습니다. 이는 소규모 팀에 실용적 선택입니다. 반복 속도를 높이고 학습 비용을 줄일 수 있기 때문입니다. 따라서 핵심 혁신은 베이스 모델 자체가 아니라, 어텐션 메커니즘과 그 주변의 시스템 설계에 있습니다.

마무리 생각

SubQ는 등장했고, 주장은 꽤 대담합니다. 방향은 분명합니다. 컨텍스트 윈도우 제약을 없애고, 훨씬 더 큰 입력을 처리하게 만드는 것입니다. 코딩과 장문맥 검색에서 최전선 모델에 맞먹거나 앞서는 성능을, 훨씬 낮은 비용으로 제시하고 있습니다.

그럼에도 아직 초기 단계입니다. 더 넓은 역량과 테스트에 대한 가시성을 제공할 전체 모델 카드를 기다리고 있습니다. 이를 바탕으로 한 제품인 SubQ Code와 API도 아직 공개되지 않았습니다. 실제로 이 도구들을 직접 써 보며, 주장들이 프로덕션에서 얼마나 유효한지 확인하길 기대합니다.