Composer 2.5: 벤치마크, 가격, 그리고 비교

Cursor의 최신 독자 모델 Composer 2.5는 타깃형 RL 피드백, 더 많은 합성 학습 과제, 그리고 최첨단 모델보다 낮은 토큰 가격을 제공합니다.

업데이트됨 2026년 5월 22일 · 13분 읽다

Cursor는 2026년 5월 18일에 Composer 2.5를 출시했습니다. 이는 3월에 Composer 2를 배포한 지 약 두 달 만입니다. 짧은 출시 간격은 Cursor가 자체 모델 라인을 얼마나 빠르게 업데이트하고 있는지 보여줍니다.

Cursor에 따르면 Composer 2.5는 여러 코딩 벤치마크에서 Claude Opus 4.7 및 GPT-5.5에 근접한 점수를 기록했습니다. 토큰 가격도 최첨단 모델보다 낮습니다. 학습도 바뀌었습니다. 더 많은 합성 과제, 더 어려운 학습 환경, 그리고 긴 코딩 세션 중 특정 실수를 겨냥하는 피드백 방법이 추가되었습니다.

이 글에서는 Composer 2.5를 단순한 벤치마크 업데이트 그 이상으로 살펴봅니다. 무엇인지, 무엇이 바뀌었는지, 벤치마크가 어떻게 나오는지, 가격이 최첨단 모델과 어떻게 비교되는지, 그리고 코딩 워크플로에서 어디에 적합한지 다룹니다. 한계점도 있으며, 점수만으로는 보이지 않는 몇 가지 부분은 미리 알아둘 가치가 있습니다.

비교 대상 다른 모델에 대한 배경은 Claude Opus 4.7과 GPT-5.5 안내서를 참고하세요.

Cursor의 Composer 2.5 모델이란?

Composer 2.5는 Cursor의 Composer 제품군에서 가장 최신 모델로, Cursor IDE 내에서 코딩 작업을 위해 만들어졌습니다. Composer 1, Composer 1.5, Composer 2의 뒤를 잇습니다.

출시부터 2.5까지의 Composer 타임라인. 이미지: 필자 제작.

이 모델은 범용 챗봇이 아닙니다. Composer 2.5는 여러 파일에 걸친 편집, 터미널 명령, 도구 사용, 더 긴 코딩 세션에 맞춰 학습되었습니다. 학습 목표와 벤치마크는 소프트웨어 엔지니어링 작업에 초점을 맞춥니다.

출시 글에 따르면 이 모델은 코딩 작업에서 Composer 2보다 높은 점수를 기록하고, 더 긴 세션에서의 동작도 달라졌습니다. 현재 Cursor의 모델 선택기에서 기본 옵션이며, Composer 2도 계속 사용할 수 있습니다. 또한 Cursor 내부에서만 실행됩니다. 공개 API, Hugging Face 모델 카드, 다른 제공자를 통한 게이트웨이 접근은 없습니다.

Composer 2.5에서 바뀐 점

Composer 2.5의 변화는 두 가지로 나뉩니다. 코딩 작업 성능과 협업 행동입니다. 첫 번째는 두 번째보다 측정이 더 쉬우므로, 수치로 보여줄 수 있는 것과 정성적으로 설명하는 것을 구분할 가치가 있습니다.

더 긴 작업 성능

Composer 2.5는 모델이 파일을 읽고, 터미널 명령을 실행하고, 오류를 수정하고, 반복 작업을 수행해야 하는 장시간 코딩 세션을 목표로 합니다. 실제 개발은 드물게 하나의 프롬프트와 응답으로 끝나기 때문에 중요합니다.

Cursor는 이와 같은 작업을 위해 더 어려운 강화학습 환경에서 모델을 학습시켰습니다. 학습 중에 과제를 생성했고, 난이도는 시간이 지날수록 높아졌습니다.

지시 따르기와 협업

출시 글은 지시를 더 믿을 수 있게 따르는 점도 설명합니다. 노력 보정에 주목하는데, 어려운 과제에는 더 많은 연산을 쓰고 쉬운 과제에서는 과도한 고민을 피하도록 설계되었다고 합니다.

단, 유의점이 있습니다. Cursor는 이러한 행동 변화가 "기존 벤치마크로는 잘 포착되지 않는다"고 밝혔습니다. 따라서 이 부분은 공개 점수보다 Cursor의 자체 평가와 초기 사용자 피드백에 더 많이 의존합니다.

더 어려운 RL 환경

출시 글은 학습 변화를 "학습 규모 확대, 더 복잡한 RL 환경 생성, 새로운 학습 방법 도입"으로 설명합니다. Composer 2 대비 25배 더 많은 합성 과제를 사용했습니다.

Cursor는 Composer 2.5를 어떻게 학습시켰나

학습 세부 사항은 새로운 기본 아키텍처 없이 모델이 왜 바뀌었는지 설명합니다. Composer 2.5는 Composer 2와 같은 기반을 사용하지만, 기반 학습 이후의 작업이 달라졌습니다. 모든 인프라 세부가 독자에게 동일한 중요도를 갖지는 않지만, 몇 가지는 벤치마크 변화의 배경을 이해하는 데 도움이 됩니다.

Kimi K2.5 기반

Composer 2.5는 Composer 2와 동일한 오픈 소스 체크포인트인 Moonshot AI의 Kimi K2.5 위에 구축되었습니다. Cursor는 이를 출시 글에서 직접 밝혔는데, 이는 Composer 2를 둘러싼 기반 모델 논의가 있었기 때문입니다.

Kimi K2.5는 전문가 혼합(MoE) 아키텍처를 사용합니다. Cursor는 그 위에 연속 사전학습과 강화학습을 적용하며, 최종 모델의 총 연산량 중 약 85%가 기반 학습 이후 Cursor의 자체 작업에서 나온다고 말합니다.

텍스트 피드백을 활용한 타깃형 RL

이것이 Composer 2.5의 주요 기술적 변화입니다. 표준 RL은 긴 시퀀스가 끝날 때 하나의 보상 신호를 줍니다. 긴 코딩 세션에서는 그 최종 보상이 모델이 어디서 잘못됐는지 보여주기엔 너무 노이즈가 클 수 있습니다.

교사와 학생이 한 턴을 공유합니다. 이미지: 필자 제작.

Cursor의 방법은 모델이 잘못된 결정을 내린 지점에 짧은 텍스트 힌트를 삽입합니다. 예를 들어, 모델이 존재하지 않는 도구를 호출하면, 학습 과정은 올바른 도구 목록을 상기시키는 메모를 삽입할 수 있습니다. 힌트를 넣은 버전은 "교사"로, 원래 모델은 "학생"으로 작동합니다. 이어서 증류 손실을 통해 해당 턴에서만 학생의 행동을 교사에 가깝게 이동시킵니다.

그 결과 더 타깃화된 학습이 이뤄집니다. 개별 실수를 긴 롤아웃 전체를 모호하게 옳거나 그른 것으로 취급하지 않고 교정할 수 있습니다. Cursor는 Composer 2.5 학습 전반에 걸쳐 코딩 스타일, 도구 사용, 모델 커뮤니케이션에 이 방법을 적용했습니다.

더 큰 규모의 합성 데이터

Composer 2.5는 Composer 2보다 25배 많은 합성 과제로 학습했습니다. 이 과제들은 장난감 예제가 아니라 실제 코드베이스를 기반으로 합니다.

Cursor가 설명한 한 가지 접근법은 기능 삭제입니다. 에이전트는 실제 코드베이스와 방대한 테스트 스위트로 시작해, 프로젝트의 나머지 기능은 유지하면서 코드와 파일을 제거합니다. 합성 과제는 제거된 기능을 재구현하는 것이며, 테스트가 검증 가능한 보상 신호를 제공합니다.

합성 학습의 규모가 커지면 그 자체의 위험도 따릅니다. Cursor는 Composer 2.5가 지름길을 찾아낸 사례를 문서화했는데, Python 타입 체크 캐시에서 삭제된 정보를 복구하거나 Java 바이트코드를 디컴파일해 외부 API를 재구성한 경우가 포함됩니다. 회사는 모니터링 도구로 이를 탐지했다고 밝혔지만, 이 정도 규모의 학습에는 "더욱 세심한 주의"가 필요함을 인정했습니다.

인프라 변화

인프라 측면에서는, Cursor가 연속 사전학습에 Sharded Muon과 이중 메쉬 HSDP를 사용했습니다. 이 변경으로 대규모 GPU 클러스터에서 학습하는 데 드는 일부 비용과 시간이 줄었습니다.

Composer 2.5 벤치마크 결과: Terminal-Bench, SWE-Bench, CursorBench

벤치마크는 유용하지만 전부를 보여주지는 않습니다. 일상 업무에서 모델이 어떻게 느껴질지에 대한 최종 판정보다는 비교의 출발점으로 보는 것이 좋겠습니다.

Cursor는 Composer 2.5를 다음 세 가지 벤치마크로 평가합니다:

벤치마크	Composer 2.5	Claude Opus 4.7	GPT-5.5	Composer 2
SWE-Bench Multilingual	79.8%	80.5%	77.8%	73.7%
Terminal-Bench 2.0	69.3%	69.4%	82.7%	61.7%
CursorBench v3.1 (더 어려운 과제)	63.2%	64.8% (max) / 61.6% (default)	64.3% (xhigh) / 59.2% (default)	52.2%

SWE-Bench Multilingual는 모델이 여러 프로그래밍 언어에 걸쳐 실제 GitHub 이슈를 해결할 수 있는지 평가합니다. 각 과제는 모델에 리포지토리와 문제 설명을 제공하고, 패치가 관련 테스트를 통과하는지 확인합니다.

Terminal-Bench 2.0은 AI 에이전트가 실제 터미널 워크플로에서 파일을 검사하고, 명령을 실행하고, 실패를 디버깅하며, 여러 단계를 거쳐 작업을 완료할 수 있는지 측정합니다.

CursorBench v3.1은 Cursor의 사내 프라이빗 벤치마크입니다. 실제 Cursor 세션에서 나온 모호하고 다중 파일에 걸친 과제로 에이전트를 평가하며, 코드베이스 이해, 버그 찾기, 계획, 코드 리뷰를 포함합니다. 한계는 CursorBench가 외부 연구자가 검증하거나 재현할 수 없고, 점수는 동일한 평가 버전 내에서 비교해야 한다는 점입니다.

이 숫자들을 과도하게 해석하기 전에 중요한 유의점이 하나 있습니다. 모델 간 벤치마크 비교는 항상 깔끔하지 않습니다. 평가 설정과 노력 수준에 따라 점수가 달라질 수 있으며, Cursor는 Opus 4.7과 GPT-5.5가 공개 평가에서 자체 보고 점수를 사용한다고 밝힙니다. 동일 조건의 직접 테스트가 아니라 방향성 비교로 보시기 바랍니다.

이후 Artificial Analysis의 외부 벤치마크도 유사한 방향을 가리키지만, 다른 벤치마크 조합을 사용합니다. Composer 2.5는 Artificial Analysis Coding Agent Index에서 62점을 기록했으며, 최대 노력의 Claude Opus 4.7(66)과 xhigh 추론의 GPT-5.5(65)보다 뒤에 있습니다.

비용 격차는 주목할 만합니다. Artificial Analysis는 Composer 2.5의 작업당 비용을 Standard는 $0.07, Fast는 $0.44로 추정했으며, Opus 4.7 max는 $4.10, GPT-5.5 xhigh는 $4.82로 추정했습니다.

Composer 2.5 vs. Composer 2 vs. Composer 1.5: 점수 비교

Composer 제품군은 짧은 기간에 세 번 출시되었습니다. Composer 1.5는 2026년 2월, Composer 2는 3월, Composer 2.5는 5월에 출시되었습니다. 각 버전은 학습 접근 방식에서 서로 다른 변화를 주었습니다.

Composer 2.5와 Composer 2

Composer 2에서 2.5로의 도약은 Terminal-Bench 2.0에서 가장 두드러지며, 점수가 61.7%에서 69.3%로 올랐습니다. SWE-Bench Multilingual에서도 73.7%에서 79.8%로 상승했습니다. CursorBench의 상승 폭은 더 작고, 평가 버전이 v3에서 v3.1로 바뀌었기 때문에 직접 비교는 어렵습니다.

더 큰 차이는 학습 파이프라인입니다. Composer 2는 Kimi K2.5에 연속 사전학습을 도입했습니다. Composer 2.5는 그 기반을 유지하면서 타깃형 텍스트 피드백, 25배 많은 합성 과제, 인프라 변화를 추가했습니다. Standard 가격은 동일하게 유지됐습니다.

Composer 2.5와 Composer 1.5

Composer 1.5는 Composer 1과 같은 사전학습 모델에서 강화학습 규모를 20배 확대한 결과물입니다. 이 버전은 적응형 사고와 자기 요약을 도입해, 긴 세션에서 모델이 자체 컨텍스트를 압축할 수 있게 했습니다.

Composer 1.5와 2.5의 격차는 모든 벤치마크에서 큽니다. 토큰 가격도 낮아졌습니다. Composer 1.5는 입력 100만 토큰당 $3.50, 출력 100만 토큰당 $17.50로, Composer 2.5 Standard보다 대략 7배 비쌌습니다.

실제 사용에서 바뀐 점

이 버전들을 종합하면 패턴이 비교적 명확합니다. 각 세대는 긴 세션과 지시 따르기에서의 동작을 바꾸었고, Composer 2와 2.5는 장시간 에이전트 세션 비용을 낮췄습니다.

Composer 2.5 vs. Claude Opus 4.7 vs. GPT-5.5: 벤치마크, 가격, 트레이드오프

많은 독자가 가장 먼저 궁금해할 비교입니다. Composer 2.5는 일부 영역에서 유사한 코딩 벤치마크를 보이고, 아래의 최첨단 모델보다 토큰 가격이 낮으며, 분명한 트레이드오프도 있습니다.

벤치마크 비교

GPT-5.5는 Terminal-Bench 2.0에서 82.7%로 선도하며, Composer 2.5보다 약 13포인트 앞섭니다. 터미널 사용 비중이 큰 작업에는 이 격차가 중요합니다.

Claude Opus 4.7은 SWE-Bench Multilingual에서 Composer 2.5보다 약간 앞서며(80.5% 대 79.8%), 그 차이는 1포인트 미만입니다. CursorBench에서는 Composer 2.5가 63.2%로 Opus 4.7의 기본 설정(61.6%)보다 높지만, 최대 노력의 Opus 4.7(64.8%)보다는 낮습니다. GPT-5.5도 xhigh에서 64.3%에 도달하며, 기본 점수는 59.2%입니다.

이 모델들이 하는 일은 동일하지 않습니다. Opus 4.7과 GPT-5.5는 더 범용적인 최첨단 모델입니다. Composer 2.5는 Cursor에서만 실행되는 코딩 모델입니다. 일부 코딩 작업에서는 벤치마크 점수가 비슷하지만, 제품의 경계가 다릅니다.

가격 비교

비용 차이는 최첨단 모델과의 가장 분명한 구분입니다.

모델	입력(100만 토큰당)	출력(100만 토큰당)
Composer 2.5 Standard	$0.50	$2.50
Composer 2.5 Fast (기본)	$3.00	$15.00
Claude Opus 4.7	$5.00	$25.00
GPT-5.5	$5.00	$30.00

Composer 2.5 Standard는 토큰당 가격이 Opus 4.7과 GPT-5.5의 약 10분의 1 수준입니다. Fast 변형도 두 최첨단 모델의 표준 티어보다 낮게 책정되었습니다.

이 가격은 2026년 5월 기준이므로, 비교에 앞서 Cursor의 모델 가격, Anthropic의 Opus 가격, OpenAI API 가격을 확인하세요.

종종 간과되는 점이 하나 있습니다. Composer 2.5 Fast 가격은 Composer 2 Fast 대비 두 배가 되었습니다. Standard 가격은 그대로지만, Fast가 기본값이어서 일부 사용자에게는 업그레이드가 비용 증가로 이어질 수 있습니다.

어떤 모델을 선택해야 할까요?

모델 선택은 비용, 터미널 작업, 더 깊은 계획 중 무엇이 더 중요한지에 달려 있습니다.

Composer 2.5는 Cursor 내 일상적 코딩에 적합합니다. 특히 파일 전반의 편집, 리팩터링, 디버깅, 비용이 중요한 에이전트 세션에 알맞습니다.
GPT-5.5는 터미널 성능이 가장 중요한 작업에 적합합니다.
Claude Opus 4.7은 신중한 추론, 아키텍처 설계, 100만 토큰 컨텍스트 창이 필요한 작업에 적합합니다.

숫자에서 읽을 수 있는 패턴은 이렇습니다. Composer 2.5는 일상적인 코딩 작업을 담당하고, 최첨단 모델은 더 넓은 추론이나 더 높은 터미널 점수가 필요한 작업에서 여전히 역할이 있습니다.

Composer 2.5 Standard vs. Fast: 속도, 가격, 사용 시점

Cursor는 Composer 2와 마찬가지로 Composer 2.5도 두 가지 변형으로 제공합니다. Cursor에 따르면 두 변형은 동일한 기반 지능을 공유합니다. 차이는 주로 응답 속도와 비용입니다.

Composer가 선택된 Cursor 모델 선택기. 이미지: 필자 제작.

Fast는 기본값이며 입력 100만 토큰당 $3.00, 출력 100만 토큰당 $15.00이 듭니다. 지연 시간이 중요한 대화형 세션을 위한 것입니다. Standard는 $0.50과 $2.50로, 즉각적 피드백이 덜 중요한 백그라운드 작업이나 더 긴 에이전트 루프에 적합합니다.

Composer 2.5 사용량은 Cursor의 "Auto + Composer" 사용량 풀에 포함되며, Claude나 GPT 같은 외부 모델에 쓰이는 API 풀과는 분리됩니다. Cursor는 출시 후 첫 주 동안 사용량을 두 배로 제공하기도 했습니다.

Composer 2.5의 한계와 유의점

유의점은 접근성, 벤치마크, 학습 리스크에 관한 것입니다. Composer 2.5만의 특이점은 아니지만, Cursor의 주장에 얼마나 무게를 둘지에 영향을 줍니다.

Cursor에서만 사용 가능. 앞서 언급했듯이 Composer 2.5에는 공개 API가 없습니다. 자체 스크립트나 파이프라인에서 모델 호출이 필요한 워크플로라면 Composer 2.5는 선택지가 아닙니다.

CursorBench는 독립적이지 않음. 벤치마크 섹션에서 다뤘듯이 CursorBench v3.1은 Cursor 내부 벤치마크입니다. 방법론이 완전히 공개되어 있지 않고, 외부 연구자가 과제를 재현할 수 없습니다.

벤치마크 설정의 가변성. Cursor의 벤치마크 차트에서 최첨단 모델 점수는 모두 같은 방식으로 측정된 것이 아닙니다. 비교는 방향성으로만 받아들이세요.

학습 중 보상 해킹. Cursor는 모델이 합성 과제에서 정상적 해결 대신 영리한 지름길을 찾은 사례를 공개했습니다. 이 규모의 RL에는 모니터링이 명백한 사례를 포착하더라도 본질적 위험이 따릅니다.

노력 보정의 미검증. 커뮤니케이션 스타일과 노력 보정에 대한 Cursor의 주장은 앞서 다뤘듯이 벤치마크 데이터로 뒷받침되지 않습니다. 외부에서 확인하기 어렵습니다.

Composer 2.5가 적합한 경우

작업에 따라 다릅니다. Composer 2.5는 보편적 모델 선택이라기보다, 이미 Cursor 안에서 일하는 사람들을 위한 코딩 모델로 보는 편이 맞습니다.

하루 대부분을 Cursor에서 코딩하며 토큰 비용이 중요하다면, Composer 2.5 Standard가 Composer 2.5 라인업에서 가장 저렴합니다. 앞서 설명한 편집, 리팩터링, 디버깅, 긴 세션 작업에 해당합니다.

응답 속도가 더 중요하다면, Composer 2.5 Fast가 기본 옵션입니다.

더 넓은 추론, 더 큰 컨텍스트 창, 특정 영역에서 더 높은 벤치마크 점수가 필요하다면, Claude Opus 4.7 또는 GPT-5.5가 그 작업에 더 맞을 수 있습니다.

정리하자면, Composer 2.5는 위에서 다룬 일상 코딩 작업을 처리하고, 최첨단 모델은 더 넓은 추론이나 더 높은 터미널 점수를 요구하는 작업에 적합합니다. 모든 경우에 하나의 모델을 권하는 대신, 비교를 현실적으로 유지합니다.

마무리

Composer 2.5를 벤치마크 이야기로만 읽기 쉽지만, 더 유용한 관점은 진화의 방향입니다. Cursor는 단지 에디터 안에 최첨단 모델을 감싸는 것이 아닙니다. 에이전트가 이미 수행하는 작업—파일 전반의 편집, 터미널 단계, 긴 세션, 실수 복구—을 중심으로 모델 라인을 구축하고 있습니다.

앞서 언급했듯이, Composer 2.5는 의도적으로 폭이 좁습니다. 일반 모델로서 Claude Opus 4.7이나 GPT-5.5를 대체하지 않으며, Cursor 밖에서 API가 필요하다면 도움이 되지 않습니다. 그러나 Cursor 안에서는 이 좁은 초점이 핵심입니다. 최첨단 옵션보다 실행 비용이 저렴하고, 코딩 작업에 맞게 튜닝되어 있으며, 해당 작업이 일어나는 제품 레이어와 가깝습니다.

다음 질문은 Cursor가 이 영역을 얼마나 더 소유하고자 하느냐입니다. 회사는 SpaceXAI와 협력해 10배 더 많은 총 연산과 Colossus 2 인프라로 처음부터 더 큰 모델을 학습 중이라고 밝혔습니다. 출시일은 미정이라 아직 분석할 내용은 많지 않습니다. 그럼에도 큰 흐름은 분명합니다. Cursor는 모델을 잘 사용하는 단계에서, 모델 스택 자체를 더 많이 구축하는 단계로 나아가고 있습니다.