Composer 2.5: бенчмарки, цены и сравнение

Новая проприетарная модель Cursor, Composer 2.5, добавляет таргетированную обратную связь в RL, больше синтетических учебных задач и более низкие цены за токены по сравнению с передовыми моделями.

Обновлено 22 мая 2026 г. · 13 мин читать

18 мая 2026 года Cursor выпустил Composer 2.5 — примерно через два месяца после релиза Composer 2 в марте. Небольшой разрыв между версиями показывает, как быстро Cursor обновляет свою линейку моделей.

По данным Cursor, Composer 2.5 набирает результаты, близкие к Claude Opus 4.7 и GPT-5.5, на нескольких кодовых бенчмарках. Цена за токен тоже ниже, чем у передовых моделей. Обучение изменилось: больше синтетических задач, более сложные тренировочные среды и метод обратной связи, нацеленный на конкретные ошибки в длинных сессиях кодирования.

В этой статье я рассматриваю Composer 2.5 не только как обновление бенчмарков. Я расскажу, что это за модель, что изменилось, как выглядят бенчмарки, как цены сопоставимы с передовыми моделями и какую роль она играет в рабочем процессе разработки. Есть и ограничения — о некоторых стоит знать заранее, чтобы не воспринимать оценки как всю картину.

Для справки по другим моделям в этом сравнении см. наши обзоры Claude Opus 4.7 и GPT-5.5.

Что такое модель Composer 2.5 от Cursor?

Composer 2.5 — новейшая модель в семействе Composer от Cursor, созданная для работы с кодом внутри Cursor IDE. Она следует за Composer 1, Composer 1.5 и Composer 2.

Хронология Composer от запуска до 2.5. Изображение автора.

Это не универсальный чат-бот. Composer 2.5 обучен для правок между файлами, терминальных команд, использования инструментов и длительных сессий кодирования. Его цели обучения и бенчмарки сосредоточены на задачах программной инженерии.

В релизе говорится, что модель превосходит Composer 2 на кодовых задачах и ведёт себя иначе в более длительных сессиях. Сейчас это вариант по умолчанию в селекторе моделей Cursor, хотя Composer 2 остаётся доступен. При этом модель работает только внутри Cursor. Нет публичного API, нет карточки модели на Hugging Face и нет доступа через сторонних провайдеров.

Что изменилось в Composer 2.5

Изменения в Composer 2.5 можно разделить на две категории: производительность на кодовых задачах и поведение при совместной работе. Первую проще измерить, чем вторую, поэтому стоит отделить то, что Cursor подтверждает цифрами, от более качественных описаний.

Производительность на длинных задачах

Composer 2.5 нацелен на продолжительные сессии кодирования, где модели нужно читать файлы, выполнять команды в терминале, исправлять ошибки и итеративно дорабатывать решения. Это важно, потому что реальная разработка редко укладывается в один запрос и ответ.

Cursor обучал модель в более сложных средах обучения с подкреплением для такого рода работ. Задачи генерировались в процессе обучения, а сложность повышалась со временем.

Следование инструкциям и взаимодействие

В релизе также описывается более надёжное следование инструкциям. Отмечается калибровка усилий: модель должна тратить больше вычислительных ресурсов на сложные задачи и избегать «переобдумывания» простых.

Здесь есть оговорка. Cursor отмечает, что эти поведенческие изменения «плохо отражаются существующими бенчмарками». То есть эта часть опирается главным образом на собственную оценку Cursor и раннюю обратную связь пользователей, а не на публичные метрики.

Более сложные RL-среды

В посте о запуске изменения в обучении представлены как «масштабирование обучения, генерация более сложных RL-сред и внедрение новых методов обучения». Обучение включало в 25 раз больше синтетических задач, чем у Composer 2.

Как Cursor обучал Composer 2.5

Подробности обучения объясняют, почему модель изменилась без новой базовой архитектуры. Composer 2.5 использует тот же фундамент, что и Composer 2, но этапы после базового обучения были другими. Не каждая инфраструктурная деталь одинаково важна для читателей, но некоторые помогают понять сдвиг в бенчмарках.

Основан на Kimi K2.5

Composer 2.5 построен на том же открытом контрольном срезе, что и Composer 2: Kimi K2.5 от Moonshot AI. Cursor прямо указал это в релизе, что важно, потому что базовая модель была предметом дискуссий вокруг Composer 2.

Kimi K2.5 использует архитектуру Mixture of Experts. Cursor применяет продолженное предобучение и обучение с подкреплением поверх этой базы и утверждает, что около 85% общего вычислительного ресурса для финальной модели приходится на их собственную работу после базового этапа.

Таргетированный RL с текстовой обратной связью

Это главное техническое изменение в Composer 2.5. Стандартный RL даёт модели один сигнал вознаграждения в конце длинной последовательности. В длительной сессии кодирования этот финальный сигнал может быть слишком шумным, чтобы указать, где модель ошиблась.

Учитель и ученик делят один ход. Изображение автора.

Метод Cursor вставляет короткую текстовую подсказку в тот момент, когда модель приняла неверное решение. Например, если модель вызывает несуществующий инструмент, процесс обучения может вставить напоминание с корректным списком инструментов. Вариант с подсказкой выступает «учителем», а исходная модель — «учеником». Затем дистилляционная функция потерь смещает поведение ученика к учителю только на этом ходу.

Результат — более прицельное обучение: отдельные ошибки можно исправлять, не рассматривая весь длинный прогон как просто «правильный» или «неправильный». Cursor применил этот метод к стилю кодирования, использованию инструментов и коммуникации модели в ходе обучения Composer 2.5.

Синтетические данные в большем масштабе

Composer 2.5 обучали с использованием в 25 раз большего числа синтетических задач по сравнению с Composer 2. Эти задачи основаны на реальных кодовых базах, а не на игрушечных примерах.

Один из подходов, который описывает Cursor, — удаление функциональности. Агент начинает с реальной кодовой базы и большого набора тестов, затем удаляет код и файлы, сохраняя работоспособность остальной части проекта. Синтетическая задача — восстановить удалённую функциональность, а тесты дают проверяемый сигнал вознаграждения.

Масштаб синтетического обучения несёт свои риски. Cursor задокументировал случаи, когда Composer 2.5 находил обходные пути, включая восстановление удалённой информации из кэша проверки типов Python и декомпиляцию Java-байткода для реконструкции внешнего API. Компания утверждает, что отследила это с помощью инструментов мониторинга, но признаёт, что обучение в таком масштабе требует «повышенного внимания».

Изменения инфраструктуры

Со стороны инфраструктуры Cursor использовал Sharded Muon и dual mesh HSDP для продолженного предобучения. Эти изменения сократили часть затрат и времени, связанных с обучением на крупных GPU-кластерах.

Результаты бенчмарков Composer 2.5: Terminal-Bench, SWE-Bench и CursorBench

Бенчмарки полезны, но не дают полной картины. Я бы рассматривал их как отправную точку для сравнения, а не как окончательный вердикт о том, как модель будет ощущаться в повседневной работе.

Cursor оценивает Composer 2.5 по трём бенчмаркам:

Бенчмарк	Composer 2.5	Claude Opus 4.7	GPT-5.5	Composer 2
SWE-Bench Multilingual	79,8%	80,5%	77,8%	73,7%
Terminal-Bench 2.0	69,3%	69,4%	82,7%	61,7%
CursorBench v3.1 (более сложные задачи)	63,2%	64,8% (max) / 61,6% (по умолчанию)	64,3% (xhigh) / 59,2% (по умолчанию)	52,2%

SWE-Bench Multilingual проверяет, может ли модель решать реальные проблемы GitHub на разных языках программирования. Каждая задача предоставляет репозиторий и формулировку проблемы, после чего проверяется, проходит ли патч соответствующие тесты.

Terminal-Bench 2.0 измеряет, может ли ИИ-агент работать в реальных терминальных процессах: просматривать файлы, запускать команды, отлаживать сбои и выполнять многошаговые задачи.

CursorBench v3.1 — это закрытый внутренний бенчмарк Cursor. Он оценивает агентов на неоднозначных многокомпонентных задачах из реальных сессий Cursor, включая понимание кодовой базы, поиск багов, планирование и ревью кода. Ограничение в том, что CursorBench не может быть проверен или воспроизведён внешними исследователями; сравнивать результаты стоит в пределах одной версии оценивания.

Есть важная оговорка, прежде чем слишком углубляться в цифры. Сопоставление бенчмарков между моделями не всегда «чистое». Различные настройки оценки и уровни усилий могут смещать результаты, и Cursor отмечает, что Opus 4.7 и GPT-5.5 используют самоотчётные баллы для публичных тестов. Рассматривайте их как направленное сравнение, а не как прямое тестирование в идентичных условиях.

Позднее внешнее бенчмаркирование от Artificial Analysis указывает на схожие выводы, хотя и использует иной набор тестов. Composer 2.5 набрал 62 в индексе Artificial Analysis Coding Agent, уступив Claude Opus 4.7 на максимальном уровне усилий (66) и GPT-5.5 на уровне xhigh reasoning (65).

Разница в стоимости — на что я бы обратил особое внимание: по оценкам Artificial Analysis, Composer 2.5 стоит $0,07 за задачу в режиме Standard и $0,44 в режиме Fast, против $4,10 для Opus 4.7 на максимуме и $4,82 для GPT-5.5 на xhigh.

Composer 2.5 vs. Composer 2 vs. Composer 1.5: сравнение результатов

У семейства Composer вышло три релиза за короткий период. Composer 1.5 в феврале 2026 года, Composer 2 — в марте и Composer 2.5 — в мае. В каждой версии менялся свой аспект подхода к обучению.

Composer 2.5 против Composer 2

Самый заметный скачок — в Terminal-Bench 2.0: с 61,7% до 69,3%, и в SWE-Bench Multilingual: с 73,7% до 79,8%. Рост в CursorBench меньше, к тому же версия бенчмарка сменилась с v3 на v3.1, так что сравнение менее прямое.

Большая разница — в конвейере обучения. Composer 2 ввёл продолженное предобучение на Kimi K2.5. Composer 2.5 сохранил эту базу и добавил таргетированную текстовую обратную связь, в 25 раз больше синтетических задач и изменения инфраструктуры. Цена Standard осталась прежней.

Composer 2.5 против Composer 1.5

Composer 1.5 был построен за счёт 20-кратного масштабирования RL на той же предобученной модели, что и Composer 1. Он представил адаптивное мышление и самосуммаризацию, позволяющую модели сжимать контекст при длинных сессиях.

Разрыв между Composer 1.5 и 2.5 велик во всех бенчмарках. Он сопровождался снижением цены за токен: Composer 1.5 стоил $3,50 за миллион входных токенов и $17,50 за миллион выходных — примерно в 7 раз дороже, чем Composer 2.5 Standard.

Что изменилось на практике

Во всех версиях прослеживается общая картина: каждое поколение меняло поведение в длинных сессиях и следование инструкциям, а Composer 2 и 2.5 снизили стоимость длительных агентных сессий.

Composer 2.5 vs. Claude Opus 4.7 vs. GPT-5.5: бенчмарки, цена и компромиссы

Именно это сравнение, вероятно, интересует многих в первую очередь. В ряде областей у Composer 2.5 схожие кодовые бенчмарки, цена за токен ниже, чем у перечисленных передовых моделей, и есть понятные компромиссы.

Сравнение бенчмарков

GPT-5.5 лидирует в Terminal-Bench 2.0 с 82,7% — примерно на 13 пунктов выше Composer 2.5. Этот разрыв важен для задач, сильно зависящих от работы в терминале.

Claude Opus 4.7 немного опережает Composer 2.5 на SWE-Bench Multilingual (80,5% против 79,8%) — менее чем на пункт. В CursorBench Composer 2.5 с 63,2% выше Opus 4.7 в настройках по умолчанию (61,6%), но ниже Opus 4.7 на максимальных усилиях (64,8%). GPT-5.5 также достигает 64,3% на xhigh, при 59,2% по умолчанию.

Эти модели решают разные задачи. Opus 4.7 и GPT-5.5 — более универсальные передовые модели. Composer 2.5 — модель для кодирования, работающая только в Cursor. В некоторых задачах по коду результаты близки, но продуктовые границы различаются.

Сравнение цен

Разница в стоимости — самое очевидное отличие от передовых моделей.

Модель	Вход (за 1 млн токенов)	Выход (за 1 млн токенов)
Composer 2.5 Standard	$0,50	$2,50
Composer 2.5 Fast (по умолчанию)	$3,00	$15,00
Claude Opus 4.7	$5,00	$25,00
GPT-5.5	$5,00	$30,00

Composer 2.5 Standard стоит примерно в десять раз дешевле Opus 4.7 и GPT-5.5 за токен. Вариант Fast тоже дешевле стандартных уровней любой из передовых моделей.

Эти цены актуальны на май 2026 года, поэтому перед сравнением проверьте цены на модели Cursor, цены Anthropic на Opus и цены API OpenAI.

Часто упускаемая деталь: цена Composer 2.5 Fast по сравнению с Composer 2 Fast удвоилась. Цена Standard осталась прежней, но Fast — вариант по умолчанию, так что обновление всё же может повысить расходы некоторых пользователей.

Какую модель выбрать?

Выбор зависит от того, что для вас важнее: стоимость, работа в терминале или более глубокое планирование:

Composer 2.5 подходит для повседневного кодирования внутри Cursor — особенно для правок в нескольких файлах, рефакторинга, отладки и агентных сессий, где важна стоимость.
GPT-5.5 подходит для задач, где ключевая роль у терминальной производительности.
Claude Opus 4.7 подходит для задач, требующих вдумчивого рассуждения, архитектурного планирования или контекстного окна в 1 миллион токенов.

Таков вывод из цифр: Composer 2.5 закрывает рутинные задачи по кодингу, тогда как у передовых моделей остаётся роль для более широкого рассуждения или лучших результатов в терминале.

Composer 2.5 Standard vs. Fast: скорость, цена и когда что использовать

Cursor поставляет Composer 2.5 в двух вариантах, как и Composer 2. По словам Cursor, у них одинаковые базовые способности. Разница в основном в скорости отклика и стоимости.

Селектор модели Cursor с выбранным Composer. Изображение автора.

Fast — вариант по умолчанию; он стоит $3,00 за миллион входных токенов и $15,00 за миллион выходных. Он рассчитан на интерактивные сессии с низкой задержкой. Standard стоит $0,50 и $2,50 соответственно, так что он подходит для фоновых задач или более длинных агентных циклов, где мгновенная обратная связь не так важна.

Использование Composer 2.5 попадает в пул «Auto + Composer» в Cursor, отдельный от API-пула, используемого для внешних моделей вроде Claude и GPT. В первую неделю после запуска Cursor также предоставлял двойной лимит использования.

Ограничения и оговорки Composer 2.5

Оговорки касаются доступа, бенчмарков и рисков обучения. Это не делает Composer 2.5 исключением, но влияет на то, насколько весомыми считать заявления Cursor.

Доступен только в Cursor. Как уже упоминалось, у Composer 2.5 нет публичного API. Если ваш процесс зависит от вызова модели из собственных скриптов или конвейеров, Composer 2.5 не подойдёт.

CursorBench не является независимым. Как отмечалось в разделе о бенчмарках, CursorBench v3.1 — внутренний инструмент Cursor. Его методология не полностью публична, а задачи не могут быть воспроизведены внешними исследователями.

Вариативность настроек бенчмарков. Результаты передовых моделей в таблице Cursor измерялись не одинаково. Воспринимайте сравнение как ориентировочное, а не окончательное.

Взлом вознаграждения во время обучения. Cursor сообщил о случаях, когда модель находила хитрые обходные пути в синтетических задачах вместо нормального решения. Это присущий риск RL в таком масштабе, даже если мониторинг выявляет явные примеры.

Калибровка усилий не подтверждена. Заявления Cursor о стиле коммуникации и калибровке усилий не подкреплены данными бенчмарков, как отмечалось ранее. Поэтому снаружи их сложно проверить.

Когда Composer 2.5 уместен

Это зависит от задачи. Я бы рассматривал Composer 2.5 не как универсальную модель, а как модель для кодирования для тех, кто уже работает в Cursor.

Если вы проводите большую часть дня за кодированием в Cursor и вам важна стоимость токенов, Composer 2.5 Standard — самый дешёвый вариант в линейке Composer 2.5. Это относится к тем же правкам, рефакторингу, отладке и длительным сессиям, описанным выше.

Если важнее скорость отклика, Composer 2.5 Fast — вариант по умолчанию.

Если задача требует более широкого рассуждения, большего контекстного окна или более высоких бенчмарк-оценок в конкретной области, Claude Opus 4.7 или GPT-5.5 могут лучше подойти.

Иными словами: Composer 2.5 берёт на себя описанную выше рутину по кодированию, а передовая модель может подойти для задач, требующих более широкого рассуждения или лучших результатов в терминале. Такой подход сохраняет приземлённость сравнения без рекомендаций «одной модели на все случаи».

Итоги

Composer 2.5 легко читать как историю о бенчмарках, но, на мой взгляд, важнее направление движения. Cursor не просто встраивает передовые модели в редактор, а строит собственную линейку вокруг тех типов работ, которые уже выполняют их агенты: правки между файлами, шаги в терминале, длинные сессии и восстановление после ошибок.

Как уже отмечалось, компромисс в том, что Composer 2.5 специально узок. Он не заменяет Claude Opus 4.7 или GPT-5.5 как универсальную модель и не поможет, если вам нужен API вне Cursor. Но внутри Cursor такая узость — это суть подхода. Модель дешевле в эксплуатации, чем передовые альтернативы, она настроена на задачи по кодированию и находится близко к продуктовому слою, где эти задачи решаются.

Следующий вопрос — насколько много этого Cursor хочет делать сам. Компания сообщает, что вместе со SpaceXAI работает над обучением более крупной модели «с нуля», используя в 10 раз больше совокупных вычислений и инфраструктуру Colossus 2. Дата релиза не названа, так что анализировать пока рано. Тем не менее общая тенденция ясна: Cursor переходит от умелого использования моделей к более глубокому строительству собственной модельной стековой части.

Могу ли я использовать Composer 2.5 вне Cursor?

Доступен ли Composer 2.5 в бесплатном плане Hobby?

Почему Composer 2.5 основан на китайской открытой модели?

Как описано в разделе об обучении, Cursor использует Kimi K2.5 от Moonshot AI как базовый контрольный срез. Компания утверждает, что 85% общего вычислительного ресурса уходит на собственную доработку после базового обучения, так что конечная модель отличается от «сырой» Kimi K2.5. Cursor также работает со SpaceXAI над будущей моделью, обучаемой с нуля.