Sari la conținutul principal

Composer 2.5: benchmarkuri, prețuri și comparații

Cel mai nou model proprietar al Cursor, Composer 2.5, adaugă feedback RL țintit, mai multe sarcini sintetice de antrenare și prețuri pe token mai mici decât modelele de frontieră.
Actualizat 22 mai 2026  · 13 min. citire

Cursor a lansat Composer 2.5 pe 18 mai 2026, la aproximativ două luni după Composer 2 din martie. Intervalul scurt dintre lansări arată cât de rapid își actualizează Cursor propria linie de modele.

Cursor raportează că Composer 2.5 obține scoruri apropiate de Claude Opus 4.7 și GPT-5.5 pe mai multe benchmarkuri de programare. Prețul pe token este, de asemenea, mai mic decât cel al modelelor de frontieră. S-a schimbat și antrenarea: mai multe sarcini sintetice, medii de antrenare mai dificile și o metodă de feedback care vizează greșeli specifice în sesiuni lungi de codare.

În acest articol, privesc Composer 2.5 ca mai mult decât un update de benchmark. Voi acoperi ce este, ce s-a schimbat, cum arată benchmarkurile, cum se compară prețurile cu modelele de frontieră și unde se potrivește într-un flux de lucru de programare. Există și limitări, iar câteva merită știute înainte să tratezi scorurile ca întreaga poveste.

Pentru mai mult context despre celelalte modele din această comparație, vezi ghidurile noastre pentru Claude Opus 4.7 și GPT-5.5.

Ce este modelul Composer 2.5 al Cursor?

Composer 2.5 este cel mai nou model din familia Composer a Cursor, creat pentru munca de programare în interiorul Cursor IDE. Urmează Composer 1, Composer 1.5 și Composer 2.

Cronologie orizontală a lansărilor modelelor Cursor Composer din octombrie 2025 până în mai 2026, arătând Composer 1, 1.5, 2 și 2.5, cu inovațiile cheie de antrenare și datele de lansare etichetate la fiecare etapă

Cronologia Composer de la lansare până la 2.5. Imagine de autor.

Acesta nu este un chatbot general. Composer 2.5 este antrenat pentru editări între fișiere, comenzi de terminal, utilizare de unelte și sesiuni mai lungi de codare. Țintele de antrenare și benchmarkurile sunt axate pe sarcini de inginerie software.

Postarea de lansare spune că modelul obține scoruri peste Composer 2 la sarcini de programare și se comportă diferit în sesiuni mai lungi. Este acum opțiunea implicită în selectorul de modele din Cursor, deși Composer 2 rămâne disponibil. De asemenea, rulează doar în Cursor. Nu există API public, nici fișă de model pe Hugging Face, nici acces printr-un alt furnizor.

Ce s-a schimbat în Composer 2.5

Schimbările din Composer 2.5 se împart în două categorii: performanța la sarcini de programare și comportamentul de colaborare. Prima e mai ușor de măsurat decât a doua, așa că merită separat ce poate arăta Cursor în cifre de ceea ce descrie mai degrabă calitativ.

Performanță pe sarcini mai lungi

Composer 2.5 vizează sesiuni de codare mai lungi, în care un model trebuie să citească fișiere, să ruleze comenzi în terminal, să repare erori și să itereze. Asta contează pentru că dezvoltarea reală rareori încape într-un singur prompt și un singur răspuns.

Cursor a antrenat modelul în medii mai dificile de învățare prin întărire pentru acest tip de muncă. Sarcinile au fost create în timpul antrenării, iar dificultatea a crescut în timp.

Urmarea instrucțiunilor și colaborare

Lansarea descrie și urmarea mai fiabilă a instrucțiunilor. Indică o calibrare a efortului: modelul ar trebui să consume mai mult compute la sarcini grele și să evite să complice inutil pe cele simple.

Există un avertisment aici. Cursor notează că aceste schimbări de comportament „nu sunt bine surprinse de benchmarkurile existente”. Deci această parte a lansării se bazează mai mult pe propria evaluare a Cursor și pe feedbackul timpuriu al utilizatorilor, nu pe un scor public.

Mediile RL mai dificile

Postarea de lansare încadrează schimbarea ca „scalare a antrenării, generarea unor medii RL mai complexe și introducerea de noi metode de învățare”. Antrenarea a folosit de 25x mai multe sarcini sintetice decât Composer 2.

Cum a antrenat Cursor Composer 2.5

Detaliile de antrenare explică de ce modelul s-a schimbat fără o nouă arhitectură de bază. Composer 2.5 folosește același fundament ca și Composer 2, dar munca de după antrenarea de bază s-a schimbat. Nu fiecare detaliu de infrastructură contează la fel pentru cititori, dar câteva părți ajută să explici mișcarea benchmarkurilor.

Construit pe Kimi K2.5

Composer 2.5 este construit pe același checkpoint open source ca și Composer 2: Kimi K2.5 de la Moonshot AI. Cursor a spus asta direct în postarea de lansare, ceea ce contează pentru că modelul de bază a fost un subiect de dezbatere în jurul Composer 2.

Kimi K2.5 folosește o arhitectură Mixture of Experts. Cursor aplică preantrenare continuată și învățare prin întărire peste acea bază și spune că aproximativ 85% din compute-ul total pentru modelul final provine din propria muncă după antrenarea de bază.

RL țintit cu feedback textual

Aceasta este principala schimbare tehnică în Composer 2.5. RL standard oferă un singur semnal de recompensă la finalul unei secvențe lungi. Într-o sesiune lungă de codare, acea recompensă finală poate fi prea zgomotoasă pentru a arăta unde a greșit modelul.

Diagramă simplificată care arată metoda de antrenare RL țintită a Cursor: contextul inițial al modelului produce o distribuție elev, în timp ce un indiciu inserat la un apel de unealtă greșit produce o distribuție profesor, iar o pierdere de distilare KL actualizează elevul spre profesor doar pentru acea tură

Profesorul și elevul împart o singură tură. Imagine de autor.

Metoda Cursor inserează un indiciu scurt de text în punctul în care modelul a luat o decizie proastă. De exemplu, dacă modelul apelează o unealtă care nu există, procesul de antrenare poate introduce un reminder cu lista corectă de unelte. Versiunea cu indiciu acționează ca un „profesor”, iar modelul original ca un „elev”. O pierdere de distilare mută apoi comportamentul elevului către cel al profesorului doar la acea tură.

Rezultatul este o antrenare mai țintită: greșelile individuale pot fi corectate fără a trata un rollout lung întreg ca fiind vag corect sau greșit. Cursor a aplicat această metodă la stilul de codare, folosirea uneltelor și comunicarea modelului în timpul rulării Composer 2.5.

Date sintetice la scară mai mare

Composer 2.5 a fost antrenat cu de 25x mai multe sarcini sintetice decât Composer 2. Aceste sarcini sunt ancorate în coduri reale, nu exemple-jucărie.

O abordare descrisă de Cursor este ștergerea de funcționalități. Un agent pornește cu un cod real și o suită mare de teste, apoi elimină cod și fișiere păstrând restul proiectului funcțional. Sarcina sintetică este să reimplementezi funcționalitatea eliminată, iar testele oferă un semnal de recompensă verificabil.

Scara antrenării sintetice introduce propriile riscuri. Cursor a documentat cazuri în care Composer 2.5 a găsit scurtături, inclusiv recuperarea informațiilor șterse dintr-un cache de verificare de tipuri Python și decompilarea bytecode-ului Java pentru a reconstrui o API externă. Compania spune că le-a depistat folosind unelte de monitorizare, dar a recunoscut că antrenarea la această scară necesită „atenție sporită”.

Schimbări de infrastructură

Pe partea de infrastructură, Cursor a folosit Sharded Muon și dual mesh HSDP pentru preantrenarea continuată. Aceste schimbări au redus din costul și timpul implicate în antrenarea pe clustere mari de GPU.

Rezultatele benchmarkurilor pentru Composer 2.5: Terminal-Bench, SWE-Bench și CursorBench

Benchmarkurile sunt utile, dar nu arată întreaga imagine. Le-aș trata ca pe un punct de pornire pentru comparație, nu ca pe un verdict complet despre cum se va simți modelul în munca zilnică.

Cursor evaluează Composer 2.5 pe trei benchmarkuri:

Benchmark

Composer 2.5

Claude Opus 4.7

GPT-5.5

Composer 2

SWE-Bench Multilingual

79.8%

80.5%

77.8%

73.7%

Terminal-Bench 2.0

69.3%

69.4%

82.7%

61.7%

CursorBench v3.1 (sarcini mai dificile)

63.2%

64.8% (max) / 61.6% (implicit)

64.3% (xhigh) / 59.2% (implicit)

52.2%

SWE-Bench Multilingual testează dacă un model poate rezolva probleme reale de pe GitHub în mai multe limbaje de programare. Fiecare sarcină oferă modelului un repository și o descriere a problemei, apoi verifică dacă patch-ul trece testele asociate.

Terminal-Bench 2.0 măsoară dacă un agent AI poate opera în fluxuri reale de lucru în terminal: inspectarea fișierelor, rularea comenzilor, depanarea eșecurilor și finalizarea sarcinilor cu mai mulți pași.

CursorBench v3.1 este benchmarkul intern privat al Cursor. Evaluează agenții pe sarcini ambigue, cu mai multe fișiere, din sesiuni reale Cursor, inclusiv înțelegerea codebase-ului, găsirea bugurilor, planificarea și code review. Limitarea este că CursorBench nu poate fi verificat sau reprodus de cercetători externi, iar scorurile ar trebui comparate în cadrul aceleiași versiuni de evaluare.

Există un avertisment important înainte de a citi prea mult în aceste cifre. Comparațiile de benchmark între modele nu sunt întotdeauna curate. Setările diferite de evaluare și de efort pot deplasa scorurile, iar Cursor notează că Opus 4.7 și GPT-5.5 folosesc scoruri auto-raportate pentru evaluările publice. Tratează-le ca pe comparații orientative, nu ca pe teste directe în condiții identice.

Un benchmark extern ulterior de la Artificial Analysis indică o direcție similară, deși folosește un mix diferit de benchmarkuri. Composer 2.5 a obținut 62 pe Artificial Analysis Coding Agent Index, în urma lui Claude Opus 4.7 la efort maxim (66) și GPT-5.5 la raționament xhigh (65).

Diferența de cost este partea la care m-aș uita atent: Artificial Analysis a estimat Composer 2.5 la 0,07 $ pe sarcină pentru Standard și 0,44 $ pentru Fast, comparativ cu 4,10 $ pentru Opus 4.7 max și 4,82 $ pentru GPT-5.5 xhigh.

Composer 2.5 vs. Composer 2 vs. Composer 1.5: cum se compară scorurile

Familia Composer a avut trei lansări într-o perioadă scurtă. Composer 1.5 în februarie 2026, Composer 2 în martie și Composer 2.5 în mai. Fiecare versiune a schimbat ceva diferit în abordarea de antrenare.

Composer 2.5 versus Composer 2

Saltul de la Composer 2 la 2.5 este cel mai vizibil pe Terminal-Bench 2.0, unde scorul a trecut de la 61.7% la 69.3%, și pe SWE-Bench Multilingual, de la 73.7% la 79.8%. Câștigul pe CursorBench este mai mic, iar versiunea benchmarkului s-a schimbat de la v3 la v3.1, deci comparația e mai puțin directă.

Diferența mai mare este pipeline-ul de antrenare. Composer 2 a introdus preantrenarea continuată pe Kimi K2.5. Composer 2.5 a păstrat acea bază și a adăugat feedback textual țintit, de 25x mai multe sarcini sintetice și schimbări de infrastructură. Prețul Standard a rămas același.

Composer 2.5 versus Composer 1.5

Composer 1.5 a fost construit prin scalarea cu 20x a învățării prin întărire pe același model preantrenat ca Composer 1. A introdus gândirea adaptivă și auto-sumarizarea, care îi permit modelului să-și comprime propriul context când o sesiune se prelungește.

Diferența dintre Composer 1.5 și 2.5 este mare pe fiecare benchmark. A venit și cu un preț pe token mai mic: Composer 1.5 era la 3,50 $ pe un milion de tokeni de intrare și 17,50 $ pe un milion de tokeni de ieșire, de aproximativ 7x mai scump decât Composer 2.5 Standard.

Ce s-a schimbat în practică

De-a lungul acestor versiuni, patternul e destul de clar: fiecare generație a schimbat comportamentul în timpul sesiunilor lungi și urmarea instrucțiunilor, în timp ce Composer 2 și 2.5 au redus costul sesiunilor susținute de agenți.

Composer 2.5 vs. Claude Opus 4.7 vs. GPT-5.5: benchmarkuri, preț și compromisuri

Aceasta este comparația care va interesa pe mulți cititori mai întâi. Composer 2.5 are scoruri similare pe unele benchmarkuri de programare, un preț pe token mai mic decât modelele de frontieră listate mai jos și compromisuri clare.

Comparație de benchmarkuri

GPT-5.5 conduce pe Terminal-Bench 2.0 cu 82.7%, la aproximativ 13 puncte înaintea lui Composer 2.5. Acea diferență contează pentru munca ce depinde mult de folosirea terminalului.

Claude Opus 4.7 este ușor înaintea lui Composer 2.5 pe SWE-Bench Multilingual (80.5% față de 79.8%), adică sub un punct. Pe CursorBench, Composer 2.5 la 63.2% este peste Opus 4.7 la setări implicite (61.6%), dar sub Opus 4.7 la efort maxim (64.8%). GPT-5.5 ajunge și el la 64.3% la xhigh, în timp ce scorul implicit este 59.2%.

Aceste modele nu fac același job. Opus 4.7 și GPT-5.5 sunt modele de frontieră mai generale. Composer 2.5 este un model de programare care rulează doar în Cursor. Scorurile de benchmark sunt apropiate la unele sarcini de codare, dar limitele de produs sunt diferite.

Comparație de preț

Diferența de cost este delimitarea cea mai clară față de modelele de frontieră.

Model

Intrare (per 1M tokeni)

Ieșire (per 1M tokeni)

Composer 2.5 Standard

$0.50

$2.50

Composer 2.5 Fast (implicit)

$3.00

$15.00

Claude Opus 4.7

$5.00

$25.00

GPT-5.5

$5.00

$30.00

Composer 2.5 Standard este prețuit la aproximativ o zecime din Opus 4.7 și GPT-5.5 per token. Varianta Fast este, de asemenea, sub nivelurile standard ale oricărui model de frontieră.

Aceste prețuri sunt valabile în mai 2026, așa că verifică prețurile pentru modelele Cursor, prețurile pentru Opus de la Anthropic și prețurile API de la OpenAI înainte de a te baza pe comparație.

O notă des trecută cu vederea: prețul pentru Composer 2.5 Fast s-a dublat față de Composer 2 Fast. Prețul Standard a rămas neschimbat, dar Fast este implicit, deci upgrade-ul poate totuși crește costurile pentru unii utilizatori.

Ce model ar trebui să alegi?

Alegerea modelului depinde dacă îți pasă mai mult de cost, de munca în terminal sau de planificarea mai profundă:

  • Composer 2.5 se potrivește pentru programarea de zi cu zi în Cursor, mai ales pentru editări între fișiere, refactorizare, depanare și sesiuni cu agenți unde costul contează.
  • GPT-5.5 se potrivește pentru sarcini unde performanța în terminal contează cel mai mult.
  • Claude Opus 4.7 se potrivește pentru sarcini care necesită raționament atent, planificare arhitecturală sau o fereastră de context de 1 milion de tokeni.

Acesta este patternul pe care l-aș extrage din cifre: Composer 2.5 acoperă munca de programare de rutină, în timp ce modelele de frontieră au încă un rol pentru raționament mai larg sau scoruri mai mari în terminal.

Composer 2.5 Standard vs. Fast: viteză, preț și când să le folosești

Cursor livrează Composer 2.5 în două variante, ca și în cazul Composer 2. Conform Cursor, ambele împart aceeași inteligență de bază. Diferența este în principal cât de repede răspunde modelul și cât costă.

Captură de ecran a selectorului de modele din Cursor IDE, cu Composer 2.5 Fast afișat ca model implicit selectat

Selectorul de modele Cursor cu Composer selectat. Imagine de autor.

Fast este implicit și costă 3,00 $ pe milion de tokeni de intrare și 15,00 $ pe milion de tokeni de ieșire. Este destinat sesiunilor interactive unde contează latența mică. Standard rulează la 0,50 $ și 2,50 $, deci se potrivește pentru sarcini în fundal sau bucle mai lungi de agenți unde feedbackul imediat este mai puțin important.

Utilizarea Composer 2.5 intră în pool-ul „Auto + Composer” al Cursor, separat de pool-ul API folosit pentru modele externe precum Claude și GPT. Cursor a oferit și utilizare dublă în prima săptămână după lansare.

Limitări și avertismente pentru Composer 2.5

Avertismentele țin de acces, benchmarkuri și riscurile de antrenare. Nu fac Composer 2.5 neobișnuit, dar afectează câtă greutate să acorzi afirmațiilor Cursor.

Disponibil doar în Cursor. După cum am menționat, Composer 2.5 nu are API public. Dacă fluxul tău de lucru depinde de apelarea unui model din propriile scripturi sau pipeline-uri, Composer 2.5 nu este o opțiune.

CursorBench nu este independent. După cum am acoperit la secțiunea de benchmark, CursorBench v3.1 este intern la Cursor. Metodologia nu este complet publică, iar sarcinile nu pot fi reproduse de cercetători externi.

Variabilitatea setărilor de benchmark. Scorurile modelelor de frontieră din graficul Cursor nu sunt toate măsurate la fel. Tratează comparațiile ca orientative, nu definitive.

„Reward hacking” în timpul antrenării. Cursor a dezvăluit cazuri în care modelul a găsit scurtături ingenioase în sarcini sintetice în loc să le rezolve normal. Acesta este un risc inerent RL-ului la această scară, chiar dacă monitorizarea prinde exemplele evidente.

Calibrarea efortului este neverificată. Afirmațiile Cursor despre stilul de comunicare și calibrarea efortului nu sunt susținute de date de benchmark, după cum am menționat. Asta le face greu de verificat din exterior.

Când are sens Composer 2.5

Depinde de sarcină. Aș încadra Composer 2.5 mai puțin ca o alegere universală de model și mai mult ca un model de programare pentru cei care lucrează deja în Cursor.

Dacă îți petreci majoritatea zilei programând în Cursor și îți pasă de costul pe token, Composer 2.5 Standard are cel mai mic preț din linia Composer 2.5. Se aplică pentru aceleași editări, refactorizări, depanare și munca în sesiuni lungi descrise mai sus.

Dacă viteza răspunsului contează mai mult, Composer 2.5 Fast este opțiunea implicită.

Dacă sarcina cere raționament mai larg, o fereastră de context mai mare sau scoruri de benchmark mai înalte într-o zonă specifică, Claude Opus 4.7 sau GPT-5.5 pot fi mai potrivite pentru acea sarcină.

O modalitate de a o formula: Composer 2.5 gestionează munca de programare de rutină pe care am acoperit-o mai sus, în timp ce un model de frontieră poate fi mai potrivit pentru sarcini care cer raționament mai larg sau scoruri mai mari în terminal. Astfel comparația rămâne ancorată fără a se transforma într-o recomandare pentru un singur model în orice caz.

Gânduri finale

Composer 2.5 e ușor de citit ca o poveste despre benchmarkuri, dar cred că punctul mai util este direcția de mers. Cursor nu doar învelește modele de frontieră într-un editor. Construiește o linie de modele în jurul tipurilor de muncă pe care agenții săi le fac deja: editări între fișiere, pași în terminal, sesiuni mai lungi și recuperare după greșeli.

După cum am menționat, compromisul este că Composer 2.5 este îngust prin design. Nu înlocuiește Claude Opus 4.7 sau GPT-5.5 ca model general și nu ajută dacă ai nevoie de un API în afara Cursor. Dar în Cursor, focusul mai îngust este ideea. Modelul e mai ieftin de rulat decât opțiunile de frontieră, e reglat pentru sarcini de programare și stă aproape de stratul de produs unde au loc aceste sarcini.

Întrebarea următoare este cât de mult din asta vrea Cursor să dețină. Compania spune că lucrează cu SpaceXAI pentru a antrena de la zero un model mai mare folosind de 10x mai mult compute total și infrastructura Colossus 2. Nu a fost dată o dată de lansare, deci nu e mult de analizat încă. Totuși, forma de bază e destul de clară: Cursor trece de la a folosi bine modelele la a construi mai mult din însăși stiva de modele.

Composer 2.5 Întrebări frecvente

Pot folosi Composer 2.5 în afara Cursor?

Nu. După cum am acoperit mai sus, Composer 2.5 rulează exclusiv în produsele Cursor. Dacă ai nevoie de un model pe care să îl poți apela din propriul cod, vei avea nevoie de Claude, GPT sau un alt model concurent prin API-urile lor respective.

Este Composer 2.5 disponibil pe planul gratuit Hobby?

Materialele de lansare ale Cursor menționează „planuri individuale” fără a specifica nivelul Hobby. Planul Hobby include un pool limitat de cereri pentru agent. Planul Pro, la 20 $ pe lună, este planul pe care Cursor îl listează pentru folosirea mai regulată a agenților.

De ce este Composer 2.5 construit pe un model open source din China?

După cum am acoperit în secțiunea despre antrenare, Cursor folosește Kimi K2.5 de la Moonshot AI ca checkpoint de bază. Compania spune că 85% din compute-ul total merge către propria muncă de după antrenarea de bază, deci modelul final diferă de Kimi K2.5 brut. Cursor lucrează, de asemenea, cu SpaceXAI pentru a antrena un model viitor de la zero.

Cât costă Composer 2.5 pe sarcină?

Conform graficului Cursor despre efort și cost, o sarcină CursorBench cu Composer 2.5 costă sub 1 $ în medie. Aceeași sarcină direcționată prin Claude Opus 4.7 sau GPT-5.5 costă câțiva dolari, în funcție de setările de efort.

Varianta Fast produce o calitate diferită față de Standard?

După cum am acoperit în secțiunea Standard vs. Fast, Cursor descrie ambele variante ca având aceeași inteligență de bază. Diferența este latența: Fast este pentru sesiuni interactive, în timp ce Standard este pentru lucru în fundal. Nu există teste independente care să fi confirmat acea afirmație la data lansării.

Subiecte

Cursuri de top despre AI

course

Introduction to Claude Models

3 oră
7.9K
Learn how to work with Claude using the Anthropic API to solve real-world tasks and build AI-powered applications.
Vezi detaliiRight Arrow
Începeți cursul
Vezi mai multRight Arrow