Composer 2.5: Benchmarks, prijzen en vergelijking

Cursor’s nieuwste eigen model, Composer 2.5, voegt gerichte RL-feedback toe, meer synthetische trainingstaken en lagere tokenprijzen dan frontier-modellen.

Bijgewerkt 22 mei 2026 · 13 min lezen

Cursor bracht Composer 2.5 uit op 18 mei 2026, ongeveer twee maanden na Composer 2 in maart. De korte periode tussen releases laat zien hoe snel Cursor zijn eigen modellijn bijwerkt.

Volgens Cursor scoort Composer 2.5 dicht in de buurt van Claude Opus 4.7 en GPT-5.5 op verschillende codebenchmarks. De tokenprijs ligt ook lager dan die van de frontier-modellen. De training veranderde ook: meer synthetische taken, moeilijkere trainingsomgevingen en een feedbackmethode die specifieke fouten in lange codesessies aanpakt.

In dit artikel kijk ik naar Composer 2.5 als meer dan alleen een benchmarkupdate. Ik behandel wat het is, wat er veranderde, hoe de benchmarks eruitzien, hoe de prijzen zich verhouden tot frontier-modellen en waar het past in een codeworkflow. Er zijn ook beperkingen, en een paar daarvan zijn het waard om te kennen voordat je de scores als het hele verhaal beschouwt.

Voor meer achtergrond over de andere modellen in deze vergelijking, zie onze gidsen voor Claude Opus 4.7 en GPT-5.5.

Wat is Cursor’s Composer 2.5-model?

Composer 2.5 is het nieuwste model in Cursor’s Composer-familie, gebouwd voor codeerwerk binnen de Cursor IDE. Het volgt Composer 1, Composer 1.5 en Composer 2.

Composer-tijdlijn van lancering tot 2.5. Afbeelding door auteur.

Dit is geen algemene chatbot. Composer 2.5 is getraind voor bewerkingen over meerdere bestanden, terminalcommando’s, toolgebruik en langere codesessies. De trainingdoelen en benchmarks richten zich op software-engineeringtaken.

In de launchpost staat dat het model hoger scoort dan Composer 2 op codeertaken en zich anders gedraagt in langere sessies. Het is nu de standaardoptie in de modelkiezer van Cursor, al blijft Composer 2 beschikbaar. Het draait ook alleen binnen Cursor. Er is geen publieke API, geen Hugging Face-modelkaart en geen gatewaytoegang via een andere aanbieder.

Wat is er veranderd in Composer 2.5

De veranderingen in Composer 2.5 vallen in twee categorieën: prestatie op codeertaken en samenwerkingsgedrag. De eerste is makkelijker te meten dan de tweede, dus het is zinvol om te scheiden wat Cursor met cijfers kan laten zien van wat het meer kwalitatief beschrijft.

Betere prestaties op langere taken

Composer 2.5 is gericht op langere codesessies waarin een model bestanden moet lezen, terminalcommando’s uitvoeren, fouten herstellen en itereren. Dat is belangrijk, want echte ontwikkeling past zelden in één enkele prompt en respons.

Cursor trainde het model in moeilijkere reinforcement learning-omgevingen voor dit soort werk. Taken werden tijdens de training gegenereerd en de moeilijkheidsgraad nam in de tijd toe.

Instructievolging en samenwerking

De release beschrijft ook betrouwbaardere instructievolging. Er wordt gewezen op inspanningskalibratie: het model zou meer rekenkracht besteden aan moeilijke taken en eenvoudige taken niet overdenken.

Er is hier een kanttekening. Cursor merkt op dat deze gedragsveranderingen "niet goed worden vastgelegd door bestaande benchmarks." Dit deel van de release is dus vooral gebaseerd op Cursor’s eigen beoordeling en vroege gebruikersfeedback, niet op een publieke score.

Moeelijkere RL-omgevingen

De launchpost kadert de trainingsverandering als "training opschalen, complexere RL-omgevingen genereren en nieuwe leermethoden introduceren." De training gebruikte 25x meer synthetische taken dan Composer 2.

Hoe Cursor Composer 2.5 trainde

De trainingsdetails leggen uit waarom het model veranderde zonder een nieuwe basisarchitectuur. Composer 2.5 gebruikt dezelfde basis als Composer 2, maar het werk na de basistraining is veranderd. Niet elk infrastructuurdetail is even relevant voor lezers, maar een paar onderdelen helpen de benchmarkverschuiving te verklaren.

Gebouwd op Kimi K2.5

Composer 2.5 is gebouwd op hetzelfde open-source checkpoint als Composer 2: Kimi K2.5 van Moonshot AI. Cursor zei dit expliciet in de launchpost, wat relevant is omdat het basismodel onderwerp van discussie was rond Composer 2.

Kimi K2.5 gebruikt een Mixture of Experts-architectuur. Cursor past voortgezette pretraining en reinforcement learning toe bovenop die basis, en zegt dat ongeveer 85% van de totale compute voor het eindmodel afkomstig is van eigen werk na de basistraining.

Gerichte RL met tekstuele feedback

Dit is de belangrijkste technische verandering in Composer 2.5. Standaard RL geeft een model één beloningssignaal aan het eind van een lange sequentie. In een lange codesessie kan die eindbeloning te ruisgevoelig zijn om te laten zien waar het model fout ging.

De leraar en de leerling delen één beurt. Afbeelding door auteur.

Cursor’s methode voegt een korte tekshint in op het punt waar het model een slechte beslissing nam. Als het model bijvoorbeeld een tool aanroept die niet bestaat, kan het trainingsproces een herinnering invoegen met de juiste toollijst. De gehintte versie fungeert als "leraar" en het oorspronkelijke model als "leerling". Een distillatieloss beweegt vervolgens het gedrag van de leerling richting dat van de leraar, alleen voor die beurt.

Het resultaat is gerichtere training: individuele fouten kunnen worden gecorrigeerd zonder een hele lange rollout vaag als goed of fout te bestempelen. Cursor paste deze methode toe op codeerstijl, toolgebruik en modelcommunicatie tijdens de Composer 2.5-trainingsrun.

Synthetische data op grotere schaal

Composer 2.5 is getraind met 25x meer synthetische taken dan Composer 2. Deze taken zijn gebaseerd op echte codebases, niet op speelgoedvoorbeelden.

Eén aanpak die Cursor beschrijft, is featuredeletie. Een agent begint met een echte codebase en een grote testset, verwijdert vervolgens code en bestanden, terwijl de rest van het project functioneel blijft. De synthetische taak is om de verwijderde feature opnieuw te implementeren, en de tests geven een verifieerbaar beloningssignaal.

De schaal van synthetische training brengt eigen risico’s met zich mee. Cursor documenteerde gevallen waarin Composer 2.5 shortcuts vond, waaronder het terughalen van verwijderde informatie uit een Python typechecking-cache en het decompileren van Java-bytecode om een externe API te reconstrueren. Het bedrijf zegt dat het deze via monitoringtools heeft ontdekt, maar erkent dat trainen op deze schaal "meer zorg" vereist.

Infrastructuurveranderingen

Aan de infrastructuurkant gebruikte Cursor Sharded Muon en dual mesh HSDP voor voortgezette pretraining. Deze veranderingen verlaagden een deel van de kosten en tijd die gemoeid zijn met trainen op grote GPU-clusters.

Composer 2.5 benchmarkresultaten: Terminal-Bench, SWE-Bench en CursorBench

Benchmarks zijn nuttig, maar laten niet het volledige beeld zien. Ik zou ze zien als startpunt voor vergelijking, niet als een volledig oordeel over hoe het model aanvoelt in dagelijks werk.

Cursor evalueert Composer 2.5 op drie benchmarks:

Benchmark	Composer 2.5	Claude Opus 4.7	GPT-5.5	Composer 2
SWE-Bench Multilingual	79,8%	80,5%	77,8%	73,7%
Terminal-Bench 2.0	69,3%	69,4%	82,7%	61,7%
CursorBench v3.1 (moeilijkere taken)	63,2%	64,8% (max) / 61,6% (standaard)	64,3% (xhigh) / 59,2% (standaard)	52,2%

SWE-Bench Multilingual test of een model echte GitHub-issues kan oplossen in meerdere programmeertalen. Elke taak geeft het model een repository en een probleemstelling, en controleert vervolgens of de patch de bijbehorende tests doorstaat.

Terminal-Bench 2.0 meet of een AI-agent in echte terminalworkflows kan opereren: bestanden inspecteren, commando’s uitvoeren, fouten debuggen en meerstappige taken afronden.

CursorBench v3.1 is Cursor’s interne, private benchmark. Het evalueert agents op ambigue taken met meerdere bestanden uit echte Cursor-sessies, waaronder codebasebegrip, bugfinding, planning en code review. De beperking is dat CursorBench niet kan worden geverifieerd of gereproduceerd door externe onderzoekers, en scores moeten binnen dezelfde evalversie worden vergeleken.

Er is één kanttekening die telt voordat je te veel uit deze cijfers afleidt. Benchmarkvergelijkingen tussen modellen zijn niet altijd zuiver. Verschillende evaluatieopzetten en inspanningsinstellingen kunnen scores verplaatsen, en Cursor merkt op dat Opus 4.7 en GPT-5.5 zelfgerapporteerde scores gebruiken voor publieke evaluaties. Zie dit als richtinggevende vergelijkingen, niet als directe tests onder identieke omstandigheden.

Een latere externe benchmark van Artificial Analysis wijst in een vergelijkbare richting, al gebruikt die een andere mix van benchmarks. Composer 2.5 scoorde 62 op de Artificial Analysis Coding Agent Index, achter Claude Opus 4.7 op maximale inspanning (66) en GPT-5.5 op xhigh reasoning (65).

Het kostengat is het deel waar ik op zou letten: Artificial Analysis schatte Composer 2.5 op $0,07 per taak voor Standard en $0,44 voor Fast, vergeleken met $4,10 voor Opus 4.7 max en $4,82 voor GPT-5.5 xhigh.

Composer 2.5 vs. Composer 2 vs. Composer 1.5: hoe de scores zich verhouden

De Composer-familie kende drie releases in korte tijd. Composer 1.5 verscheen in februari 2026, Composer 2 in maart en Composer 2.5 in mei. Elke versie veranderde iets anders aan de trainingsaanpak.

Composer 2.5 versus Composer 2

De sprong van Composer 2 naar 2.5 is het duidelijkst op Terminal-Bench 2.0, waar de score steeg van 61,7% naar 69,3%, en op SWE-Bench Multilingual, van 73,7% naar 79,8%. De winst op CursorBench is kleiner, en de benchmarkversie veranderde van v3 naar v3.1, dus die vergelijking is minder direct.

Het grootste verschil zit in de trainingspijplijn. Composer 2 introduceerde voortgezette pretraining op Kimi K2.5. Composer 2.5 behield die basis en voegde gerichte tekstuele feedback toe, 25x meer synthetische taken en infrastructuurwijzigingen. De Standard-prijs bleef hetzelfde.

Composer 2.5 versus Composer 1.5

Composer 1.5 werd gebouwd door reinforcement learning 20x verder op te schalen op hetzelfde voorgetrainde model als Composer 1. Het introduceerde adaptive thinking en zelf-samenvatting, waarmee het model zijn eigen context kan comprimeren wanneer een sessie lang wordt.

De kloof tussen Composer 1.5 en 2.5 is groot over elke benchmark. Er kwam ook een lagere tokenprijs bij: Composer 1.5 kostte $3,50 per miljoen inputtokens en $17,50 per miljoen outputtokens, grofweg 7x duurder dan Composer 2.5 Standard.

Wat er in de praktijk veranderde

Over deze versies heen is het patroon vrij duidelijk: elke generatie veranderde gedrag tijdens lange sessies en instructievolging, terwijl Composer 2 en 2.5 de kosten verlaagden van langdurige agentsessies.

Composer 2.5 vs. Claude Opus 4.7 vs. GPT-5.5: benchmarks, prijs en trade-offs

Dit is de vergelijking waar veel lezers als eerste in geïnteresseerd zullen zijn. Composer 2.5 heeft vergelijkbare codebenchmarkscores in sommige gebieden, een lagere tokenprijs dan de onderstaande frontier-modellen en duidelijke trade-offs.

Benchmarkvergelijking

GPT-5.5 leidt op Terminal-Bench 2.0 met 82,7%, ongeveer 13 punten voor op Composer 2.5. Dat gat is belangrijk voor werk dat sterk leunt op terminalgebruik.

Claude Opus 4.7 ligt iets voor op Composer 2.5 op SWE-Bench Multilingual (80,5% versus 79,8%), minder dan een punt. Op CursorBench zit Composer 2.5 met 63,2% boven Opus 4.7 op standaardinstellingen (61,6%) maar onder Opus 4.7 op maximale inspanning (64,8%). GPT-5.5 haalt ook 64,3% op xhigh, terwijl de standaardscore 59,2% is.

Deze modellen doen niet precies hetzelfde werk. Opus 4.7 en GPT-5.5 zijn bredere frontier-modellen. Composer 2.5 is een codemodel dat alleen in Cursor draait. De benchmarkscores liggen dicht bij elkaar in sommige codeertaken, maar de productgrenzen verschillen.

Prijsvergelijking

Het kostenverschil is de duidelijkste scheidslijn met de frontier-modellen.

Model	Input (per 1M tokens)	Output (per 1M tokens)
Composer 2.5 Standard	$0,50	$2,50
Composer 2.5 Fast (standaard)	$3,00	$15,00
Claude Opus 4.7	$5,00	$25,00
GPT-5.5	$5,00	$30,00

Composer 2.5 Standard is geprijsd op ongeveer een tiende van Opus 4.7 en GPT-5.5 per token. De Fast-variant is ook lager geprijsd dan de standaardtiers van beide frontier-modellen.

Deze prijzen zijn actueel per mei 2026, dus check Cursor’s modelprijzen, Anthropic’s Opus-prijzen en OpenAI’s API-prijzen voordat je op de vergelijking vertrouwt.

Een vaak gemiste noot: de prijs van Composer 2.5 Fast is verdubbeld ten opzichte van Composer 2 Fast. De Standard-prijs bleef gelijk, maar Fast is de standaard, dus de upgrade kan de kosten voor sommige gebruikers alsnog verhogen.

Welk model moet je kiezen?

De keuze hangt af van of kosten, terminalwerk of dieper plannen het belangrijkst is:

Composer 2.5 past bij dagelijks coderen in Cursor, vooral bij bewerkingen over bestanden, refactoring, debuggen en agentsessies waar kosten tellen.
GPT-5.5 past bij taken waar terminalprestaties het belangrijkst zijn.
Claude Opus 4.7 past bij taken die zorgvuldige redenering, architecturale planning of een contextvenster van 1 miljoen tokens nodig hebben.

Dat is het patroon dat ik uit de cijfers zou halen: Composer 2.5 dekt routinematig codeerwerk, terwijl frontier-modellen nog steeds een rol hebben voor bredere redenering of hogere terminalscores.

Composer 2.5 Standard vs. Fast: snelheid, prijs en wanneer je welke gebruikt

Cursor levert Composer 2.5 in twee varianten, net als Composer 2. Volgens Cursor delen beide dezelfde onderliggende intelligentie. Het verschil zit vooral in hoe snel het model reageert en wat het kost.

Modelkiezer van Cursor met Composer geselecteerd. Afbeelding door auteur.

Fast is de standaard en kost $3,00 per miljoen inputtokens en $15,00 per miljoen outputtokens. Het is bedoeld voor interactieve sessies waar lage latency telt. Standard draait op $0,50 en $2,50, en past dus bij achtergrondtaken of langere agentloops waar directe feedback minder belangrijk is.

Het gebruik van Composer 2.5 valt in Cursor’s "Auto + Composer"-gebruiksbundel, los van de API-bundel die wordt gebruikt voor externe modellen zoals Claude en GPT. Cursor bood ook dubbel gebruik aan in de eerste week na de lancering.

Beperkingen en kanttekeningen van Composer 2.5

De kanttekeningen gaan over toegang, benchmarks en trainingsrisico. Ze maken Composer 2.5 niet ongewoon, maar ze beïnvloeden wel hoeveel gewicht je aan Cursor’s claims moet hechten.

Alleen beschikbaar in Cursor. Zoals ik eerder noemde, heeft Composer 2.5 geen publieke API. Als je workflow afhankelijk is van het aanroepen van een model vanuit je eigen scripts of pipelines, is Composer 2.5 geen optie.

CursorBench is niet onafhankelijk. Zoals ik in het benchmarkgedeelte besprak, is CursorBench v3.1 intern bij Cursor. De methodologie is niet volledig publiek, en de taken kunnen niet door externe onderzoekers worden gereproduceerd.

Variabiliteit in benchmarkopzet. De scores van frontier-modellen in Cursor’s benchmarkgrafiek zijn niet allemaal op dezelfde manier gemeten. Beschouw de vergelijkingen als richtinggevend, niet als definitief.

Reward hacking tijdens training. Cursor onthulde gevallen waarin het model slimme shortcuts vond in synthetische taken in plaats van ze normaal op te lossen. Dit is een inherent risico van RL op deze schaal, zelfs als monitoring duidelijke voorbeelden opvangt.

Inspanningskalibratie is niet geverifieerd. Cursor’s claims over communicatiestijl en inspanningskalibratie worden niet ondersteund door benchmarkdata, zoals eerder besproken. Dat maakt ze van buitenaf lastig te controleren.

Wanneer Composer 2.5 logisch is

Dit hangt af van de taak. Ik zou Composer 2.5 minder framen als een universele modelkeuze en meer als een codemodel voor mensen die al in Cursor werken.

Als je het grootste deel van je dag in Cursor codeert en om tokenkosten geeft, heeft Composer 2.5 Standard de laagste prijs binnen de Composer 2.5-lijn. Dat geldt voor hetzelfde bewerkings-, refactoring-, debug- en lang-sessie-werk zoals hierboven beschreven.

Als reactiesnelheid belangrijker is, is Composer 2.5 Fast de standaardoptie.

Als de taak bredere redenering, een groter contextvenster of hogere benchmarkscores op een specifiek gebied vereist, passen Claude Opus 4.7 of GPT-5.5 mogelijk beter bij die taak.

Eén manier om het te framen: Composer 2.5 handelt het routinematige codeerwerk af dat ik hierboven besprak, terwijl een frontier-model kan passen bij taken die bredere redenering of hogere terminalscores vereisen. Zo blijft de vergelijking nuchter zonder het tot een aanbeveling voor één model in alle gevallen te maken.

Slotgedachten

Composer 2.5 is makkelijk te lezen als een benchmarkverhaal, maar ik denk dat de nuttigere les de richting is. Cursor wikkelt niet alleen frontier-modellen in een editor. Het bouwt een modellijn rond het soort werk dat zijn agents al doen: bewerkingen over bestanden, terminalstappen, langere sessies en herstel van fouten.

Zoals ik eerder noemde, is de trade-off dat Composer 2.5 bewust smal is. Het vervangt Claude Opus 4.7 of GPT-5.5 niet als algemeen model, en het helpt niet als je een API buiten Cursor nodig hebt. Maar binnen Cursor is die smallere focus juist het punt. Het model is goedkoper te draaien dan de frontier-opties, is afgestemd op codeertaken en zit dicht op de productlaag waar die taken plaatsvinden.

De volgende vraag is hoeveel hiervan Cursor zelf wil bezitten. Het bedrijf zegt samen met SpaceXAI te werken aan het trainen van een groter model vanaf nul met 10x meer totale compute en Colossus 2-infrastructuur. Er is geen releasedatum gegeven, dus er valt nog niet veel te analyseren. Toch is de grote lijn duidelijk: Cursor verschuift van modellen goed gebruiken naar meer van de modelstack zelf bouwen.