Composer 2.5: benchmarks, precios y comparativa

El último modelo propietario de Cursor, Composer 2.5, añade feedback de RL dirigido, más tareas sintéticas y un precio por token más bajo que los modelos de vanguardia.

Actualizado 22 may 2026 · 13 min leer

Cursor lanzó Composer 2.5 el 18 de mayo de 2026, aproximadamente dos meses después del lanzamiento de Composer 2 en marzo. El poco tiempo entre versiones demuestra la rapidez con la que Cursor está actualizando su propia línea de modelos.

Según Cursor, Composer 2.5 obtiene puntuaciones cercanas a Claude Opus 4.7 y GPT-5.5 en varios benchmarks de programación. Su precio por token también es inferior al de los modelos de vanguardia. La formación cambió asimismo: más tareas sintéticas, entornos de entrenamiento más difíciles y un método de feedback que corrige errores concretos dentro de sesiones largas de programación.

En este artículo, analizo Composer 2.5 más allá de una simple actualización de benchmarks. Verás qué es, qué ha cambiado, cómo rinden los benchmarks, cómo se compara el precio con los modelos de vanguardia y dónde encaja en un flujo de trabajo de programación. También tiene limitaciones que conviene conocer antes de tomar las puntuaciones como toda la historia.

Para más contexto sobre los otros modelos de esta comparación, consulta nuestras guías de Claude Opus 4.7 y GPT-5.5.

¿Qué es el modelo Composer 2.5 de Cursor?

Composer 2.5 es el modelo más reciente de la familia Composer de Cursor, diseñado para programar dentro del IDE de Cursor. Sigue a Composer 1, Composer 1.5 y Composer 2.

Cronología de Composer desde el lanzamiento hasta 2.5. Imagen del autor.

No es un chatbot generalista. Composer 2.5 está entrenado para editar entre varios archivos, ejecutar comandos en terminal, usar herramientas y mantener sesiones de programación más largas. Sus objetivos de entrenamiento y benchmarks se centran en tareas de ingeniería de software.

Según la publicación de lanzamiento, el modelo supera a Composer 2 en tareas de programación y se comporta de forma distinta en sesiones largas. Ahora es la opción predeterminada en el selector de modelos de Cursor, aunque Composer 2 sigue disponible. Solo funciona dentro de Cursor: no hay API pública, ni ficha en Hugging Face, ni acceso a través de otro proveedor.

Qué ha cambiado en Composer 2.5

Los cambios en Composer 2.5 caen en dos categorías: rendimiento en tareas de programación y comportamiento colaborativo. La primera es más fácil de medir que la segunda, así que conviene separar lo que Cursor puede mostrar con números de lo que describe de forma más cualitativa.

Mejor rendimiento en tareas largas

Composer 2.5 está orientado a sesiones largas de programación en las que el modelo debe leer archivos, ejecutar comandos en terminal, corregir errores e iterar. Es relevante porque el desarrollo real rara vez cabe en un solo prompt y respuesta.

Cursor entrenó el modelo en entornos de aprendizaje por refuerzo más difíciles para este tipo de trabajo. Las tareas se generaban durante el entrenamiento y la dificultad aumentaba con el tiempo.

Seguimiento de instrucciones y colaboración

El lanzamiento también describe un seguimiento de instrucciones más fiable. Señala la calibración del esfuerzo: el modelo debería dedicar más cómputo a tareas difíciles y evitar pensar de más en las sencillas.

Hay una salvedad: Cursor indica que estos cambios de comportamiento "no quedan bien recogidos por los benchmarks existentes". Así que esta parte del lanzamiento se apoya sobre todo en la evaluación interna de Cursor y en feedback temprano de usuarios, no en una puntuación pública.

Entornos de RL más difíciles

La publicación enmarca el cambio como "escalar el entrenamiento, generar entornos de RL más complejos e introducir nuevos métodos de aprendizaje". El entrenamiento usó 25 veces más tareas sintéticas que Composer 2.

Cómo entrenó Cursor Composer 2.5

Los detalles de entrenamiento explican por qué el modelo cambió sin una nueva arquitectura base. Composer 2.5 usa la misma base que Composer 2, pero el trabajo posterior al preentrenamiento es distinto. No todo detalle de infraestructura es igual de relevante, pero algunos ayudan a entender el movimiento en los benchmarks.

Basado en Kimi K2.5

Composer 2.5 se construye sobre el mismo checkpoint de código abierto que Composer 2: Kimi K2.5 de Moonshot AI. Cursor lo dijo explícitamente en el post de lanzamiento, algo importante porque el modelo base fue un punto de debate en torno a Composer 2.

Kimi K2.5 utiliza una arquitectura de Mixture of Experts. Cursor aplica preentrenamiento continuo y aprendizaje por refuerzo sobre esa base, y afirma que aproximadamente el 85% del cómputo total del modelo final procede de su propio trabajo posterior al entrenamiento base.

RL dirigido con feedback textual

Este es el principal cambio técnico en Composer 2.5. El RL estándar da una señal de recompensa al final de una secuencia larga. En una sesión extensa de programación, esa recompensa final puede ser demasiado ruidosa para indicar dónde falló el modelo.

El profesor y el alumno comparten un turno. Imagen del autor.

El método de Cursor inserta una pista breve en el punto donde el modelo tomó una mala decisión. Por ejemplo, si el modelo llama a una herramienta que no existe, el proceso de entrenamiento puede añadir un recordatorio con la lista correcta de herramientas. La versión con pista actúa como "profesora" y el modelo original como "alumno". Una pérdida de destilación mueve entonces el comportamiento del alumno hacia el de la profesora solo en ese turno.

El resultado es un entrenamiento más dirigido: se corrigen errores individuales sin tratar todo un recorrido largo como vagamente correcto o incorrecto. Cursor aplicó este método a estilo de código, uso de herramientas y comunicación del modelo durante el entrenamiento de Composer 2.5.

Datos sintéticos a mayor escala

Composer 2.5 se entrenó con 25 veces más tareas sintéticas que Composer 2. Estas tareas se basan en codebases reales, no en ejemplos de juguete.

Una técnica que describe Cursor es la eliminación de funcionalidades. Un agente parte de una codebase real y una gran batería de tests, y elimina código y archivos manteniendo el resto del proyecto funcional. La tarea sintética consiste en reimplantar la funcionalidad eliminada, y los tests proporcionan una señal de recompensa verificable.

La escala del entrenamiento sintético introduce sus propios riesgos. Cursor documentó casos en los que Composer 2.5 encontró atajos, como recuperar información eliminada desde una caché de type-checking de Python o descompilar bytecode de Java para reconstruir una API externa. La empresa afirma que los detectó con herramientas de monitorización, pero reconoce que entrenar a esta escala requiere "cada vez más cuidado".

Cambios de infraestructura

En la parte de infraestructura, Cursor usó Sharded Muon y dual mesh HSDP para el preentrenamiento continuo. Estos cambios redujeron parte del coste y del tiempo de entrenar en grandes clústeres de GPU.

Resultados de benchmarks de Composer 2.5: Terminal-Bench, SWE-Bench y CursorBench

Los benchmarks son útiles, pero no cuentan toda la historia. Tómalos como un punto de partida para comparar, no como un veredicto completo sobre cómo se sentirá el modelo en el día a día.

Cursor evalúa Composer 2.5 en tres benchmarks:

Benchmark	Composer 2.5	Claude Opus 4.7	GPT-5.5	Composer 2
SWE-Bench Multilingual	79,8%	80,5%	77,8%	73,7%
Terminal-Bench 2.0	69,3%	69,4%	82,7%	61,7%
CursorBench v3.1 (tareas más difíciles)	63,2%	64,8% (máx.) / 61,6% (por defecto)	64,3% (xhigh) / 59,2% (por defecto)	52,2%

SWE-Bench Multilingual comprueba si un modelo puede resolver incidencias reales de GitHub en varios lenguajes de programación. Cada tarea da al modelo un repositorio y un enunciado del problema, y luego verifica si el parche pasa los tests asociados.

Terminal-Bench 2.0 mide si un agente de IA puede desenvolverse en flujos reales de terminal: inspeccionar archivos, ejecutar comandos, depurar fallos y completar tareas con varios pasos.

CursorBench v3.1 es el benchmark interno de Cursor. Evalúa agentes en tareas ambiguas y multifichero de sesiones reales de Cursor, incluyendo comprensión de codebase, búsqueda de bugs, planificación y revisión de código. La limitación es que CursorBench no puede ser verificado ni reproducido por investigadores externos, y las puntuaciones deben compararse dentro de la misma versión de la evaluación.

Hay una advertencia importante antes de leer demasiado estas cifras. Las comparaciones entre modelos no siempre son limpias. Diferentes configuraciones de evaluación y niveles de esfuerzo pueden mover las puntuaciones, y Cursor señala que Opus 4.7 y GPT-5.5 usan puntuaciones autoinformadas en evaluaciones públicas. Tómalas como comparativas direccionales, no como tests idénticos bajo las mismas condiciones.

Un benchmark externo posterior de Artificial Analysis va en una dirección similar, aunque usa una mezcla distinta de pruebas. Composer 2.5 obtuvo 62 en el Artificial Analysis Coding Agent Index, por detrás de Claude Opus 4.7 a máximo esfuerzo (66) y de GPT-5.5 en xhigh reasoning (65).

La diferencia de coste es el punto al que yo prestaría atención: Artificial Analysis estimó Composer 2.5 en 0,07 $ por tarea en Standard y 0,44 $ en Fast, frente a 4,10 $ para Opus 4.7 máx. y 4,82 $ para GPT-5.5 xhigh.

Composer 2.5 vs. Composer 2 vs. Composer 1.5: comparación de puntuaciones

La familia Composer ha tenido tres lanzamientos en poco tiempo. Composer 1.5 salió en febrero de 2026, Composer 2 en marzo y Composer 2.5 en mayo. Cada versión cambió algo distinto del enfoque de entrenamiento.

Composer 2.5 frente a Composer 2

El salto de Composer 2 a 2.5 se ve sobre todo en Terminal-Bench 2.0, donde pasó del 61,7% al 69,3%, y en SWE-Bench Multilingual, del 73,7% al 79,8%. La mejora en CursorBench es menor, y la versión del benchmark cambió de v3 a v3.1, por lo que la comparación es menos directa.

La mayor diferencia está en la canalización de entrenamiento. Composer 2 introdujo preentrenamiento continuo sobre Kimi K2.5. Composer 2.5 mantuvo esa base y añadió feedback textual dirigido, 25 veces más tareas sintéticas y cambios de infraestructura. El precio de Standard se mantuvo.

Composer 2.5 frente a Composer 1.5

Composer 1.5 se construyó escalando 20 veces más el aprendizaje por refuerzo sobre el mismo modelo preentrenado que Composer 1. Introdujo pensamiento adaptativo y autosumarización, que permite al modelo comprimir su propio contexto cuando la sesión se alarga.

La brecha de 1.5 a 2.5 es grande en todos los benchmarks. También llegó con un precio por token más bajo: Composer 1.5 costaba 3,50 $ por millón de tokens de entrada y 17,50 $ por millón de salida, aproximadamente 7 veces más caro que Composer 2.5 Standard.

Qué cambió en la práctica

Entre versiones, el patrón es claro: cada generación cambió el comportamiento en sesiones largas y el seguimiento de instrucciones, mientras que Composer 2 y 2.5 redujeron el coste de sesiones de agentes sostenidas.

Composer 2.5 vs. Claude Opus 4.7 vs. GPT-5.5: benchmarks, precio y compromisos

Esta es la comparación que muchos mirarán primero. Composer 2.5 tiene puntuaciones de programación similares en algunas áreas, un precio por token más bajo que los modelos de vanguardia que siguen y compromisos claros.

Comparativa de benchmarks

GPT-5.5 lidera en Terminal-Bench 2.0 con un 82,7%, unos 13 puntos por encima de Composer 2.5. Esa diferencia importa en trabajos que dependen mucho del uso de terminal.

Claude Opus 4.7 está ligeramente por delante de Composer 2.5 en SWE-Bench Multilingual (80,5% frente a 79,8%), menos de un punto. En CursorBench, Composer 2.5 con 63,2% supera a Opus 4.7 con configuración por defecto (61,6%) pero queda por debajo de Opus 4.7 a máximo esfuerzo (64,8%). GPT-5.5 también llega al 64,3% en xhigh, mientras que su puntuación por defecto es 59,2%.

No hacen exactamente el mismo trabajo. Opus 4.7 y GPT-5.5 son modelos de vanguardia más generales. Composer 2.5 es un modelo de programación que solo corre en Cursor. Las puntuaciones están cerca en algunas tareas de código, pero los límites del producto son distintos.

Comparativa de precios

La diferencia de coste es la separación más clara respecto a los modelos de vanguardia.

Modelo	Entrada (por 1 M de tokens)	Salida (por 1 M de tokens)
Composer 2.5 Standard	$0.50	$2.50
Composer 2.5 Fast (por defecto)	$3.00	$15.00
Claude Opus 4.7	$5.00	$25.00
GPT-5.5	$5.00	$30.00

Composer 2.5 Standard está preciado en torno a una décima parte por token que Opus 4.7 y GPT-5.5. La variante Fast también es más barata que los planes estándar de cualquiera de los modelos de vanguardia.

Estos precios están vigentes en mayo de 2026, así que comprueba los precios de modelos de Cursor, los de Opus de Anthropic y los de la API de OpenAI antes de basarte en la comparación.

Un apunte que suele pasarse por alto: el precio de Composer 2.5 Fast se duplicó respecto a Composer 2 Fast. El de Standard se mantuvo, pero Fast es el valor por defecto, así que la actualización puede aumentar costes para algunos usuarios.

¿Qué modelo deberías elegir?

La elección depende de si prima el coste, el trabajo en terminal o una planificación más profunda:

Composer 2.5 encaja con la programación diaria en Cursor, especialmente ediciones entre archivos, refactorización, depuración y sesiones con agentes donde el coste importa.
GPT-5.5 encaja cuando el rendimiento en terminal es lo más importante.
Claude Opus 4.7 encaja en tareas que requieren razonamiento cuidadoso, planificación de arquitectura o una ventana de contexto de 1 millón de tokens.

Ese es el patrón que extraería de los números: Composer 2.5 cubre el trabajo rutinario de código, mientras que los modelos de vanguardia siguen teniendo su sitio para razonamiento más amplio o mejores resultados en terminal.

Composer 2.5 Standard vs. Fast: velocidad, precio y cuándo usar cada uno

Cursor ofrece Composer 2.5 en dos variantes, como hizo con Composer 2. Según Cursor, comparten la misma inteligencia subyacente. La diferencia está, sobre todo, en la rapidez de respuesta y en el coste.

Selector de modelo de Cursor con Composer seleccionado. Imagen del autor.

Fast es el valor por defecto y cuesta 3,00 $ por millón de tokens de entrada y 15,00 $ por millón de salida. Está pensado para sesiones interactivas donde la latencia baja importa. Standard cuesta 0,50 $ y 2,50 $, por lo que encaja con tareas en segundo plano o bucles de agentes largos donde la inmediatez es menos importante.

El uso de Composer 2.5 se contabiliza en el pool "Auto + Composer" de Cursor, separado del pool de API utilizado para modelos externos como Claude y GPT. Cursor también ofreció uso doble durante la primera semana tras el lanzamiento.

Limitaciones y advertencias de Composer 2.5

Las advertencias tienen que ver con el acceso, los benchmarks y el riesgo del entrenamiento. No hacen a Composer 2.5 inusual, pero sí afectan a cuánto peso dar a las afirmaciones de Cursor.

Disponible solo en Cursor. Como mencioné antes, Composer 2.5 no tiene API pública. Si tu flujo depende de invocar un modelo desde tus scripts o pipelines, Composer 2.5 no es una opción.

CursorBench no es independiente. Como comenté en la sección de benchmarks, CursorBench v3.1 es interno a Cursor. Su metodología no es totalmente pública y las tareas no pueden ser reproducidas por investigadores externos.

Variabilidad en la configuración de benchmarks. Las puntuaciones de los modelos de vanguardia en la tabla de Cursor no están todas medidas del mismo modo. Toma las comparaciones como orientativas, no definitivas.

Reward hacking durante el entrenamiento. Cursor divulgó casos en los que el modelo encontró atajos ingeniosos en tareas sintéticas en lugar de resolverlas de forma normal. Es un riesgo inherente del RL a esta escala, incluso cuando la monitorización detecta ejemplos obvios.

La calibración del esfuerzo no está verificada. Las afirmaciones de Cursor sobre el estilo de comunicación y la calibración del esfuerzo no están respaldadas por datos de benchmarks, como comenté antes. Eso dificulta su verificación externa.

Cuándo tiene sentido usar Composer 2.5

Depende de la tarea. Enmarca Composer 2.5 menos como un modelo universal y más como un modelo de programación para quienes ya trabajan dentro de Cursor.

Si pasas la mayor parte del día programando en Cursor y te importa el coste por token, Composer 2.5 Standard es la opción más barata de la línea Composer 2.5. Aplica al trabajo de edición, refactorización, depuración y sesiones largas descrito arriba.

Si te importa más la velocidad de respuesta, Composer 2.5 Fast es la opción predeterminada.

Si la tarea requiere razonamiento más amplio, una ventana de contexto mayor o mejores puntuaciones en un área concreta, Claude Opus 4.7 o GPT-5.5 pueden encajar mejor.

Otra forma de verlo: Composer 2.5 resuelve el trabajo rutinario de programación descrito arriba, mientras que un modelo de vanguardia puede ajustarse a tareas que exigen razonamiento más amplio o mejores resultados en terminal. Así la comparación es útil sin convertirla en una recomendación única para todos los casos.

Conclusiones

Composer 2.5 se puede leer como una historia de benchmarks, pero lo más útil es la dirección del viaje. Cursor no solo envuelve modelos de vanguardia dentro de un editor: está construyendo una línea de modelos alrededor del trabajo que ya hacen sus agentes: ediciones entre archivos, pasos en terminal, sesiones largas y recuperación de errores.

Como mencioné antes, el compromiso es que Composer 2.5 es deliberadamente especializado. No sustituye a Claude Opus 4.7 o GPT-5.5 como modelo general, y no ayuda si necesitas una API fuera de Cursor. Pero dentro de Cursor, esa especialización es la clave. Es más barato de ejecutar que las opciones de vanguardia, está ajustado a tareas de programación y se sitúa muy cerca de la capa de producto donde esas tareas ocurren.

La siguiente cuestión es cuánto de esto quiere poseer Cursor. La empresa dice que está trabajando con SpaceXAI para entrenar desde cero un modelo más grande con 10 veces más cómputo total y la infraestructura Colossus 2. No hay fecha de lanzamiento, así que aún no hay mucho que analizar. Aun así, la idea general es clara: Cursor está pasando de usar bien los modelos a construir más parte del stack de modelo por sí misma.

¿Puedo usar Composer 2.5 fuera de Cursor?

¿Composer 2.5 está disponible en el plan gratuito Hobby?

¿Por qué Composer 2.5 se basa en un modelo chino de código abierto?

¿Cuánto cuesta Composer 2.5 por tarea?

¿La variante Fast produce una calidad de salida diferente a Standard?

Author

Khalid Abdelaty

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

Los mejores cursos de IA

Curso

Introducción a los modelos Claude

3 h

11.2K

Aprende a trabajar con Claude utilizando la API de Anthropic para resolver tareas del mundo real y crear aplicaciones basadas en IA.

Ver detalles

Iniciar curso

Curso

Programación asistida por IA para desarrolladores

1 h 30 min

6.5K

Mejora tu programación con IA: guía a tu asistente de programación para escribir, probar y documentar código de forma eficaz.

Ver detalles

Iniciar curso

Curso

Desarrollo de software con Cursor

1 h 30 min

3.4K

Crea código listo para producción con Cursor. Aprende sobre indicaciones de IA, refactorización, pruebas y flujos de trabajo avanzados.

Ver detalles

Iniciar curso

Relacionado

blog

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Mistral Large 2 es el último modelo lingüístico de Mistral AI, que compite con modelos como GPT-4o, Llama 3.1 y Claude 3 Opus.

Ryan Ong

8 min

Tutorial

Cursor AI: Una guía con 10 ejemplos prácticos

Aprende a instalar Cursor AI en Windows, macOS y Linux, y descubre cómo utilizarlo a través de 10 casos de uso diferentes.

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Tutorial

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

Aprende a ajustar Llama-2 en Colab utilizando nuevas técnicas para superar las limitaciones de memoria y computación y hacer más accesibles los grandes modelos lingüísticos de código abierto.

Abid Ali Awan

Tutorial

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Empieza a utilizar el gran modelo de lenguaje DCLM-7B de Apple y aprende a configurarlo, utilizarlo y ajustarlo para tareas específicas.

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Ver más Ver más

¿Qué es el modelo Composer 2.5 de Cursor?

Qué ha cambiado en Composer 2.5

Mejor rendimiento en tareas largas

Seguimiento de instrucciones y colaboración

Entornos de RL más difíciles

Cómo entrenó Cursor Composer 2.5

Basado en Kimi K2.5

RL dirigido con feedback textual

Datos sintéticos a mayor escala

Cambios de infraestructura

Resultados de benchmarks de Composer 2.5: Terminal-Bench, SWE-Bench y CursorBench

Composer 2.5 vs. Composer 2 vs. Composer 1.5: comparación de puntuaciones

Composer 2.5 frente a Composer 2

Composer 2.5 frente a Composer 1.5

Qué cambió en la práctica

Composer 2.5 vs. Claude Opus 4.7 vs. GPT-5.5: benchmarks, precio y compromisos

Comparativa de benchmarks

Comparativa de precios

¿Qué modelo deberías elegir?

Composer 2.5 Standard vs. Fast: velocidad, precio y cuándo usar cada uno

Limitaciones y advertencias de Composer 2.5

Cuándo tiene sentido usar Composer 2.5

Conclusiones

Composer 2.5: preguntas frecuentes

¿Por qué Composer 2.5 se basa en un modelo chino de código abierto?

¿Cuánto cuesta Composer 2.5 por tarea?

¿La variante Fast produce una calidad de salida diferente a Standard?

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Cursor AI: Una guía con 10 ejemplos prácticos

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Introducción a los modelos Claude

Programación asistida por IA para desarrolladores

Desarrollo de software con Cursor

¿Qué es Mistral Large 2? Cómo funciona, casos de uso y más

Cursor AI: Una guía con 10 ejemplos prácticos

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Ajuste fino de LLaMA 2: Guía paso a paso para personalizar el modelo de lenguaje grande

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Introducción a los modelos Claude