Curso
En medio de las tensiones tecnológicas entre EE. UU. y China y la ola de modelos chinos asequibles como GLM-5 de Zhipu y Kimi K2.5 de Moonshot, aparece un nuevo actor que destaca por sus benchmarks SOTA a una fracción del coste esperado.
El modelo MiniMax 2.5 es relevante en parte por su precio. Se alinea con el giro del sector hacia una «inteligencia tan barata que ni se mide», una reformulación de una vieja frase sobre la energía nuclear.
MiniMax 2.5 está disponible en dos variantes: el M2.5 completo con 50 tokens/segundo y la variante Lightning, que resulta especialmente llamativa con 100 tokens/segundo. Salvo por la velocidad, ambas comparten las mismas capacidades.
En este artículo te explico qué es M2.5 y sus funciones clave, te doy ideas para tus propias pruebas y también comparto comparativas sinceras con los últimos modelos de GPT y Gemini.
¿Qué es MiniMax M2.5?
MiniMax M2.5 es un LLM de pesos abiertos muy reciente de la empresa MinMax AI, con sede en Shanghái. Se anunció principalmente el 12 de febrero de 2026, pocas semanas después de su OPV en Hong Kong.
MiniMax AI está pensada para la productividad real, así que sobresale en programación, uso agente de herramientas, búsqueda web y automatización de tareas de oficina. M2.5 se entrena con aprendizaje por refuerzo en más de 200.000 entornos complejos. Esto lo hace lo bastante robusto como para planificar como un arquitecto de software y ejecutar de forma autónoma.
Funciones clave de MiniMax M2.5
El nuevo modelo presenta varias características que lo hacen destacar frente a otros LLM. En esta sección mencionaré algunas de ellas.
Soporte de programación multilingüe
MiniMax M2.5 se entrenó con un conjunto de datos disperso, lo que le permite manejar más de 10 lenguajes de programación como Python, Rust, Java, Go y otros, en diferentes entornos de desarrollo full stack. Sus habilidades abarcan desde el diseño de sistemas hasta la revisión de código, y cubren aplicaciones web, Android, iOS y Windows.
Uso agente de herramientas y búsqueda
El modelo M2.5 lidera tareas de llamadas a funciones multivuelta con un 76,9% en BFCL, y navegación web con un 76,3% en BrowseComp, usando un 20% menos de rondas que sus predecesores para una descomposición de tareas más eficiente.
Integración con herramientas de oficina
Además del uso agente de herramientas y la búsqueda, el modelo M2.5 genera salidas con formato para Word, PowerPoint y Excel, como en el caso de modelos financieros, con una tasa de acierto del 59% frente a los modelos más usados en los benchmarks GDPval-MM.
Eficiencia y entrenamiento con RL
Impulsado por el framework Forge RL y el algoritmo CISPO, completa las tareas un 37% más rápido que M2.1 consumiendo menos tokens, concretamente 3,52 M por tarea en SWE-Bench.
Prueba en primera persona con MiniMax M2.5
Decidí poner MiniMax M2.5 a prueba. Inspirado por sus grandes promesas en uso agente de herramientas y búsqueda, y su enfoque en productividad de oficina, le propuse una tarea de investigación que podría aparecer fácilmente en el trabajo de cualquiera.
Aquí probé el siguiente prompt para combinar información sobre grandes fondos soberanos. Para compilar esta tabla, MiniMax M2.5 tenía que sintetizar investigación de distintas fuentes. Fíjate en que también le pedí el coeficiente de Gini del país, algo que dudaba mucho que estuviera en las webs de los fondos soberanos.
Verifiqué la información visitando las webs correspondientes.
For each of the five largest sovereign wealth funds by AUM, find the following: the fund's name and country, current AUM, current CEO or equivalent, when that person took the role, the fund's reported return in their most recent annual report, and the Gini coefficient of the country. Compile into a table with sources for each figure.

Fue una prueba pequeña, pero muy práctica. MiniMax 2.5 sintetizó muy bien la investigación de múltiples fuentes en una tabla precisa.
Después, revisé con detalle demostraciones y benchmarks independientes para estudiar otros casos.
Desarrollo web full stack
También puedes poner a prueba M2.5 en tareas de ingeniería de software y ver cómo planifica y ejecuta en un alcance cerrado. Te sugiero probar con este prompt:
Build a React app with Node.js backend for user authentication, including database schema.
M2.5 generará un plan completo orientado a especificaciones con wireframes de la interfaz y endpoints de API. Con ello, añade más de 1200 líneas de código TypeScript/JavaScript. Las pruebas pasaron a la primera en 22 minutos, más rápido que el promedio de Claude Opus 4.6. El resultado es una aplicación funcional con autenticación JWT e integración con MongoDB.

Esta imagen ilustra el ejemplo y el prompt en el entorno de MiniMax Agent usando el modelo M2.5.
Modelización financiera en Excel
Para probar su generación de documentos, puedes usar un prompt como este:
Create an Excel model for startup valuation using DCF, with sensitivity analysis
M2.5 está pensado para generar archivos con formato, fórmulas operativas y gráficos. Esto encaja con sus sólidas puntuaciones en GDPval-MM. (Hablaré más de los benchmarks en la siguiente sección).
MiniMax ha apostado de verdad por las habilidades de productividad de oficina para hacer cosas útiles como construir modelos financieros en Excel. El equipo trabajó directamente con expertos en finanzas, derecho y ciencias sociales para crear datos de entrenamiento que reflejan estándares reales del sector, en lugar de plantillas genéricas.
Una buena prueba de seguimiento es darle un encargo deliberadamente ambiguo o poco especificado. Piensa en un prompt que podría recibir un analista junior de un socio. Observa si hace preguntas aclaratorias o si formula supuestos razonables y los señala.
Generación de SVG y razonamiento
Aquí merece la pena fijarse en cómo M2.5 inicia la tarea.
Una de las cosas más interesantes de las notas de lanzamiento es que la redacción de especificaciones emergió de forma orgánica durante el entrenamiento. Como comenté, antes de generar código, M2.5 tiende a descomponer el proyecto y planificar la estructura, el diseño de la interfaz y los endpoints de API desde la perspectiva de un arquitecto de software.
Si esa planificación produce o no mejores resultados es algo que sigo evaluando por mi cuenta.
MiniMax M2.5 y la plataforma MiniMax Agent
MiniMax distribuye M2.5 dentro de una plataforma de agentes que da a quienes no son desarrolladores acceso inmediato a sus capacidades mediante lo que llama expertos predefinidos. Son agentes especializados configurados para tareas concretas. La plataforma funciona como una tienda de apps: navegas por categorías, eliges un experto y obtienes un agente listo para el flujo de trabajo.

Entre los más usados en el lanzamiento están Landing Page Builder, PPTX Maker, Excel Processor y otros que parecen realmente útiles. En conjunto, se entiende por qué MiniMax se está ganando fama en productividad de oficina.
Aún más interesante es la capa de comunidad. Los usuarios pueden crear y publicar sus propios expertos. De hecho, aparentemente ya se han creado más de 10.000.
Benchmarks de MiniMax M2.5
M2.5 logra cifras sólidas en los benchmarks que más importan para programación y trabajo agente. Obtuvo un 80,2% en SWE-Bench Verified — una prueba real de resolución de issues en GitHub — y completó tareas un 37% más rápido que su predecesor M2.1.
En tareas multilingües y entre repositorios, quedó primero en Multi-SWE-Bench con un 51,3%. En su lanzamiento, su 76,3% en BrowseComp lo situaba entre los mejores modelos para tareas de búsqueda e investigación web, pero el ranking ha cambiado desde entonces. Gemini 3.1 Pro lidera ahora con un 85,9%, seguido de Claude Opus 4.6 con un 84,0% y GPT-5.2 Pro con un 77,9%. Tanto Gemini 3.1 Pro como Opus 4.6 se lanzaron en la misma semana que M2.5, una buena muestra de lo rápido que avanza la frontera ahora mismo.
Para redondear, logró un 79,7% en el benchmark Droid para programación agente y actualmente está 4.º en el OpenHands Index para tareas de larga duración como construir apps.

Esta imagen facilita ver los resultados obtenidos por M2.5.
¿Cómo puedo acceder a MiniMax M2.5?
Básicamente hay 3 formas de usar este modelo. Puedes optar por:
- Pesos de código abierto que puedes descargar desde Hugging Face y desplegar localmente con vLLM, SGLang, Ollama u otros. Las cuantizaciones GGUF están disponibles para hardware de consumo.
- Acceso por API desde el sitio oficial con $0,3/M tokens de entrada y $2,4/M de salida para Lightning. Esto se traduce en $1/hora a 100 tokens/seg sin parar. Hay caché y planes enterprise para alto volumen.
- Integraciones con distintos IDE como VS Code, Cline CLI o Fireworks AI desde el primer día.
Por supuesto, no hay límites de uso para los pesos, pero la API se factura por consumo.
MiniMax M2.5 frente a sus competidores
El modelo M2.5 se dirige a los nichos de programación y agentes, y además recorta costes con un rendimiento comparable. Así queda la comparativa:
| Función/benchmark | MiniMax M2.5 | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| SWE-Bench Verified | 80,2% | 80,8% | 80% | 78% |
| Multi-SWE | 51,3% | 50,3% | 49,1% | 42,7% |
| BrowseComp (búsqueda) | 76,3% (1.º pesos abiertos) | 84,0% | 65,8% | 73,2% |
| Coste de salida (/M tokens) | $2,4 | $25 | $14 | $15 |
| Velocidad (tokens/seg) | 100 | 60 | 80 | 70 |
| ¿Pesos abiertos? | Sí (MIT) | No | No | No |
| Programación multilingüe | 10+ lenguajes | Predominio del inglés | Fuerte | Moderado |
Estos datos proceden de evaluaciones oficiales y de Artificial Analysis, así como de la lectura de otros lanzamientos recientes. M2.5 gana en eficiencia y apertura, mientras que los modelos cerrados aventajan en conocimiento general.
¿Qué tal es MiniMax M2.5?
En el contexto general del sector, M2.5 es excepcional para productividad dirigida. Su 80,2% en SWE-Bench y su precio de $1/hora podrían realmente dinamitar barreras de adopción en IA empresarial, donde el coste ha frenado el despliegue. La apuesta por pesos abiertos es un cambio de juego en programación de frontera y presiona de verdad las ventajas de los modelos cerrados.
Eso se ve con claridad en BrowseComp, donde M2.5 lidera los modelos de pesos abiertos con un 76,3% — por delante de GLM-5 y Kimi K2.5 pese a ser modelos significativamente más grandes. Los cuatro modelos por encima son propietarios, lo que dice mucho de lo que MiniMax ha logrado con un lanzamiento bajo licencia MIT.
Su enfoque en agentes también lo posiciona bien para la economía de agentes, donde la autonomía y la eficiencia importan más que la escala bruta.
Dicho esto, M2.5 tiene puntos débiles. Queda por detrás en razonamiento creativo frente a modelos más generalistas, algo que se refleja en su 42/100 en el Artificial Analysis Intelligence Index. Es un especialista, no un todoterreno.
Le daría un sobresaliente para desarrolladores y un notable alto para uso versátil. Atento a los fine-tunes, que probablemente ampliarán mucho su alcance.
Casos de uso de MiniMax M2.5
Este modelo admite muchos casos de uso personalizados. Por ejemplo, MiniMax M2.5 puede emplearse en tareas de ingeniería de software como automatizar PRs de GitHub, corregir bugs y desarrollar aplicaciones completas. (Aparentemente, ¡el 80% del propio código de MiniMax está generado por IA!)
MiniMax M2.5 también puede usarse para trabajo de oficina en empresas, como modelización financiera, generación de informes y edición de presentaciones para equipos de finanzas o legal. Además, puedes crear expertos en agentes de IA a medida para investigación o ventas con la plataforma MiniMax Agent.
Conclusión
MiniMax M2.5 tiene potencial para ser una potencia de productividad que combina agentes SOTA con accesibilidad abierta, a precios que podrían redefinir la economía de la IA.
Si quieres aprender de forma práctica, echa un vistazo a nuestro curso AI for Developers. Prueba hoy, porque el futuro de la inteligencia asequible ya está aquí.
Trabajo en sistemas de IA acelerados que permiten la inteligencia de vanguardia con canalizaciones de ML federadas en datos descentralizados y cargas de trabajo distribuidas. Mywork se centra en Grandes Modelos, Procesamiento del Habla, Visión por Ordenador, Aprendizaje por Refuerzo y Topologías ML avanzadas.




