Accéder au contenu principal

Guide MiniMax M2.5 : fonctionnement, cas d’usage et plus encore

Découvrez comment MiniMax 2.5 atteint des scores de pointe en code et en agentique pour une fraction du coût habituel. Comparez-le aux modèles fermés comme GPT-5.2 et Gemini 3.
Actualisé 17 avr. 2026  · 7 min lire

Sur fond de tensions technologiques entre les États-Unis et la Chine et de l’arrivée de modèles chinois abordables comme GLM-5 de Zhipu et Kimi K2.5 de Moonshot, un nouvel acteur se distingue par des benchmarks SOTA à une fraction du coût attendu. 

Le modèle MiniMax 2.5 marque les esprits notamment par son prix. Il s’inscrit dans une tendance de fond du secteur vers une « intelligence à coût négligeable », reformulation d’une vieille expression à propos de l’énergie nucléaire. 

MiniMax 2.5 est proposé en deux variantes : la version complète M2.5 avec 50 tokens/seconde et la version Lightning qui atteint un très remarquable débit de 100 tokens/seconde. Hormis la vitesse, les capacités sont identiques.

Dans cet article, j’explique ce qu’est M2.5 et ses points forts, je vous aide à trouver des idées de tests, et je propose des comparaisons honnêtes avec les derniers modèles GPT et Gemini.

Qu’est-ce que MiniMax M2.5 ? 

MiniMax M2.5 est un très récent grand modèle de langage à poids ouverts de la société shanghaïenne MinMax AI. Il a été annoncé principalement le 12 février 2026, quelques semaines après l’IPO de l’entreprise à Hong Kong. 

MiniMax AI vise la productivité opérationnelle : le modèle excelle en génération de code, usage agentique d’outils, recherche web et automatisation bureautique. M2.5 est entraîné via l’apprentissage par renforcement dans plus de 200 000 environnements complexes. Il est ainsi suffisamment robuste pour planifier comme un architecte logiciel et exécuter en autonomie.

Fonctionnalités clé de MiniMax M2.5

Ce nouveau modèle présente plusieurs atouts qui le distinguent des autres LLM. Voici les plus notables.

Prise en charge du code multilingue

MiniMax M2.5 a été entraîné sur un jeu de données clairsemé, ce qui lui permet de gérer plus de 10 langages de programmation comme Python, Rust, Java, Go, etc., dans différents environnements de développement full-stack. Ses compétences vont de la conception système à la revue de code, et couvrent des applications web, Android, iOS et Windows.

Usage agentique d’outils et recherche

Le modèle M2.5 arrive en tête sur les tâches de fonction calling multi-tours avec 76,9 % sur BFCL, et sur la navigation web avec 76,3 % sur BrowseComp, tout en utilisant 20 % de tours en moins que ses prédécesseurs pour une décomposition des tâches plus efficace.

Intégration à la bureautique

Au-delà des capacités agentiques et de recherche, M2.5 génère des sorties directement formatées pour Word, PowerPoint et Excel, par exemple pour des modèles financiers, avec un taux de succès de 59 % face aux modèles grand public sur les benchmarks GDPval-MM.

Efficacité et entraînement RL

Propulsé par le framework Forge RL et l’algorithme CISPO, il réalise les tâches 37 % plus vite que M2.1 tout en consommant moins de tokens, soit 3,52 millions par tâche SWE-Bench.

Prise en main de MiniMax M2.5 

J’ai décidé de tester MiniMax M2.5 moi-même. Inspiré par ses promesses en usage agentique et recherche, et son accent sur la productivité bureautique, je lui ai confié une tâche de recherche typique du quotidien professionnel. 

J’ai utilisé l’invite suivante pour regrouper des informations sur les plus grands fonds souverains. Pour compiler ce tableau, MiniMax M2.5 devait synthétiser des sources multiples. J’ai également demandé le coefficient de Gini du pays, donnée qu’il y a peu de chances de trouver sur les sites des fonds eux-mêmes.

J’ai vérifié ponctuellement les informations en visitant les sites correspondants. 

For each of the five largest sovereign wealth funds by AUM, find the following: the fund's name and country, current AUM, current CEO or equivalent, when that person took the role, the fund's reported return in their most recent annual report, and the Gini coefficient of the country. Compile into a table with sources for each figure.

Ce n’était qu’un petit test, mais très concret. MiniMax 2.5 a très bien synthétisé des recherches multi-sources dans un tableau précis.

Ensuite, je me suis penché sur des démos et benchmarks indépendants pour étudier d’autres cas.

Développement web full-stack

Vous pouvez aussi évaluer M2.5 sur des tâches d’ingénierie logicielle et observer sa façon de planifier et d’exécuter dans un périmètre fermé. Essayez par exemple l’invite :

Build a React app with Node.js backend for user authentication, including database schema.

M2.5 produit alors un plan complet, d’abord spécifications, avec wireframes UI et endpoints API. Il génère ensuite plus de 1¢000 lignes de code TypeScript/JavaScript. Les tests ont réussi du premier coup en 22 minutes, soit plus rapide que la moyenne de Claude Opus 4.6. Le résultat : une application fonctionnelle avec authentification JWT et intégration MongoDB.

A screenshot of execution in minimax agents using the M2.5 model

Cette capture illustre l’exemple et l’invite donnés dans l’environnement MiniMax Agent avec le modèle M2.5.

Modélisation financière sous Excel

Pour tester ses capacités de génération de documents, vous pouvez tenter une invite comme celle-ci :

Create an Excel model for startup valuation using DCF, with sensitivity analysis

M2.5 est conçu pour produire des fichiers formatés avec formules et graphiques fonctionnels. C’est cohérent avec ses bons résultats sur le benchmark GDPval-MM. (Je reviens sur les benchmarks dans la section suivante.)

MiniMax a vraiment investi dans les compétences de productivité bureautique pour réaliser des tâches utiles comme la construction de modèles financiers dans Excel. L’équipe a collaboré directement avec des experts en finance, droit et sciences sociales pour constituer des données d’entraînement conformes aux standards métiers, et pas seulement à des modèles génériques.

Un bon test de suivi consiste à lui donner un brief volontairement ambigu ou incomplet, semblable à une demande reçue par un analyste junior. Observez s’il pose des questions de clarification ou s’il formule des hypothèses raisonnables en les signalant.

Génération d’SVG et raisonnement

Ce qui vaut la peine d’être observé ici, c’est la façon dont M2.5 amorce la tâche. 

Un point intéressant des notes de version : un comportement d’écriture de spécifications a émergé organiquement durant l’entraînement. Avant de générer du code, M2.5 a tendance à décomposer le projet et à planifier la structure, le design UI et les endpoints API avec une approche d’architecte logiciel.

Reste à évaluer si cette planification améliore effectivement la qualité de sortie.

MiniMax M2.5 et la plateforme MiniMax Agent

MiniMax propose M2.5 au sein d’une plateforme d’agents qui donne aux non-développeurs un accès immédiat via des « experts préconfigurés ». Ce sont des agents spécialisés, paramétrés pour des tâches précises. La plateforme fonctionne comme un app store : vous parcourez par catégorie, vous choisissez un expert, et vous obtenez un agent prêt à l’emploi.

Les experts les plus utilisés au lancement sont Landing Page Builder, PPTX Maker, Excel Processor, et d’autres qui paraissent vraiment utiles. L’ensemble explique la réputation de MiniMax sur la productivité bureautique.

Encore plus intéressant : la dimension communautaire. Les utilisateurs peuvent créer et publier leurs propres experts. Plus de 10 000 auraient déjà été réalisés.

Benchmarks de MiniMax M2.5 

M2.5 affiche de très bons scores sur les benchmarks qui comptent pour le code et l’agentique. Il atteint 80,2 % sur SWE-Bench Verified — un test de résolution de tickets GitHub réels — tout en accomplissant les tâches 37 % plus vite que son prédécesseur M2.1.

Sur les tâches multilingues et multi-dépôts, il arrive premier sur Multi-SWE-Bench avec 51,3 %. Au lancement, ses 76,3 % sur BrowseComp le plaçaient parmi les meilleurs pour la recherche web et les tâches d’investigation, mais le classement a depuis évolué. Gemini 3.1 Pro mène maintenant avec 85,9 %, suivi de Claude Opus 4.6 à 84,0 % et de GPT-5.2 Pro à 77,9 %. Gemini 3.1 Pro et Opus 4.6 sont sortis à une semaine d’intervalle de M2.5, preuve de la vitesse à laquelle la frontière progresse.

Pour compléter, il obtient 79,7 % sur le benchmark Droid (codage agentique) et se classe actuellement 4e sur l’OpenHands Index pour les tâches longues comme la création d’applications.

MiniMax M2.5 benchmarks

Cette image permet de visualiser plus clairement les résultats obtenus par M2.5. 

Comment accéder à MiniMax M2.5 ? 

Il existe principalement 3 façons d’utiliser ce modèle :

  • Poids open source que vous pouvez télécharger sur Hugging Face et déployer en local avec vLLM, SGLang, Ollama, etc. Des quantifications GGUF sont disponibles pour du matériel grand public.
  • Accès API depuis le site officiel au tarif de 0,3 $/M tokens en entrée et 2,4 $/M en sortie pour Lightning. Concrètement, comptez 1 $/heure à 100 tokens/s en continu. Le caching est pris en charge, avec des offres entreprise pour les forts volumes.
  • Intégrations avec différents IDE comme VS Code, Cline CLI ou Fireworks AI, disponibles dès le premier jour.

Bien sûr, il n’y a pas de limite gratuite pour les poids, mais l’API est facturée à l’usage.

MiniMax M2.5 vs concurrents

M2.5 cible les usages de code et d’agentique tout en cassant les prix à performance équivalente. Voici une comparaison :

Fonctionnalité/benchmark MiniMax M2.5 Claude Opus 4.6 GPT-5.2 Gemini 3 Pro
SWE-Bench Verified 80,2 % 80,8 % 80 % 78 %
Multi-SWE 51,3 % 50,3 % 49,1 % 42,7 %
BrowseComp (recherche) 76,3 % (1er poids ouvert) 84,0 % 65,8 % 73,2 %
Coût de sortie (/M tokens) 2,4 $ 25 $ 14 $ 15 $
Vitesse (tokens/s) 100 60 80 70
Poids ouverts ? Oui (MIT) Non Non Non
Code multilingue 10+ langues Focalisé anglais Solide Modéré

Ces données proviennent des évaluations officielles et de Artificial Analysis, ainsi que d’autres annonces récentes. M2.5 l’emporte sur l’efficacité et l’ouverture, tandis que les modèles fermés gardent l’avantage en connaissance générale.

Quelle est la valeur de MiniMax M2.5 ? 

Dans le contexte du marché, M2.5 est excellent pour la productivité ciblée. Son score de 80,2 % à SWE-Bench et son tarif d’environ 1 $/heure pourraient vraiment bousculer l’IA en entreprise, où les coûts freinent l’adoption. L’approche à poids ouverts change la donne pour le code de pointe et met la pression sur les modèles fermés.

C’est flagrant sur BrowseComp : M2.5 mène les modèles à poids ouverts avec 76,3 % — devant GLM-5 et Kimi K2.5 pourtant nettement plus gros. Les quatre modèles qui le devancent sont tous propriétaires, ce qui en dit long sur ce que MiniMax a réussi avec une sortie sous licence MIT.

Son orientation agentique le positionne aussi très bien pour l’économie des agents, où l’autonomie et l’efficacité priment sur la simple taille.

Cela dit, M2.5 a des limites. Il est en retrait en créativité et raisonnement face aux modèles plus généralistes, comme le reflète son 42/100 sur l’Intelligence Index d’Artificial Analysis. C’est un spécialiste, pas un généraliste.

Je lui mettrais A+ pour les développeurs et B+ pour un usage polyvalent. Surveillez les fine-tunes qui élargiront probablement son champ d’application.

Cas d’usage de MiniMax M2.5 

Les cas d’usage personnalisés sont nombreux. MiniMax M2.5 peut servir aux tâches d’ingénierie logicielle : automatisation de PR GitHub, correction de bugs, développement d’applications complètes. (Apparemment, 80 % du code source de MiniMax serait généré par l’IA !) 

MiniMax M2.5 peut aussi être utilisé au bureau : modélisation financière, génération de rapports, édition de PPT pour des équipes finance ou juridiques. Vous pouvez en outre créer des experts agents IA sur mesure pour la recherche ou la vente via la plateforme MiniMax Agent. 

Conclusion

MiniMax M2.5 a tout pour devenir un puissant levier de productivité, combinant des capacités agentiques SOTA à une accessibilité ouverte, avec des prix susceptibles de remodeler l’économie de l’IA.

Pour aller plus loin par la pratique, découvrez notre cours AI for Developers. Expérimentez dès aujourd’hui : l’ère d’une intelligence abordable est là.


Iheb Gafsi's photo
Author
Iheb Gafsi
LinkedIn

Je travaille sur des systèmes d'IA accélérés permettant une intelligence de pointe avec des pipelines ML fédérés sur des données décentralisées et des charges de travail distribuées.  Mywork se concentre sur les grands modèles, le traitement de la parole, la vision par ordinateur, l'apprentissage par renforcement et les topologies avancées de ML.

Sujets

Formez-vous avec DataCamp

Cours

Comprendre l'intelligence artificielle

2 h
396.6K
Découvrez les bases de l’intelligence artificielle : machine learning, deep learning, NLP, IA générative et bien plus encore.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow