Kurs
Vor dem Hintergrund der Tech-Spannungen zwischen den USA und China und einer Welle preisgünstiger chinesischer Modelle wie Zhipus GLM-5 und Moonshots Kimi K2.5 fällt ein neuer Spieler durch SOTA-Benchmarks zum Bruchteil der erwarteten Kosten auf.
Das Modell MiniMax 2.5 ist auch wegen seines Preises bemerkenswert. Es steht für den Branchentrend hin zu „Intelligenz so günstig, dass man sie nicht mehr misst“ – eine Neuinterpretation eines alten Zitats zur Kernenergie.
MiniMax 2.5 gibt es in zwei Varianten: das volle M2.5 mit 50 Tokens/Sekunde und die Lightning-Variante mit sehr beachtlichen 100 Tokens/Sekunde. Abgesehen von der Geschwindigkeit sind die Fähigkeiten identisch.
In diesem Artikel erkläre ich, was M2.5 ist und welche Stärken es hat, gebe Anregungen für eigene Tests und vergleiche es ehrlich mit den neuesten GPT- und Gemini-Modellen.
Was ist MiniMax M2.5?
MiniMax M2.5 ist ein sehr aktuelles Open-Weight-LLM des in Shanghai ansässigen Unternehmens MinMax AI. Die Ankündigung erfolgte vor allem am 12. Februar 2026, nur wenige Wochen nach dem Hongkong-Börsengang des Unternehmens.
MiniMax AI ist auf Produktivität im Arbeitsalltag ausgelegt und glänzt daher beim Programmieren, der agentischen Tool-Nutzung, der Websuche und Office-Automatisierung. M2.5 wurde per Reinforcement Learning in über 200.000 komplexen Umgebungen trainiert. Das macht es robust genug, um wie ein Softwarearchitekt zu planen und Aufgaben eigenständig auszuführen.
Wichtige Funktionen von MiniMax M2.5
Das neue Modell bringt mehrere Merkmale mit, die es von anderen LLMs abheben. Hier sind einige davon.
Mehrsprachige Programmierunterstützung
MiniMax M2.5 wurde auf einem sparsamen Datensatz trainiert und kann dadurch mehr als 10 Programmiersprachen wie Python, Rust, Java, Go und weitere in verschiedenen Full-Stack-Umgebungen handhaben. Die Kompetenzen reichen von Systemdesign bis Code-Review und decken Web-, Android-, iOS- und Windows-Anwendungen ab.
Agentische Tool-Nutzung und Suche
Das M2.5-Modell führt bei Multi-Turn-Function-Calling-Aufgaben mit 76,9% auf BFCL und bei der Webnavigation mit 76,3% auf BrowseComp, während es 20% weniger Runden als Vorgänger benötigt und Aufgaben effizienter in Teilprobleme zerlegt.
Office-Produktivität integriert
Zusätzlich zu agentischer Tool-Nutzung und Suchfunktionen erzeugt M2.5 formatierte Ausgaben für Word, PowerPoint und Excel, etwa für Finanzmodelle – mit einer 59%igen Gewinnrate gegenüber gängigen Modellen auf den GDPval-MM-Benchmarks.
Effizienz und RL-Training
Dank des Forge-RL-Frameworks und des CISPO-Algorithmus erledigt es Aufgaben 37% schneller als M2.1 und verbraucht dabei weniger Tokens – konkret 3,52 Mio. pro SWE-Bench-Aufgabe.
Hands-on mit MiniMax M2.5
Ich habe MiniMax M2.5 selbst ausprobiert. Angespornt von den großen Ansagen zu agentischer Tool-Nutzung und Suche sowie dem Fokus auf Office-Produktivität, gab ich ihm eine Rechercheaufgabe, wie sie im Job leicht vorkommt.
Dafür nutzte ich den folgenden Prompt, um Informationen zu großen Staatsfonds zu bündeln. Um diese Tabelle zu erstellen, musste MiniMax M2.5 Recherche aus verschiedenen Quellen zusammenführen. Ich bat es außerdem, den Gini-Koeffizienten des jeweiligen Landes zu finden – etwas, das eher nicht auf den Websites der Fonds steht.
Ich habe die Angaben stichprobenartig über die jeweiligen Websites geprüft.
For each of the five largest sovereign wealth funds by AUM, find the following: the fund's name and country, current AUM, current CEO or equivalent, when that person took the role, the fund's reported return in their most recent annual report, and the Gini coefficient of the country. Compile into a table with sources for each figure.

Das war nur ein kleiner, aber sehr praxisnaher Test. MiniMax 2.5 hat die Recherche aus mehreren Quellen souverän zu einer korrekten Tabelle zusammengeführt.
Als Nächstes habe ich mir unabhängige Demos und Benchmarks genauer angesehen.
Full-Stack-Webentwicklung
Du kannst M2.5 auch gezielt bei Software-Engineering-Aufgaben testen und beobachten, wie es auf eng umrissene Ziele plant und ausführt. Probiere zum Beispiel diesen Prompt:
Build a React app with Node.js backend for user authentication, including database schema.
M2.5 liefert einen vollständigen, spezzuerst-Plan mit UI-Wireframes und API-Endpunkten. Danach folgen 1.200+ Zeilen TypeScript/JavaScript-Code. Die Tests liefen beim ersten Durchgang in 22 Minuten durch – schneller als der Durchschnitt von Claude Opus 4.6. Ergebnis: eine funktionsfähige Anwendung mit JWT-Auth und MongoDB-Integration.

Die Abbildung zeigt das Beispiel samt Prompt in der Umgebung der MiniMax-Agenten mit dem M2.5-Modell.
Finanzmodellierung in Excel
Um die Dokumentgenerierung zu testen, eignet sich ein Prompt wie dieser:
Create an Excel model for startup valuation using DCF, with sensitivity analysis
M2.5 ist darauf ausgelegt, formatierte Dateien mit funktionierenden Formeln und Diagrammen zu erzeugen. Das passt zu den starken GDPval-MM-Benchmarkwerten. (Mehr zu den Benchmarks im nächsten Abschnitt.)
MiniMax hat spürbar in Office-Fähigkeiten investiert, um Nützliches wie Finanzmodelle in Excel zu bauen. Das Team hat direkt mit Expertinnen und Experten aus Finanzen, Recht und Sozialwissenschaften zusammengearbeitet, um Trainingsdaten nach Branchenstandard statt generischer Vorlagen zu erstellen.
Ein guter Folgetest ist ein bewusst mehrdeutiges oder unvollständig spezifiziertes Briefing. Denke an einen Prompt, wie ihn ein Junior-Analyst von einer Partnerin bekommen könnte. Schau, ob das Modell Rückfragen stellt oder sinnvolle Annahmen trifft und diese kennzeichnet.
SVG-Generierung und Reasoning
Beobachte hier vor allem, wie M2.5 die Aufgabe angeht.
Eine interessante Erkenntnis aus den Release Notes: Das Schreiben von Spezifikationen ist während des Trainings organisch entstanden. Wie erwähnt, zerlegt M2.5 vor dem Coden das Projekt und plant Struktur, UI-Design und API-Endpunkte aus Sicht einer Softwarearchitektin.
Ob diese Planung tatsächlich die Ergebnisse verbessert, bewerte ich weiter für mich.
MiniMax M2.5 und die MiniMax Agent Platform
MiniMax liefert M2.5 innerhalb einer Agentenplattform aus, die Nicht-Entwickelnden über sogenannte vorgefertigte Experts unmittelbaren Zugang gibt. Das sind spezialisierte Agenten für konkrete Aufgaben. Die Plattform funktioniert wie ein App-Store: Du stöberst nach Kategorie, wählst einen Expert und bekommst einen einsatzbereiten Workflow-Agenten.

Zu den meistgenutzten Experts zum Start zählen Landing Page Builder, PPTX Maker, Excel Processor und weitere wirklich praktische Tools. In Summe erklärt das MiniMax’ Ruf als Office-Produktivitätsplattform.
Spannend ist auch die Community-Ebene. Nutzerinnen und Nutzer können eigene Experts bauen und veröffentlichen. Offenbar wurden bereits über 10.000 erstellt.
MiniMax M2.5 Benchmarks
M2.5 liefert starke Werte in den wichtigsten Benchmarks für Coding und agentische Arbeit. Es erzielte 80,2% auf SWE-Bench Verified – einem realitätsnahen Test zur Lösung von GitHub-Issues – und erledigte Aufgaben 37% schneller als der Vorgänger M2.1.
Bei mehrsprachigen und Cross-Repository-Aufgaben belegte es mit 51,3% Platz eins auf Multi-SWE-Bench. Zum Start platzierten 76,3% auf BrowseComp das Modell unter den Top-Performern für Web-Suche und Recherche, doch das Leaderboard hat sich seitdem verschoben. Gemini 3.1 Pro führt nun mit 85,9%, gefolgt von Claude Opus 4.6 mit 84,0% und GPT-5.2 Pro mit 77,9%. Beide, Gemini 3.1 Pro und Opus 4.6, erschienen innerhalb einer Woche nach M2.5 – ein gutes Beispiel, wie schnell sich die Spitze aktuell weiterbewegt.
Abgerundet wird das Bild durch 79,7% auf dem Droid-Benchmark für agentisches Coden; zudem liegt es derzeit auf Platz 4 im OpenHands Index für langlaufende Aufgaben wie App-Building.

Die Grafik macht die Ergebnisse von M2.5 gut vergleichbar.
Wie kann ich auf MiniMax M2.5 zugreifen?
Es gibt im Wesentlichen drei Wege, das Modell zu nutzen. Du kannst:
- Open-Source-Gewichte direkt von Hugging Face herunterladen und lokal mit vLLM, SGLang, Ollama oder anderen deployen. GGUF-Quantisierungen sind für Consumer-Hardware verfügbar.
- API-Zugang über die offizielle Website mit $0,3/M Eingangstokens und $2,4/M Ausgangstokens für Lightning. Das entspricht $1/Stunde bei 100 Tokens/Sekunde im Dauerbetrieb. Caching wird unterstützt, außerdem Enterprise-Pläne für hohes Volumen.
- Integrationen mit verschiedenen IDEs wie VS Code, Cline CLI oder Fireworks AI – ab Tag eins.
Klar, für Gewichte gibt es keine Free-Tier-Limits, die API wird nutzungsbasiert abgerechnet.
MiniMax M2.5 vs. Konkurrenz
M2.5 zielt auf die Nischen Coding und Agentik – und unterbietet dabei die Kosten bei vergleichbarer Leistung. Hier der Vergleich:
| Funktion/Benchmark | MiniMax M2.5 | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| SWE-Bench Verified | 80,2% | 80,8% | 80% | 78% |
| Multi-SWE | 51,3% | 50,3% | 49,1% | 42,7% |
| BrowseComp (Suche) | 76,3% (1. Open-Weight) | 84,0% | 65,8% | 73,2% |
| Ausgabekosten (/M Tokens) | $2,4 | $25 | $14 | $15 |
| Geschwindigkeit (Tokens/Sek.) | 100 | 60 | 80 | 70 |
| Open Weights? | Ja (MIT) | Nein | Nein | Nein |
| Mehrsprachiges Coding | 10+ Sprachen | Stark Englisch-lastig | Stark | Moderat |
Diese Daten stammen aus offiziellen Evaluierungen und von Artificial Analysis sowie aus der Lektüre aktueller Modellveröffentlichungen. M2.5 punktet bei Effizienz und Offenheit, während geschlossene Modelle bei breitem Weltwissen leicht vorn liegen.
Wie gut ist MiniMax M2.5?
Im größeren Branchensetting ist M2.5 außergewöhnlich gut für gezielte Produktivität. Seine 80,2% auf SWE-Bench und der Preis von $1/Stunde könnten Enterprise-KI tatsächlich aufmischen, wo Kostenbarrieren die Einführung bremsen. Der Open-Weight-Ansatz ist im Frontier-Coding ein Gamechanger und setzt geschlossene Modelle unter Druck.
Besonders sichtbar wird das bei BrowseComp, wo M2.5 mit 76,3% alle Open-Weight-Modelle anführt – vor GLM-5 und Kimi K2.5, obwohl beide deutlich größer sind. Die vier besser platzierten Modelle sind proprietär, was einiges über das MIT-lizenzierte Release von MiniMax aussagt.
Sein agentischer Fokus positioniert es außerdem gut für die Agentenökonomie, in der Autonomie und Effizienz wichtiger sind als reine Größe.
Dennoch hat M2.5 Schwächen. Bei kreativem Reasoning hinkt es Allroundern hinterher – sichtbar in 42/100 Punkten auf dem Artificial Analysis Intelligence Index. Es ist ein Spezialist, kein Generalist.
Für Entwicklerinnen und Entwickler gebe ich ein A+, für vielseitige Nutzung ein B+. Behalte Fine-Tunes im Blick, die den Einsatzbereich vermutlich deutlich erweitern.
Einsatzfelder für MiniMax M2.5
Es gibt viele maßgeschneiderte Use Cases. MiniMax M2.5 eignet sich unter anderem für Software-Engineering-Aufgaben wie automatisierte GitHub-PRs, Bugfixes und komplette App-Entwicklung. (Angeblich sind 80% von MiniMax’ eigenem Quellcode KI-generiert!)
MiniMax M2.5 kann außerdem in Enterprise-Office-Workflows eingesetzt werden, etwa für Finanzmodelle, Berichtserstellung und PPT-Bearbeitung in Finanz- oder Rechtsteams. Zusätzlich lassen sich über die MiniMax Agent Platform eigene KI-Expert-Agenten für Recherche oder Vertrieb bauen.
Fazit
MiniMax M2.5 hat das Potenzial, ein Produktivitätskraftwerk zu sein: erstklassige Agentik, offen zugänglich – zu Preisen, die die KI-Ökonomie verändern könnten.
Wenn du praxisnäher einsteigen willst, schau dir unseren Kurs AI for Developers an. Probiere es heute aus, denn die Zukunft bezahlbarer Intelligenz ist da.
Ich arbeite an beschleunigten KI-Systemen, die Edge Intelligence mit föderierten ML-Pipelines auf dezentralen Daten und verteilten Workloads ermöglichen. Meine Arbeit konzentriert sich auf große Modelle, Sprachverarbeitung, Computer Vision, Reinforcement Learning und fortgeschrittene ML-Topologien.

