Weiter zum Inhalt

MiniMax M2.5 Guide: Funktionsweise, Einsatzfelder & mehr

Erfahre, wie MiniMax 2.5 bei Coding- und Agentik-Benchmarks Spitzenwerte erzielt – zu einem Bruchteil der üblichen Kosten. Vergleiche mit Closed-Source-Modellen wie GPT-5.2 und Gemini 3.
Aktualisiert 17. Apr. 2026  · 7 Min. lesen

Vor dem Hintergrund der Tech-Spannungen zwischen den USA und China und einer Welle preisgünstiger chinesischer Modelle wie Zhipus GLM-5 und Moonshots Kimi K2.5 fällt ein neuer Spieler durch SOTA-Benchmarks zum Bruchteil der erwarteten Kosten auf. 

Das Modell MiniMax 2.5 ist auch wegen seines Preises bemerkenswert. Es steht für den Branchentrend hin zu „Intelligenz so günstig, dass man sie nicht mehr misst“ – eine Neuinterpretation eines alten Zitats zur Kernenergie. 

MiniMax 2.5 gibt es in zwei Varianten: das volle M2.5 mit 50 Tokens/Sekunde und die Lightning-Variante mit sehr beachtlichen 100 Tokens/Sekunde. Abgesehen von der Geschwindigkeit sind die Fähigkeiten identisch.

In diesem Artikel erkläre ich, was M2.5 ist und welche Stärken es hat, gebe Anregungen für eigene Tests und vergleiche es ehrlich mit den neuesten GPT- und Gemini-Modellen.

Was ist MiniMax M2.5? 

MiniMax M2.5 ist ein sehr aktuelles Open-Weight-LLM des in Shanghai ansässigen Unternehmens MinMax AI. Die Ankündigung erfolgte vor allem am 12. Februar 2026, nur wenige Wochen nach dem Hongkong-Börsengang des Unternehmens. 

MiniMax AI ist auf Produktivität im Arbeitsalltag ausgelegt und glänzt daher beim Programmieren, der agentischen Tool-Nutzung, der Websuche und Office-Automatisierung. M2.5 wurde per Reinforcement Learning in über 200.000 komplexen Umgebungen trainiert. Das macht es robust genug, um wie ein Softwarearchitekt zu planen und Aufgaben eigenständig auszuführen.

Wichtige Funktionen von MiniMax M2.5

Das neue Modell bringt mehrere Merkmale mit, die es von anderen LLMs abheben. Hier sind einige davon.

Mehrsprachige Programmierunterstützung

MiniMax M2.5 wurde auf einem sparsamen Datensatz trainiert und kann dadurch mehr als 10 Programmiersprachen wie Python, Rust, Java, Go und weitere in verschiedenen Full-Stack-Umgebungen handhaben. Die Kompetenzen reichen von Systemdesign bis Code-Review und decken Web-, Android-, iOS- und Windows-Anwendungen ab.

Agentische Tool-Nutzung und Suche

Das M2.5-Modell führt bei Multi-Turn-Function-Calling-Aufgaben mit 76,9% auf BFCL und bei der Webnavigation mit 76,3% auf BrowseComp, während es 20% weniger Runden als Vorgänger benötigt und Aufgaben effizienter in Teilprobleme zerlegt.

Office-Produktivität integriert

Zusätzlich zu agentischer Tool-Nutzung und Suchfunktionen erzeugt M2.5 formatierte Ausgaben für Word, PowerPoint und Excel, etwa für Finanzmodelle – mit einer 59%igen Gewinnrate gegenüber gängigen Modellen auf den GDPval-MM-Benchmarks.

Effizienz und RL-Training

Dank des Forge-RL-Frameworks und des CISPO-Algorithmus erledigt es Aufgaben 37% schneller als M2.1 und verbraucht dabei weniger Tokens – konkret 3,52 Mio. pro SWE-Bench-Aufgabe.

Hands-on mit MiniMax M2.5 

Ich habe MiniMax M2.5 selbst ausprobiert. Angespornt von den großen Ansagen zu agentischer Tool-Nutzung und Suche sowie dem Fokus auf Office-Produktivität, gab ich ihm eine Rechercheaufgabe, wie sie im Job leicht vorkommt. 

Dafür nutzte ich den folgenden Prompt, um Informationen zu großen Staatsfonds zu bündeln. Um diese Tabelle zu erstellen, musste MiniMax M2.5 Recherche aus verschiedenen Quellen zusammenführen. Ich bat es außerdem, den Gini-Koeffizienten des jeweiligen Landes zu finden – etwas, das eher nicht auf den Websites der Fonds steht.

Ich habe die Angaben stichprobenartig über die jeweiligen Websites geprüft. 

For each of the five largest sovereign wealth funds by AUM, find the following: the fund's name and country, current AUM, current CEO or equivalent, when that person took the role, the fund's reported return in their most recent annual report, and the Gini coefficient of the country. Compile into a table with sources for each figure.

Das war nur ein kleiner, aber sehr praxisnaher Test. MiniMax 2.5 hat die Recherche aus mehreren Quellen souverän zu einer korrekten Tabelle zusammengeführt.

Als Nächstes habe ich mir unabhängige Demos und Benchmarks genauer angesehen.

Full-Stack-Webentwicklung

Du kannst M2.5 auch gezielt bei Software-Engineering-Aufgaben testen und beobachten, wie es auf eng umrissene Ziele plant und ausführt. Probiere zum Beispiel diesen Prompt:

Build a React app with Node.js backend for user authentication, including database schema.

M2.5 liefert einen vollständigen, spezzuerst-Plan mit UI-Wireframes und API-Endpunkten. Danach folgen 1.200+ Zeilen TypeScript/JavaScript-Code. Die Tests liefen beim ersten Durchgang in 22 Minuten durch – schneller als der Durchschnitt von Claude Opus 4.6. Ergebnis: eine funktionsfähige Anwendung mit JWT-Auth und MongoDB-Integration.

A screenshot of execution in minimax agents using the M2.5 model

Die Abbildung zeigt das Beispiel samt Prompt in der Umgebung der MiniMax-Agenten mit dem M2.5-Modell.

Finanzmodellierung in Excel

Um die Dokumentgenerierung zu testen, eignet sich ein Prompt wie dieser:

Create an Excel model for startup valuation using DCF, with sensitivity analysis

M2.5 ist darauf ausgelegt, formatierte Dateien mit funktionierenden Formeln und Diagrammen zu erzeugen. Das passt zu den starken GDPval-MM-Benchmarkwerten. (Mehr zu den Benchmarks im nächsten Abschnitt.)

MiniMax hat spürbar in Office-Fähigkeiten investiert, um Nützliches wie Finanzmodelle in Excel zu bauen. Das Team hat direkt mit Expertinnen und Experten aus Finanzen, Recht und Sozialwissenschaften zusammengearbeitet, um Trainingsdaten nach Branchenstandard statt generischer Vorlagen zu erstellen.

Ein guter Folgetest ist ein bewusst mehrdeutiges oder unvollständig spezifiziertes Briefing. Denke an einen Prompt, wie ihn ein Junior-Analyst von einer Partnerin bekommen könnte. Schau, ob das Modell Rückfragen stellt oder sinnvolle Annahmen trifft und diese kennzeichnet.

SVG-Generierung und Reasoning

Beobachte hier vor allem, wie M2.5 die Aufgabe angeht. 

Eine interessante Erkenntnis aus den Release Notes: Das Schreiben von Spezifikationen ist während des Trainings organisch entstanden. Wie erwähnt, zerlegt M2.5 vor dem Coden das Projekt und plant Struktur, UI-Design und API-Endpunkte aus Sicht einer Softwarearchitektin.

Ob diese Planung tatsächlich die Ergebnisse verbessert, bewerte ich weiter für mich.

MiniMax M2.5 und die MiniMax Agent Platform

MiniMax liefert M2.5 innerhalb einer Agentenplattform aus, die Nicht-Entwickelnden über sogenannte vorgefertigte Experts unmittelbaren Zugang gibt. Das sind spezialisierte Agenten für konkrete Aufgaben. Die Plattform funktioniert wie ein App-Store: Du stöberst nach Kategorie, wählst einen Expert und bekommst einen einsatzbereiten Workflow-Agenten.

Zu den meistgenutzten Experts zum Start zählen Landing Page Builder, PPTX Maker, Excel Processor und weitere wirklich praktische Tools. In Summe erklärt das MiniMax’ Ruf als Office-Produktivitätsplattform.

Spannend ist auch die Community-Ebene. Nutzerinnen und Nutzer können eigene Experts bauen und veröffentlichen. Offenbar wurden bereits über 10.000 erstellt.

MiniMax M2.5 Benchmarks 

M2.5 liefert starke Werte in den wichtigsten Benchmarks für Coding und agentische Arbeit. Es erzielte 80,2% auf SWE-Bench Verified – einem realitätsnahen Test zur Lösung von GitHub-Issues – und erledigte Aufgaben 37% schneller als der Vorgänger M2.1.

Bei mehrsprachigen und Cross-Repository-Aufgaben belegte es mit 51,3% Platz eins auf Multi-SWE-Bench. Zum Start platzierten 76,3% auf BrowseComp das Modell unter den Top-Performern für Web-Suche und Recherche, doch das Leaderboard hat sich seitdem verschoben. Gemini 3.1 Pro führt nun mit 85,9%, gefolgt von Claude Opus 4.6 mit 84,0% und GPT-5.2 Pro mit 77,9%. Beide, Gemini 3.1 Pro und Opus 4.6, erschienen innerhalb einer Woche nach M2.5 – ein gutes Beispiel, wie schnell sich die Spitze aktuell weiterbewegt.

Abgerundet wird das Bild durch 79,7% auf dem Droid-Benchmark für agentisches Coden; zudem liegt es derzeit auf Platz 4 im OpenHands Index für langlaufende Aufgaben wie App-Building.

MiniMax M2.5 benchmarks

Die Grafik macht die Ergebnisse von M2.5 gut vergleichbar. 

Wie kann ich auf MiniMax M2.5 zugreifen? 

Es gibt im Wesentlichen drei Wege, das Modell zu nutzen. Du kannst:

  • Open-Source-Gewichte direkt von Hugging Face herunterladen und lokal mit vLLM, SGLang, Ollama oder anderen deployen. GGUF-Quantisierungen sind für Consumer-Hardware verfügbar.
  • API-Zugang über die offizielle Website mit $0,3/M Eingangstokens und $2,4/M Ausgangstokens für Lightning. Das entspricht $1/Stunde bei 100 Tokens/Sekunde im Dauerbetrieb. Caching wird unterstützt, außerdem Enterprise-Pläne für hohes Volumen.
  • Integrationen mit verschiedenen IDEs wie VS Code, Cline CLI oder Fireworks AI – ab Tag eins.

Klar, für Gewichte gibt es keine Free-Tier-Limits, die API wird nutzungsbasiert abgerechnet.

MiniMax M2.5 vs. Konkurrenz

M2.5 zielt auf die Nischen Coding und Agentik – und unterbietet dabei die Kosten bei vergleichbarer Leistung. Hier der Vergleich:

Funktion/Benchmark MiniMax M2.5 Claude Opus 4.6 GPT-5.2 Gemini 3 Pro
SWE-Bench Verified 80,2% 80,8% 80% 78%
Multi-SWE 51,3% 50,3% 49,1% 42,7%
BrowseComp (Suche) 76,3% (1. Open-Weight) 84,0% 65,8% 73,2%
Ausgabekosten (/M Tokens) $2,4 $25 $14 $15
Geschwindigkeit (Tokens/Sek.) 100 60 80 70
Open Weights? Ja (MIT) Nein Nein Nein
Mehrsprachiges Coding 10+ Sprachen Stark Englisch-lastig Stark Moderat

Diese Daten stammen aus offiziellen Evaluierungen und von Artificial Analysis sowie aus der Lektüre aktueller Modellveröffentlichungen. M2.5 punktet bei Effizienz und Offenheit, während geschlossene Modelle bei breitem Weltwissen leicht vorn liegen.

Wie gut ist MiniMax M2.5? 

Im größeren Branchensetting ist M2.5 außergewöhnlich gut für gezielte Produktivität. Seine 80,2% auf SWE-Bench und der Preis von $1/Stunde könnten Enterprise-KI tatsächlich aufmischen, wo Kostenbarrieren die Einführung bremsen. Der Open-Weight-Ansatz ist im Frontier-Coding ein Gamechanger und setzt geschlossene Modelle unter Druck.

Besonders sichtbar wird das bei BrowseComp, wo M2.5 mit 76,3% alle Open-Weight-Modelle anführt – vor GLM-5 und Kimi K2.5, obwohl beide deutlich größer sind. Die vier besser platzierten Modelle sind proprietär, was einiges über das MIT-lizenzierte Release von MiniMax aussagt.

Sein agentischer Fokus positioniert es außerdem gut für die Agentenökonomie, in der Autonomie und Effizienz wichtiger sind als reine Größe.

Dennoch hat M2.5 Schwächen. Bei kreativem Reasoning hinkt es Allroundern hinterher – sichtbar in 42/100 Punkten auf dem Artificial Analysis Intelligence Index. Es ist ein Spezialist, kein Generalist.

Für Entwicklerinnen und Entwickler gebe ich ein A+, für vielseitige Nutzung ein B+. Behalte Fine-Tunes im Blick, die den Einsatzbereich vermutlich deutlich erweitern.

Einsatzfelder für MiniMax M2.5 

Es gibt viele maßgeschneiderte Use Cases. MiniMax M2.5 eignet sich unter anderem für Software-Engineering-Aufgaben wie automatisierte GitHub-PRs, Bugfixes und komplette App-Entwicklung. (Angeblich sind 80% von MiniMax’ eigenem Quellcode KI-generiert!) 

MiniMax M2.5 kann außerdem in Enterprise-Office-Workflows eingesetzt werden, etwa für Finanzmodelle, Berichtserstellung und PPT-Bearbeitung in Finanz- oder Rechtsteams. Zusätzlich lassen sich über die MiniMax Agent Platform eigene KI-Expert-Agenten für Recherche oder Vertrieb bauen. 

Fazit

MiniMax M2.5 hat das Potenzial, ein Produktivitätskraftwerk zu sein: erstklassige Agentik, offen zugänglich – zu Preisen, die die KI-Ökonomie verändern könnten.

Wenn du praxisnäher einsteigen willst, schau dir unseren Kurs AI for Developers an. Probiere es heute aus, denn die Zukunft bezahlbarer Intelligenz ist da.


Iheb Gafsi's photo
Author
Iheb Gafsi
LinkedIn

Ich arbeite an beschleunigten KI-Systemen, die Edge Intelligence mit föderierten ML-Pipelines auf dezentralen Daten und verteilten Workloads ermöglichen.  Meine Arbeit konzentriert sich auf große Modelle, Sprachverarbeitung, Computer Vision, Reinforcement Learning und fortgeschrittene ML-Topologien.

Themen

Lerne mit DataCamp

Kurs

Künstliche Intelligenz verstehen

2 Std.
396.8K
Dieser Einführungskurs stellt grundlegende KI-Konzepte vor, zum Beispiel maschinelles Lernen, Deep Learning, NLP, generative KI und mehr.
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Tutorial

Python-Lambda-Funktionen: Ein Leitfaden für Anfänger

Lerne mehr über Python-Lambda-Funktionen, wozu sie gut sind und wann man sie benutzt. Enthält praktische Beispiele und bewährte Methoden für eine effektive Umsetzung.
Mark Pedigo's photo

Mark Pedigo

Tutorial

Fibonacci-Folge in Python: Lerne und entdecke Programmiertechniken

Finde raus, wie die Fibonacci-Folge funktioniert. Schau dir die mathematischen Eigenschaften und die Anwendungen in der echten Welt an.
Laiba Siddiqui's photo

Laiba Siddiqui

Mehr anzeigenMehr anzeigen