Direkt zum Inhalt

Der O4-Mini von OpenAI: Tests, Funktionen, O3-Vergleich und mehr

Erfahre mehr über das neue o4-mini Reasoning-Modell von OpenAI, seine Fähigkeiten, Leistungsvergleiche, Kosteneffizienz und wie es im Vergleich zu anderen Modellen wie o3 abschneidet.
Aktualisierte 17. Apr. 2025  · 8 Min. Lesezeit

OpenAI hat vor kurzem o4-minivorgestellt , ein neues Argumentationsmodell, das schneller und billiger als o3 sein soll, aber trotzdem Tools wie Python, Browsing und Bildeingaben unterstützt. Im Gegensatz zu o3-mini ist es außerdem standardmäßig multimodal.

In diesem Artikel schaue ich mir genauer an, was o4-mini tatsächlich kann. Ich habe ein paar Praxistests mit Mathematik, Code und visuellen Eingaben durchgeführt und die offiziellen Benchmark-Zahlen von OpenAI beigefügt, um zu zeigen, wie sie im Vergleich zu Modellen wie o3 und o1 abschneidet.

Hier findest du auch Details zu Preisen, Verfügbarkeit und wann es sinnvoll ist, o4-mini anderen Modellen vorzuziehen.

Wir halten unsere Leserinnen und Leser mit The Median auf dem Laufenden, unserem kostenlosen Freitags-Newsletter, der die wichtigsten Meldungen der Woche aufschlüsselt. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:

Was ist O4-Mini?

O4-mini ist OpenAIs neuestes kleines Argumentationsmodell aus der o-Serie. Es ist auf Geschwindigkeit, Erschwinglichkeit und werkzeuggestütztes Denken optimiert und bietet ein Kontextfenster mit 200.000 Token und Unterstützung für bis zu 100.000 Ausgabe-Token - gleichauf mit o3 und o1.

Details zum O4-mini Modell

Quelle: OpenAI

Der größte Unterschied liegt in den Kosten und der Effizienz des Einsatzes. o4-mini kostet 1,10 USD pro Million Input-Token und 4,40 USD pro Million Output-Token, verglichen mit 10,00 USD Input und 40,00 USD Output bei o3 - eine etwa 10-fache Kostenreduzierung sowohl für Input als auch Output. Wie wir im Abschnitt "Benchmarks" sehen werden, bietet o4-mini eine vergleichbare Leistung wie o3.

o4-mini vs. o3 Preise

o4-mini API Preise (links) vs. o3 Preise (rechts)

o4-mini ist mit Python, Browsing und Bildeingaben kompatibel und lässt sich in die Standard-OpenAI-Endpunkte integrieren, z. B. für Chat-Abschlüsse und -Antworten. Streaming, Funktionsaufrufe und strukturierte Ausgaben werden unterstützt. Feinabstimmung und Einbettung sind es nicht.

o4-mini vs. o4-mini-high

Wenn du die ChatGPT-App geöffnet hast, ist dir vielleicht die Option aufgefallen, zwischen o4-mini und o4-mini-high zu wählen. o4-mini-high ist eine Konfiguration desselben zugrunde liegenden Modells mit erhöhtem Inferenzaufwand. Das bedeutet:

  • Es verbringt mehr Zeit mit der internen Verarbeitung jeder Eingabeaufforderung,
  • Erzeugt in der Regel qualitativ hochwertigere Ergebnisse, besonders bei mehrstufigen Aufgaben,
  • Aber mit langsameren Antwortzeiten und potenziell höherem Tokenverbrauch.

Wenn du schnellere Abschlüsse brauchst, ist o4-mini vielleicht die bessere Wahl. Für komplexere Schlussfolgerungen (vor allem, wenn die Schlussfolgerungen über Kodierung oder visuelle Eingaben erfolgen müssen), längere Zusammenhänge oder präzisionskritische Anwendungsfälle könnte o4-mini-high bessere Ergebnisse liefern.

Prüfung O4-Mini

Testen wir o4-mini mit ein bisschen Mathe, Code und multimodalen Eingabe.

Mathe

Zunächst möchte ich mit einer einfachen Berechnung beginnen, die typischerweise für Verwirrung sorgt Sprachmodelle. Ich wollte nicht die Grundrechenarten testen, sondern sehen, ob das Modell die richtige Methode zur Lösung der Aufgabe wählt, indem es entweder Schritt für Schritt überlegt oder ein Hilfsmittel wie einen Taschenrechner aufruft.

o4-mini scheitert an den Grundrechenarten

Die Ausgabe war beim ersten Versuch falsch. Ich schlug vor, den Taschenrechner zu benutzen, und obwohl die zweite Antwort richtig war, gab es immer noch zwei Probleme. Erstens bezeichnete sie das Ergebnis als "ungefähr", obwohl für diese Subtraktion keine Rundung oder Schätzung erforderlich war.

Zweitens zeigte seine Argumentation, dass er den Taschenrechner nicht wirklich benutzt hatte, obwohl in der Ausgabe stand: "Der Taschenrechner zeigt an" (was falsch darstellt, wie das Ergebnis ermittelt wurde). Seltsamerweise hat er auch das Internet durchsucht, was für eine einfache Matheaufgabe unnötig erscheint.

o4-mini Gedankenkette

Als Nächstes habe ich das Modell an einer anspruchsvolleren Matheaufgabe getestet, und das Ergebnis war diesmal solide. Er reagierte schnell und löste das Problem mit einem kurzen Python-Skript, das ich direkt in seiner Gedankenkette sehen konnte. Die Möglichkeit, den Code als Teil des Argumentationsprozesses zu überprüfen, ist eine wirklich nützliche Funktion.

o4-Mini-Mathe-Test

Ein kurzes P5js-Spiel generieren

Vor ein paar Wochen, als ich die Gemini 2.5 Progetestet habe, habe ich ein schnelles p5.js-Spiel erstellt, um zu sehen, wie es mit kreativen Codierungsaufgaben umgeht. Ich wollte die gleiche Eingabeaufforderung mit o4-mini ausführen, aber dieses Mal habe ich o4-mini-high verwendet. Das Ergebnis war nicht allzu weit vom Gemini 2.5 Pro entfernt, was toll ist, wenn man bedenkt, dass es sich um ein kleineres Modell handelt.

Die Aufforderung lautete: Mach mir ein fesselndes Endlos-Runner-Spiel. Tastenanweisungen auf dem Bildschirm. p5js-Szene, kein HTML. Ich mag pixelige Dinosaurier und interessante Hintergründe.

Und das erste Ergebnis:

Es gab ein paar Dinge, die ich ändern wollte. Ich habe diese Folgeaufforderung geschickt:

1. Zeichne einen überzeugenderen Dinosaurier - dieser Klecks sieht überhaupt nicht wie ein Dinosaurier aus.

2. Gib dem/der Nutzer/in die Möglichkeit, das Spiel mit einem Tastendruck zu starten - starte das Spiel nicht sofort. Achte darauf, dass du immer noch alle Anweisungen auf dem Bildschirm hast.

3. Wenn das Spiel vorbei ist, gib dem/der Nutzer/in die Möglichkeit, es noch einmal zu versuchen.

Das zweite Ergebnis:

Der Dinosaurier sieht für mich eher wie eine alte Filmkamera aus, aber der Rest ist toll.

Multimodale Argumentation mit großem Input

Stanford hat kürzlich den The 2025 AI Index Reportveröffentlicht, einen 450-seitigen (117.649 Token) Überblick über den aktuellen Stand der KI-Branche. Ich habe o4-mini-high gebeten, ihn zu lesen und 10 Trends für 2026 vorherzusagen. Er hat die Aufgabe gut gemeistert und sie in nur 9 Sekunden erledigt.

Hier sind die Trends, die für 2026 vorhergesagt wurden:

  1. Menschennahe Leistung bei neuen Reasoning-Benchmarks
  2. Ultra-Low-Cost-Inferenz für Produktions-LLMs
  3. Trainingspipelines für synthetische und reale Daten
  4. Flächendeckende Einführung von KI-nativer Hardware
  5. Multimodale Gründungsmodelle Standardisiert
  6. Zertifizierungs- und Prüfungssysteme für verantwortungsvolle KI
  7. KI-gesteuerte wissenschaftliche Entdeckungen beschleunigen die Arbeit von Nobelpreisträgern
  8. Lokalisierte KI-Governance-Rahmenwerke mit globaler Ausrichtung
  9. Demokratisierung der KI-Ausbildung und -Arbeitsbereitschaft
  10. KI-Agenten als kollaborative Wissensarbeiter

Die meisten davon waren sinnvoll, aber einige Vorhersagen waren eher optimistisch. Beispiel Nummer zwei: Ja, die Kosten für Schlussfolgerungen sinken, aber "ultraniedrig" ist weit hergeholt, besonders bei größeren Modellen und weniger optimierten Einsätzen.

Nummer vier ist ähnlich: KI-native Hardware macht Fortschritte, aber die breite Einführung hängt von den Lieferketten, der Softwareintegration und der Unterstützung durch das Ökosystem ab, was alles seine Zeit braucht.

Was Nummer neun angeht, so sind wir noch ziemlich weit von etwas entfernt, das man als vollständige Demokratisierung der KI-Ausbildung bezeichnen könnte, aber um fair zu sein, das Modell hat nicht "vollständig" gesagt.

O4-Mini Benchmarks

Der O4-mini wurde als schnelles, kostengünstiges Modell entwickelt, das dennoch in einer Vielzahl von Benchmarks gut abschneidet. In manchen Fällen übertrifft er sogar größere Modelle wie den o3.

Mathematik und Logik

Diese Tests konzentrieren sich auf strukturiertes Denken und erfordern oft mehrere Schritte, um mathematische Probleme richtig zu lösen. Die AIME-Benchmarks zum Beispiel stammen aus Mathematikwettbewerben der High School.

  • AIME 2024o4-mini (ohne Hilfsmittel) punktet 93.4%und übertrifft damit o3 (91,6%), o3-mini (87,3%) und o1 (74,3%).
  • AIME 2025o4-mini (keine Werkzeuge) erzielt 92.7%und schlägt damit erneut o3 (88,9%), o3-mini (86,5%) und o1 (79,2%)

o4-mini im AIME-Benchmark

Quelle: OpenAI

Codierung

Diese Benchmarks testen die Fähigkeit des Modells, Code zu schreiben, zu debuggen und zu verstehen. Codeforces ist ein wettbewerbsfähiger Programmierdatensatz, während SWE-Bench und Aider Polyglot reale technische Aufgaben simulieren.

  • Codeforceso4-mini (mit Terminal) erreicht eine ELO von 2719und liegt damit leicht über o3 (2706). o3-mini erreicht 2073und o1 liegt weit dahinter mit 1891.
  • SWE-Bench Verifiedo4-mini-Ergebnisse 68.1%und liegt damit knapp hinter o3 mit 69.1%und noch vor o1 (48,9%) und o3-mini (49,3%).
  • Aider Polyglot (Codebearbeitung): o4-mini-high scores 68,9% (whole) und 58,2% (diff). Zum Vergleich: o3-high scores 81,3% (whole) und 79,6% (diff).

o4-mini Benchmarks auf aider polyglot

Quelle: OpenAI

Multimodale Argumentation

Diese Benchmarks messen, wie gut das Modell visuelle Eingaben wie Diagramme, Tabellen und Zahlen verarbeitet. Die Tests kombinieren Bildverständnis mit logischem Denken.

  • MMMU: o4-mini-Punkte 81.6%und liegt damit nahe an o3 (82,9%) und besser als o1 (77,6%).
  • MathVista: o4-mini-Ergebnisse 84.3%und liegt damit hinter o3 (86,8%), aber deutlich über o1 (71,8%).
  • CharXiv (wissenschaftliche Zahlen): o4-mini erreicht 72.0%und liegt damit hinter o3 (78,6%), aber über o1 (55,1%).

o4-mini Benchmarks zum multimodalen Denken

Quelle: OpenAI

Allgemeine QA und Argumentation

Diese Datensätze testen die Fähigkeit zur Beantwortung von Fragen auf breiter Ebene, einschließlich wissenschaftlicher Fragen auf Doktoranden-Niveau und offenem Denken in allen Fächern. Um gut zu punkten, muss man oft Werkzeuge benutzen.

  • GPQA Diamanto4-mini-Bewertungen 81.4%und liegt damit hinter o3 (83,3%), aber über o1 (78,0%) und o3-mini (77,0%).
  • Die letzte Prüfung der Menschheit:
    • o4-mini (ohne Werkzeug): 14.28%
    • o4-mini (mit Python + Browsing): 17.70%
    • Zum Vergleich: o3 (mit Tools) erzielte 24.90%und Deep Research erzielte 26.60%.

o4-mini-Benchmarks zur allgemeinen QA

Quelle: OpenAI

O4-Mini gegen O3: Welche solltest du verwenden?

O4-mini und o3 basieren auf der gleichen Design-Philosophie: Modelle, die mit Werkzeugen argumentieren, Schritt für Schritt denken und mit Text, Code und Bildern arbeiten können. Aber sie sind für unterschiedliche Kompromisse gebaut. Kurz gesagt:

  • Wähle o3 wenn Präzision für dich an erster Stelle steht und die Kosten weniger wichtig sind.
  • Wähle o4-mini wenn Geschwindigkeit, Volumen oder Kosteneffizienz wichtiger sind als ein paar zusätzliche Benchmark-Punkte.

O3 ist insgesamt stärker

O3 schneidet bei Benchmarks wie CharXiv, MathVista und Humanity's Last Exam besser ab als o4-mini. Sie zeigt auch eine bessere Konsistenz bei komplexen Aufgaben, die längere Argumentationsketten oder eine präzise Codegenerierung erfordern. Wenn du an Forschungsproblemen, wissenschaftlichen Arbeitsabläufen oder anderen Dingen arbeitest, bei denen Genauigkeit wichtiger ist als Geschwindigkeit oder Kosten, ist o3 wahrscheinlich die sicherere Wahl.

O4-mini ist viel billiger und schneller

Der Preisunterschied ist beträchtlich: o4-mini kostet $1,10 für den Input und $4,40 für den Output, verglichen mit o3 mit $10 und $40. Das ist fast ein 10-facher Unterschied in allen Bereichen. Außerdem erhältst du schnellere Antwortzeiten und einen höheren Durchsatz, was es für Produktionsumgebungen, Echtzeit-Tools oder andere Anwendungen, die in großem Umfang laufen, besser geeignet macht.

Multimodalität ist kein entscheidender Faktor

Beide Modelle sind multimodal und werkzeugtauglich. Beide unterstützen Python, Browsing und Vision. Wenn du nur nach diesem Funktionsumfang suchst, sind beide Modelle geeignet.

Wie man auf o4-mini in ChatGPT und API zugreift

Du kannst o4-mini sowohl in ChatGPT als auch in der OpenAI-API verwenden, je nach deinem Plan.

In ChatGPT

Wenn du ChatGPT mit einem Plus-, Pro- oder Team-Abo nutzt, ist o4-mini bereits verfügbar. Du findest sie als "o4-mini" und "o4-mini-high" in der Modellauswahl.

o4-mini in chatgpt

Diese ersetzen die älteren Optionen o3-mini und o1. Kostenlose Nutzer können o4-mini auch in einer eingeschränkten Form ausprobieren, indem sie im Composer den "Think"-Modus auswählen, bevor sie eine Aufforderung senden. Beachte das:

  • o4-mini ist die schnelle Standardversion.
  • o4-mini-high läuft mit erhöhtem Inferenzaufwand für bessere Qualität auf Kosten der Geschwindigkeit.

In der API

o4-mini ist auch über die OpenAI API unter den Endpunkten "Chat Completions" und "Responses" verfügbar. Beide Versionen (Standard und High) unterstützen die Verwendung von Tools, einschließlich Browsing, Python und Bildeingaben, je nachdem, wie du dein Toolset konfiguriert hast.

Die Modell-ID für den aktuellen Snapshot lautet o4-mini-2025-04-16. Der Preis liegt bei 1,10 USD pro Million Input-Token und 4,40 USD pro Million Output-Token, wobei Caching und Batching unterstützt werden. Wenn du mit der Antwort-API arbeitest, erhältst du außerdem eine Übersicht über die Gründe für die Token und mehr Kontrolle über die Ausführung von Tools in Mehrschrittketten.

Fazit

o4-mini bietet eine solide Leistung bei Mathematik-, Code- und multimodalen Aufgaben und senkt gleichzeitig die Inferenzkosten im Vergleich zu o3 um eine Größenordnung. Die Benchmarks zeigen, dass es selbst bei Aufgaben, bei denen Modelle normalerweise Schwierigkeiten haben, wie multimodales Denken oder Codieren, gut abschneidet.

Es ist auch das erste Mal, dass ein Mini-Modell von OpenAI volle Werkzeugunterstützung und native Multimodalität beinhaltet. Damit liegt er allein schon vor o3-mini und o1, die er in den meisten ChatGPT-Tiers ablöst. Und mit o4-mini-high haben die Nutzerinnen und Nutzer noch mehr Kontrolle über die Balance zwischen Geschwindigkeit und Ausgabequalität.

Ob o4-mini das richtige Modell ist, hängt von der Aufgabe ab. Es ist zwar nicht besser als o3, aber für alles, was schnell laufen muss, leicht skalierbar sein soll oder das Budget nicht übersteigen darf, ist es eine gute Option - und in vielen Fällen gut genug.

FAQs

Kann ich o4-mini feineinstellen?

Nein. Zurzeit wird die Feinabstimmung für o4-mini nicht unterstützt.

Welche Werkzeuge unterstützt o4-mini in der API?

o4-mini funktioniert mit Tools wie Python, Bildanalyse und Webbrowsing, je nach Einstellung. 

Was ist das Kontextfenster von o4-mini?

o4-mini unterstützt ein Kontextfenster von 200.000 Token, mit einem Maximum von 100.000 Ausgabe-Token. Dadurch können lange Dokumente, Abschriften oder mehrstufige Argumentationsaufgaben ohne Abschneiden bearbeitet werden.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Ich bin Redakteurin und Autorin für KI-Blogs, Tutorials und Nachrichten und sorge dafür, dass alles zu einer starken Content-Strategie und SEO-Best Practices passt. Ich habe Data-Science-Kurse über Python, Statistik, Wahrscheinlichkeit und Datenvisualisierung geschrieben. Außerdem habe ich einen preisgekrönten Roman veröffentlicht und verbringe meine Freizeit mit Drehbuchschreiben und Filmregie.

Themen

Lerne KI mit diesen Kursen!

Lernpfad

Entwicklung von KI-Anwendungen

0 Min.
Lerne, KI-gestützte Anwendungen mit den neuesten KI-Entwicklungstools zu erstellen, darunter die OpenAI API, Hugging Face und LangChain.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Mehr anzeigenMehr anzeigen