Accéder au contenu principal

O4-Mini d'OpenAI : Tests, caractéristiques, comparaison O3, et plus encore

Découvrez le nouveau modèle de raisonnement o4-mini d'OpenAI, ses capacités, ses performances, sa rentabilité et sa comparaison avec d'autres modèles comme o3.
Actualisé 17 avr. 2025  · 8 min de lecture

OpenAI a récemment présenté o4-mini, un nouveau modèle de raisonnement conçu pour être plus rapide et moins cher que o3, tout en continuant à prendre en charge des outils tels que Python, la navigation et les entrées d'images. Contrairement à o3-mini, il est également multimodal par défaut.

Dans cet article, j'examine de plus près ce que o4-mini peut réellement faire. J'ai effectué quelques tests pratiques portant sur les mathématiques, le code et les données visuelles, et j'ai inclus les chiffres de référence officiels d'OpenAI pour montrer comment elle se situe par rapport à des modèles tels que o3 et o1.

Vous trouverez également des informations sur les prix, la disponibilité et les raisons pour lesquelles il est judicieux de choisir o4-mini plutôt que d'autres modèles.

Nous tenons nos lecteurs informés des dernières nouveautés en matière d'IA en leur envoyant The Median, notre lettre d'information gratuite du vendredi qui analyse les principaux sujets de la semaine. Abonnez-vous et restez à la pointe de la technologie en quelques minutes par semaine :

Qu'est-ce que O4-Mini ?

O4-mini est le modèle de raisonnement à petite échelle le plus récent de la série o d'OpenAI. Il est optimisé pour la vitesse, l'accessibilité et le raisonnement assisté, avec une fenêtre contextuelle de 200 000 tokens et la prise en charge de 100 000 tokens de sortie, à l'instar de o3 et o1.

Détails du modèle O4-mini

Source : OpenAI

o4-mini fonctionne à 1,10 $ par million de jetons d'entrée et à 4,40 $ par million de jetons de sortie, contre 10 $ d'entrée et 40 $ de sortie pour o3, soit une réduction des coûts d'environ 10 fois pour l'entrée et la sortie. Comme nous le verrons dans la section des benchmarks, o4-mini offre des performances comparables à celles de o3.

Prix de l'o4-mini par rapport à l'o3

Prix de l'API o4-mini (à gauche) et prix de l'API o3 (à droite)

En termes d'outils, o4-mini est compatible avec Python, la navigation et les entrées d'images, et il s'intègre aux points de terminaison standard d'OpenAI, y compris les achèvements et les réponses au chat. Les flux, les appels de fonction et les sorties structurées sont pris en charge. Le réglage fin et l'intégration ne le sont pas.

o4-mini vs. o4-mini-high

Si vous avez ouvert l'application ChatGPT, vous avez peut-être remarqué l'option permettant de choisir entre o4-mini et o4-mini-high. o4-mini-high est une configuration du même modèle sous-jacent avec un effort d'inférence accru. En d'autres termes :

  • Il consacre plus de temps au traitement interne de chaque message,
  • Généralement, les résultats sont de meilleure qualité, en particulier pour les tâches en plusieurs étapes,
  • Mais avec des temps de réponse plus lents et une utilisation potentiellement plus élevée des jetons.

Si vous souhaitez obtenir des résultats plus rapides, o4-mini est peut-être le meilleur choix. Pour des raisonnements plus complexes (en particulier si le raisonnement doit être effectué à partir d'un codage ou d'une entrée visuelle), des contextes plus longs ou des cas d'utilisation critiques en termes de précision, o4-mini-high pourrait vous donner de meilleurs résultats.

Test de l'O4-Mini

Testons o4-mini sur un peu de maths, de codage et de multimodal multimodale.

Mathématiques

Tout d'abord, j'ai voulu commencer par un calcul simple qui déroute généralement les modèles linguistiques. Je n'essayais pas de tester des compétences arithmétiques de base, mais je voulais voir si le modèle choisirait la bonne méthode pour résoudre le problème, soit en raisonnant étape par étape, soit en faisant appel à un outil tel qu'une calculatrice.

o4-mini : échec en arithmétique de base

Le résultat était erroné dès la première tentative. J'ai suggéré d'utiliser la calculatrice et, bien que la deuxième réponse soit correcte, il y avait encore deux problèmes. Tout d'abord, il a décrit le résultat comme étant "approximatif", alors qu'aucun arrondi ou estimation n'était nécessaire pour cette soustraction.

Deuxièmement, son raisonnement a montré qu'il n'avait pas réellement utilisé la calculatrice, bien que la sortie indique "La calculatrice montre" (ce qui représente mal la façon dont le résultat a été obtenu). Curieusement, il a également effectué des recherches sur le web, ce qui semble inutile pour un problème mathématique de base.

o4-mini chaîne de pensée

Ensuite, j'ai testé le modèle sur un problème mathématique plus difficile, et le résultat a été solide cette fois. Il a réagi rapidement et a résolu le problème à l'aide d'un court script Python, que j'ai pu voir directement dans sa chaîne de pensée. La possibilité d'inspecter le code dans le cadre du processus de raisonnement est une fonction véritablement utile.

o4-mini test de maths

Générer un petit jeu en P5js

Il y a quelques semaines, lorsque j'ai testé Gemini 2.5 Proj'ai généré un jeu rapide en p5.js pour voir comment il gérait les tâches de codage créatif. J'ai voulu lancer la même invite avec o4-mini, mais cette fois j'ai utilisé o4-mini-high. Le résultat n'est pas très éloigné de celui du Gemini 2.5 Pro, ce qui est très bien étant donné qu'il s'agit d'un modèle plus petit.

L'invitation était la suivante : Faites-moi un jeu de course sans fin captivant. Instructions clés à l'écran. Scène p5js, pas de HTML. J'aime les dinosaures pixelisés et les arrière-plans intéressants.

Et le premier résultat :

Il y a quelques points que je souhaitais modifier. J'ai envoyé cette demande de suivi :

1. Dessinez un dinosaure plus convaincant - ce blob ne ressemble pas du tout à un dinosaure.

2. Donnez à l'utilisateur la possibilité de démarrer le jeu en appuyant sur une touche - ne démarrez pas le jeu immédiatement. Veillez à ce que toutes les instructions restent affichées à l'écran.

3. Lorsque le jeu est terminé, donnez à l'utilisateur la possibilité de réessayer.

Le deuxième résultat :

Ce dinosaure ressemble plus à un vieil appareil photo, mais le reste est superbe.

Raisonnement multimodal à partir d'un grand nombre de données

Stanford a récemment publié Le rapport 2025 AI Indexun rapport de 450 pages (117 649 tokens) sur l'état actuel du secteur de l'IA. J'ai demandé à o4-mini-high de le lire et de prédire 10 tendances pour 2026. Il s'est acquitté de sa tâche avec brio, en seulement 9 secondes.

Voici les tendances qu'elle prévoit pour 2026 :

  1. Des performances quasi humaines sur de nouveaux critères de raisonnement
  2. Inférence à très faible coût pour les LLM de production
  3. Pipelines de formation de données synthétiques et réelles
  4. Adoption généralisée de matériel natif pour l'IA
  5. Modèles de fondation multimodaux normalisés
  6. Régimes de certification et d'audit de l'IA responsable
  7. Les découvertes scientifiques pilotées par l'IA accélèrent les travaux des lauréats du prix Nobel
  8. Cadres de gouvernance de l'IA localisés et alignés au niveau mondial
  9. Démocratisation de l'enseignement de l'IA et de la préparation de la main-d'œuvre
  10. Les agents d'intelligence artificielle en tant que travailleurs du savoir collaboratifs

La plupart d'entre elles sont logiques, même si certaines prédictions penchent vers l'optimisme. Deuxièmement, oui, les coûts d'inférence diminuent, mais le terme "ultra-faible" est un peu exagéré, en particulier pour les grands modèles et les déploiements moins optimisés.

Le numéro quatre est similaire : Le matériel natif de l'IA progresse, mais son adoption à grande échelle dépend des chaînes d'approvisionnement, de l'intégration des logiciels et du soutien de l'écosystème, ce qui prend du temps.

En ce qui concerne le neuvième point, nous sommes encore loin de ce que l'on pourrait appeler une démocratisation totale de l'enseignement de l'IA, mais pour être honnête, le modèle n'a pas dit "totale".

O4-Mini Benchmarks

O4-mini a été conçu pour être un modèle rapide et économique, mais il reste performant dans un large éventail de critères de raisonnement. Dans certains cas, il surpasse même des modèles plus importants comme o3.

Mathématiques et logique

Ces tests se concentrent sur le raisonnement structuré, nécessitant souvent plusieurs étapes pour résoudre correctement les problèmes mathématiques. Les critères de référence de l'AIME, par exemple, sont tirés de concours de mathématiques organisés dans les écoles secondaires.

  • AIME 2024: scores de l'o4-mini (sans outils) 93.4%et surpasse o3 (91,6 %), o3-mini (87,3 %) et o1 (74,3 %).
  • AIME 2025: scores o4-mini (sans outils) 92.7%et devance à nouveau o3 (88,9%), o3-mini (86,5%), et o1 (79,2%).

o4-mini sur l'indice de référence AIME

Source : OpenAI

Codage

Ces critères testent la capacité du modèle à écrire, déboguer et comprendre le code. Codeforces est un ensemble de données de programmation compétitive, tandis que SWE-Bench et Aider Polyglot simulent des tâches d'ingénierie réelles.

  • Codeforceso4-mini (avec terminal) obtient un ELO de 2719légèrement supérieur à o3 (2706). o3-mini obtient un score de 2073et o1 est loin derrière avec 1891.
  • SWE-Bench Vérifié: scores de l'o4-mini 68.1%juste derrière o3 avec 69.1%et devant o1 (48,9 %) et o3-mini (49,3 %).
  • Aider Polyglot (édition de code): o4-mini-high scores 68.9% (whole) et 58.2% (diff). À titre de comparaison, les scores o3-high sont de 81,3 % (entier) et de 79,6 % (diff).

o4-mini benchmarks sur aider polyglot

Source : OpenAI

Raisonnement multimodal

Ces critères mesurent la qualité du traitement par le modèle des données visuelles telles que les diagrammes, les graphiques et les figures. Les tests combinent la compréhension des images et le raisonnement logique.

  • MMMU: scores de l'o4-mini 81.6%proche de o3 (82,9%) et meilleur que o1 (77,6%).
  • MathVista: scores de o4-mini 84.3%ce qui est inférieur à o3 (86,8 %) mais nettement supérieur à o1 (71,8 %).
  • CharXiv (figures scientifiques): o4-mini atteint 72.0%derrière o3 (78,6%) mais au-dessus de o1 (55,1%).

o4-mini benchmarks sur le raisonnement multimodal

Source : OpenAI

AQ générale et raisonnement

Ces ensembles de données testent la capacité à répondre à des questions générales, y compris des questions scientifiques de niveau doctoral et des raisonnements ouverts dans toutes les matières. L'utilisation d'un outil est souvent nécessaire pour obtenir une bonne note.

  • Diamant GPQA: scores de l'o4-mini 81.4%L'o4-mini obtient 81,4%, derrière l'o3 (83,3%) mais au-dessus de l'o1 (78,0%) et de l'o3-mini (77,0%).
  • Le dernier examen de l'humanité:
    • o4-mini (sans outils) : 14.28%
    • o4-mini (avec Python + navigation) : 17.70%
    • Pour le contexte, o3 (avec outils) a obtenu un score de 24.90%et Deep Research ont obtenu un score de 26.60%.

o4-mini benchmarks sur l'assurance qualité générale

Source : OpenAI

O4-Mini vs O3 : Lequel utiliser ?

O4-mini et o3 sont basés sur la même philosophie de conception : des modèles qui peuvent raisonner avec des outils, penser étape par étape et travailler avec du texte, du code et des images. Mais ils sont conçus pour des compromis différents. En bref :

  • Choisir o3 si la précision est votre priorité absolue et que le coût n'est pas une préoccupation majeure.
  • Choisir o4-mini si la vitesse, le volume ou la rentabilité sont plus importants que l'obtention de quelques points de référence supplémentaires.

O3 est globalement plus fort

O3 obtient de meilleurs résultats que o4-mini sur des critères tels que CharXiv, MathVista et Humanity's Last Exam. Il fait également preuve d'une meilleure cohérence pour les tâches complexes qui nécessitent des chaînes de raisonnement plus longues ou une génération de code précise. Si vous travaillez sur des problèmes de recherche, des flux de travail scientifiques ou toute autre chose pour laquelle la précision est plus importante que la vitesse ou le coût, o3 est probablement le choix le plus sûr.

O4-mini est beaucoup moins cher et plus rapide

La différence de prix est importante : o4-mini coûte 1,10 $ pour les intrants et 4,40 $ pour les extrants, contre 10 $ et 40 $ respectivement pour o3. Il s'agit d'une différence de près de 10 fois sur l'ensemble du tableau. Vous bénéficiez également de temps de réponse plus rapides et d'un débit plus élevé, ce qui le rend plus adapté aux environnements de production, aux outils en temps réel ou à tout ce qui fonctionne à grande échelle.

La multimodalité n'est pas un facteur décisif

Les deux modèles sont multimodaux et dotés d'outils. Tous deux prennent en charge Python, la navigation et la vision. Si vous ne recherchez que cet ensemble de fonctionnalités, l'un ou l'autre fera l'affaire.

Comment accéder à o4-mini dans le chatGPT et l'API

Vous pouvez utiliser o4-mini à la fois dans le chatGPT et dans l'API OpenAI, en fonction de votre plan.

Dans ChatGPT

Si vous utilisez ChatGPT avec un abonnement Plus, Pro ou Team, o4-mini est déjà disponible. Dans le sélecteur de modèles, vous trouverez les mentions "o4-mini" et "o4-mini-high".

o4-mini en chatGPT

Elles remplacent les anciennes options o3-mini et o1. Les utilisateurs gratuits peuvent également essayer o4-mini sous une forme limitée en sélectionnant le mode "Think" dans le compositeur avant d'envoyer un message. Notez que :

  • o4-mini est la version rapide par défaut.
  • o4-mini-high fonctionne avec un effort d'inférence accru pour une meilleure qualité au détriment de la vitesse.

Dans l'API

o4-mini est également disponible via l OpenAI API sous les points de terminaison Chat Completions et Responses. Les deux versions (standard et haute) prennent en charge l'utilisation d'outils, y compris la navigation, Python et la saisie d'images, selon la manière dont vous avez configuré votre ensemble d'outils.

L'identifiant du modèle pour l'instantané actuel est o4-mini-2025-04-16 . Le prix est fixé à 1,10 $ par million de jetons d'entrée et à 4,40 $ par million de jetons de sortie, la mise en cache et la mise en lots étant prises en charge. Si vous travaillez avec l'API Responses, vous bénéficiez également d'une visibilité sur les jetons de raisonnement et d'un meilleur contrôle sur l'exécution des outils dans les chaînes à plusieurs étapes.

Conclusion

o4-mini offre de solides performances pour les tâches mathématiques, de codage et multimodales, tout en réduisant les coûts d'inférence d'un ordre de grandeur par rapport à o3. Les tests de référence montrent qu'il tient bien la route, même dans des tâches où les modèles ont généralement des difficultés, comme le raisonnement multimodal ou le codage.

C'est également la première fois qu'un mini-modèle d'OpenAI inclut une prise en charge complète des outils et une multimodalité native. Ce seul fait le place devant o3-mini et o1, qu'il remplace dans la plupart des niveaux du ChatGPT. Et avec l'ajout de o4-mini-high, les utilisateurs ont un peu plus de contrôle sur l'équilibre entre la vitesse et la qualité de la sortie.

La question de savoir si o4-mini est le bon modèle dépend de la tâche à accomplir. Il ne battra pas o3 en termes de capacité brute, mais pour tout ce qui doit fonctionner rapidement, évoluer facilement ou rester dans un budget plus serré, c'est une option solide et, dans de nombreux cas, suffisante.

FAQ

Puis-je affiner les réglages de o4-mini ?

Non. Pour l'instant, le réglage fin n'est pas pris en charge pour o4-mini.

Quels sont les outils pris en charge par o4-mini dans l'API ?

o4-mini fonctionne avec des outils tels que Python, l'analyse d'images et la navigation sur le web, en fonction de la configuration. 

Quelle est la fenêtre contextuelle de o4-mini ?

o4-mini prend en charge une fenêtre contextuelle de 200 000 tokens, avec un maximum de 100 000 tokens en sortie. Cela lui permet de traiter des documents longs, des transcriptions ou des tâches de raisonnement en plusieurs étapes sans troncature.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Je suis rédacteur et écrivain et je couvre les blogs, les tutoriels et les actualités sur l'IA, en m'assurant que tout est conforme à une stratégie de contenu solide et aux meilleures pratiques en matière de référencement. J'ai rédigé des cours de science des données sur Python, les statistiques, les probabilités et la visualisation des données. J'ai également publié un roman primé et je consacre mon temps libre à l'écriture de scénarios et à la réalisation de films.

Sujets

Apprenez l'IA avec ces cours !

Cursus

Développer des applications d'IA

21 heures hr
Apprenez à créer des applications alimentées par l'IA avec les derniers outils de développement d'IA, notamment l'API OpenAI, Hugging Face et LangChain.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow