Accéder au contenu principal

O3 d'OpenAI : Fonctionnalités, comparaison O1, analyses comparatives et plus encore

Découvrez o3 et o3 mini d'OpenAI, y compris leurs principales caractéristiques, les avancées de l'ARC AGI et les innovations en matière de sécurité telles que l'alignement délibératif.
Actualisé 17 avr. 2025  · 8 min de lecture

OpenAI vient de publier le modèle o3 tant attendu. Présentés à l'origine lors de l'événement de Noël de 12 jours de l'entreprise en décembre 2024, o3 et o3-mini ont été positionnés comme une avancée majeure - à tel point qu'OpenAI a entièrement omis "o2", citant une confusion potentielle de la marque avec O2 de Telefonica, mais probablement aussi pour signaler une avancée substantielle par rapport à OpenAI o1.

Après des mois d'allers-retours - y compris un bref détour où l'on disait que o3 était censé être intégré à GPT-5-OpenAI a fait de o3 son nouveau modèle phare. Il surpasse désormais o1 sur presque tous les points de référence, avec un accès complet à l'outil dans le ChatGPT et via l'API.

Lisez la suite pour en savoir plus sur o3 et o3-mini. Si vous souhaitez également en savoir plus sur le dernier modèle, o4-mini, consultez ce guide d'introduction à o4-mini. o4-mini.

Principes fondamentaux de l'OpenAI

Commencez à utiliser l'API OpenAI et plus encore !

Commencez maintenant

Qu'est-ce que l'OpenAI o3 ?

o3 est le dernier modèle frontière d'OpenAI, conçu pour faire progresser les capacités de raisonnement dans une série de tâches complexes telles que le codage, les mathématiques, les sciences et la perception visuelle. 

Le modèle de raisonnement o3 est le premier modèle de raisonnementayant accès à l'utilisationautonomede l'outil . Cela signifie qu'o3 peut utiliser la recherche, Python, la génération d'images et l'interprétation pour accomplir ses tâches. 

Cela s'est traduit par d'excellentes performances sur des benchmarks avancés qui testent la résolution de problèmes dans le monde réel, alors que les modèles précédents avaient du mal à le faire. OpenAI souligne les améliorations apportées par o3 par rapport à o1, le positionnant comme le modèle le plus performant et le plus polyvalent à ce jour. 

O1 vs. O3

o3 s'appuie directement sur les fondements établis par o1, mais les améliorations sont significatives dans des domaines clés. OpenAI a positionné o3 comme un modèle conçu pour traiter des tâches de raisonnement plus complexes, avec des gains de performance reflétés dans ses benchmarks.

Codage

Lorsqu'il a été testé sur des tâches d'ingénierie logicielle, o3 a obtenu une précision de 69,1 % sur le benchmark SWE-Bench Verified Software Engineering, ce qui représente une amélioration substantielle par rapport au score de 48,9 % obtenu par o1.

Test d'ingénierie logicielle vérifiée SWE Bench pour OpenAI o3

Source : OpenAI

De même, dans la programmation compétitive, o3 a atteint un score ELO de 2706, dépassant de loin le précédent record de o1 (1891). En outre, o3 est nettement plus performant dans les tests d'édition de code, les variantes o3 surpassant o1 sur l'ensemble des tests d'édition de code Aider Polyglot.  

Source : OpenAI

Mathématiques et sciences

Les améliorations ne se limitent pas au codage. o3 excelle également dans le raisonnement mathématique, avec un score de 91,6 % de précision à l'AIME 2024, contre 74,3 % pour o1. Il a également obtenu un score de 88,9 % sur l'AIME 2025. Ces progrès suggèrent que le modèle peut traiter des problèmes plus nuancés et plus difficiles, se rapprochant ainsi des critères de référence traditionnellement dominés par les experts humains.

OpenAI o1 vs o3 sur AIME 2024 et AIME 2025 Competition Math benchmark assessment

Source : OpenAI

Le saut est également apparent dans les critères de référence liés aux sciences. Sur le GPQA Diamond, qui mesure les performances sur des questions scientifiques de niveau doctoral, o3 a obtenu une précision de 83,3 %, contre 78 % pour o1. Ces progrès témoignent d'une amélioration générale de la capacité du modèle à résoudre des problèmes techniques exigeants dans toutes les disciplines.

Performances d'OpenAI o3 sur GPQA Diamond

Source : OpenAI

Raisonnement visuel

L'un des aspects les plus frappants du nouveau modèle o3 est sa capacité à raisonner avec des images directement dans sa chaîne de pensée. Cela signifie qu'o3 peut combiner le raisonnement visuel et textuel lors de la résolution de problèmes, ce qui se reflète dans les performances d'o3 sur plusieurs critères de raisonnement visuel.

Source : OpenAI 

Par exemple, o3 surpasse o1 dans une variété de tests de raisonnement visuel, y compris le test de résolution de problèmes visuels MMMU College-level (82,9 % contre 77,6 % pour o1), le test de raisonnement mathématique visuel MathVista (86,8 % contre 71,8 % pour o1), et le test de raisonnement scientifique CharXiv-Reasoning (78,6 % contre 55,1 % pour o1). 

Source : OpenAI

EpochAI : les mathématiques à la frontière

Un domaine dans lequel les progrès d'o3 sont particulièrement remarquables est celui du benchmark EpochAI Frontier Math.

Il est considéré comme l'un des critères de référence les plus difficiles dans le domaine de l'intelligence artificielle, car il se compose de problèmes nouveaux et inédits qui sont intentionnellement conçus pour être beaucoup plus difficiles que les ensembles de données standard. Nombre de ces problèmes relèvent de la recherche mathématique et nécessitent souvent des heures, voire des jours, de travail de la part de mathématiciens professionnels pour résoudre un seul problème. Les systèmes d'IA actuels obtiennent généralement un score inférieur à 2 % sur ce critère, ce qui souligne sa difficulté.

O3 sur EpochAI Frontier Math

O3 sur EpochAI Frontier Math. Source : OpenAI

Epic AI's Frontier Math est important parce qu'il pousse les modèles au-delà de la mémorisation par cœur ou de l'optimisation de modèles familiers. Au contraire, il teste leur capacité à généraliser, à raisonner de manière abstraite et à s'attaquer à des problèmes qu'ils n'ont jamais rencontrés auparavant - des caractéristiques essentielles pour faire progresser les capacités de raisonnement de l'IA. Le score de 25,2 % obtenu par o3 sur ce test de référence est un bond en avant par rapport aux performances antérieures de l'état de l'art. .

La percée d'O3 sur l'ARC AGI

L'une des réalisations les plus marquantes d'o3 est sa performance sur le benchmark ARC AGI, un test largement considéré comme l'étalon-or pour l'évaluation de l'intelligence générale dans l'IA.

Développé en 2019 par François Chollet, ARC (Abstraction and Reasoning Corpus) se concentre sur l'évaluation de la capacité d'une IA à apprendre et à généraliser de nouvelles compétences à partir d'exemples minimaux. Contrairement aux critères de référence traditionnels qui testent souvent les connaissances pré-entraînées ou la reconnaissance des formes, les tâches ARC sont conçues pour pousser les modèles à déduire des règles et des transformations à la volée - des tâches que les humains peuvent résoudre intuitivement mais que l'IA a toujours eu du mal à réaliser.

Ce qui rend l'ARC AGI particulièrement difficile, c'est que chaque tâche requiert des capacités de raisonnement distinctes. Les modèles ne peuvent pas s'appuyer sur des solutions mémorisées ou des modèles ; ils doivent au contraire s'adapter à des défis entièrement nouveaux à chaque test. Par exemple, une tâche peut consister à identifier des modèles dans des transformations géométriques, tandis qu'une autre peut nécessiter un raisonnement sur des séquences numériques. Cette diversité fait de l'ARC AGI une mesure puissante de la capacité d'une IA à penser et à apprendre comme un être humain.

Exemple de tâche du test ARC AGI

Pouvez-vous deviner la logique par laquelle l'entrée est transformée en sortie ? Source : OpenAI

La performance d'o3 sur ARC AGI marque une étape importante. Avec des paramètres de calcul faibles, o3 a obtenu un score de 76 % sur l'ensemble semi-privé, un chiffre bien supérieur à celui de tous les modèles précédents.

Lorsqu'il a été testé avec des paramètres de calcul élevés, il a atteint un taux encore plus impressionnant de 88 %, dépassant le seuil de 85 % souvent cité comme étant une performance de niveau humain. C'est la première fois qu'une IA surpasse les humains sur ce critère, établissant ainsi une nouvelle norme pour les tâches basées sur le raisonnement.

Performance de la série O sur ARC AGI

Source : ArcPrize

Nous pensons que ces résultats sont particulièrement remarquables parce qu'ils démontrent la capacité d'o3 à gérer des tâches qui exigent de l'adaptabilité et de la généralisation plutôt que des connaissances apprises par cœur ou un calcul brutal. Il s'agit d'une indication claire qu'o3 se rapproche d'une véritable intelligence générale, dépassant les capacités spécifiques à un domaine et pénétrant dans des domaines que l'on pensait jusqu'à présent exclusivement humains.

Cela dit, les résultats ci-dessus sont basés sur la version d'o3 partagée lors de l'événement des 12 jours de Noël d'OpenAI en décembre, et OpenAI a confirmé que la nouvelle version d'o3 est différente de celle présentée dans les tests ci-dessus. ARC AGI publiera bientôt les résultats actualisés des performances d'o3. 

o3 Innovations techniques

Une telle amélioration des performances n'est pas le fruit du hasard. L'équipe d'OpenAI a réalisé quelques percées pour atteindre ce type de chiffres :

Innovations en matière d'apprentissage par renforcement

OpenAI a constaté que l'augmentation du budget de calcul pendant la formation à l'apprentissage par renforcement améliorait les performances du modèle, reproduisant ainsi le comportement de mise à l'échelle observé avec la préformation supervisée dans les modèles GPT. Mais cette fois, au lieu d'optimiser la prédiction du mot suivant, o3 apprend en maximisant les récompenses de l'apprentissage par renforcement, souvent par le biais d'environnements enrichis d'outils.

En d'autres termes, OpenAI traite l'apprentissage par renforcement comme un préapprentissage, en augmentant la durée et le nombre de calculs, et cela semble fonctionner. Cela permet d'acquérir des compétences qui bénéficient d'une planification à long terme et d'un raisonnement séquentiel, comme la programmation compétitive et les preuves mathématiques en plusieurs étapes. Lorsqu'ils sont associés à l'utilisation d'outils, les gains de performance deviennent encore plus évidents.

Innovations en matière de raisonnement visuel

o3 montre également des améliorations significatives en matière de raisonnement visuel. Il ne se contente pas de comprendre les images, il les intègre directement dans sa boucle de raisonnement. Il s'agit d'interpréter, de manipuler et de réinspecter des images tout en résolvant des problèmes. C'est l'une des raisons pour lesquelles o3 obtient de bons résultats dans les tâches impliquant des figures scientifiques, des diagrammes mathématiques et même la programmation à partir de photos.

L'une des principales innovations réside dans la manière dont o3 conserve l'image brute en mémoire tout au long de son processus de raisonnement. Au lieu de traiter une légende statique et de rejeter l'image, il peut zoomer, faire pivoter ou revisiter différentes parties de l'image à la demande à l'aide d'outils. Cela rend son raisonnement plus dynamique et lui permet de s'attaquer à des données visuelles plus désordonnées, comme un tableau blanc flou, un diagramme dessiné à la main ou une photo du programme d'une conférence.

Dans un exemple, OpenAI a utilisé o3 pour lire une image de faible qualité d'un programme de spectacle et planifier un itinéraire qui intègre chaque événement avec des pauses de dix minutes entre les deux, ce qui nécessiterait à la fois l'analyse de la présentation visuelle et l'application de contraintes en temps réel.

OpenAI o3 problème de raisonnement visuel avec conflits d'horaires

Nous avons voulu tester les compétences visuelles avec un petit test de notre cru. Nous avons d'abord donné à o1 un dessin rudimentaire et lui avons demandé : "Quelle fractale commençons-nous à dessiner ?". 

tester le raisonnement visuel de l'OpenAI o3 avec un dessin

o1 a répondu de manière incorrecte. o3, en revanche, a eu raison : Il nous a indiqué que nous commencions à dessiner la courbe du dragon. Il s'agissait d'un petit test, mais nous avons été impressionnés par le résultat, car nous n'avions pas donné beaucoup d'éléments à o3.

Analyse du raisonnement visuel de l'OpenAI o3 pour un dessin fractal

Innovations en matière d'efficacité des coûts

Il est intéressant de noter que le rapport coût/performance est meilleur avec o3. En d'autres termes, les performances sont plus élevées pour les mêmes niveaux de coût d'inférence. Cela pourrait être dû à des optimisations architecturales qui améliorent le débit des jetons et réduisent la latence. Le coût a été un grand sujet de discussion depuis que le Deepseek-R1 a annoncé des performances très élevées pour une fraction du coût du ChatGPT.

o1 vs o3 coût vs performance

Qu'est-ce que o3 Mini ?

Depuis avril 2025 , o3-mini a été entièrement remplacé par o4-mini dans ChatGPT et l'API. o4-mini offre de meilleures performances sur la plupart des benchmarks, ajoute la saisie multimodale native, et conserve la compatibilité avec les outils - tout en restant plus rapide et plus abordable qu'o3. En effet, o4-mini reprend le rôle que o3-mini a été conçu pour remplir. Le contenu ci-dessous reste toutefois valable pour o3-mini.

o3-mini a été introduit parallèlement à o3 en tant qu'alternative économique conçue pour apporter des capacités de raisonnement avancées à un plus grand nombre d'utilisateurs tout en maintenant les performances. L'OpenAI a décrit o3-mini comme redéfinissant la "frontière coût-performance" dans les modèles de raisonnement, le rendant accessible pour les tâches qui exigent une grande précision mais qui doivent tenir compte des contraintes de ressources.

L'une des caractéristiques les plus remarquables d'o3-mini est son temps de réflexion adaptatif, qui permet aux utilisateurs d'ajuster l'effort de raisonnement du modèle en fonction de la complexité de la tâche. Pour les problèmes plus simples, les utilisateurs peuvent sélectionner pour un raisonnement à faible effort afin de maximiser la vitesse et l'efficacité.

Pour les tâches plus complexes, des options de raisonnement plus poussées permettent au modèle d'atteindre des niveaux de performance comparables à ceux d'o3, mais à une fraction du coût. Cette flexibilité est particulièrement intéressante pour les développeurs et les chercheurs qui travaillent sur différents cas d'utilisation.

Benchmarks O3 mini

Source : OpenAI

La démonstration en direct a montré comment o3-mini tient ses promesses. Par exemple, dans une tâche de codage, o3-mini a été chargé de générer un script Python pour créer un serveur local avec une interface utilisateur interactive pour les tests. Malgré la complexité de la tâche, le modèle a donné de bons résultats, démontrant ainsi sa capacité à relever les défis de la programmation.

Interface interactive créée avec o3 mini lors de la démonstration en direct

Source : OpenAI

Nous considérons o3-mini comme une solution pratique pour les scénarios où la rentabilité et la performance doivent s'aligner.

o3 - Mise à jour des tests de sécurité

Il a fallu un peu plus de temps pour que l'O3 devienne disponible, et certaines des raisons pourraient être liées aux innovations en matière de sécurité.

Redéfinition de la formation au refus

OpenAI a déclaré avoir reconstruit ses ensembles de données de formation à la sécurité et introduit des milliers de messages de refus ciblés. Ils ont cité des catégories spécifiques : menaces biologiques, génération de logiciels malveillants et techniques de piratage de prison. Ces données de formation actualisées ont permis à o3 de démontrer une forte précision de refus sur des critères de référence internes, tels que la gestion de la hiérarchie des instructions et la résilience au jailbreak. Pour ce faire, OpenAI aurait demandé à des membres de son équipe de passer un millier d'heures à signaler les contenus dangereux.

Suivi avec raisonnement des LLM

OpenAI a également mis en œuvre un moniteur LLM basé sur le raisonnement (ce qu'ils appellent un "moniteur de raisonnement axé sur la sécurité"). Ainsi, en plus d'entraîner le modèle à dire "non" aux invites dangereuses, l'OpenAI a introduit une couche de sécurité supplémentaire, qui est un LLM basé sur le raisonnement. Il s'agit d'un modèle de surveillance fonctionnant en parallèle, formé spécifiquement pour analyser l'intention et les risques potentiels des entrées de l'utilisateur, en s'appuyant sur des règles de sécurité écrites par l'homme.

Alignement délibératif

OpenAI a adopté une approche proactive des tests de sécurité pour o3 et o3 mini en ouvrant l'accès aux chercheurs pour des évaluations de sécurité publique avant la publication complète des modèles.

Un élément central de la stratégie de sécurité d'OpenAI pour o3 est l'alignement délibératif, une méthode qui va au-delà des approches de sécurité traditionnelles. Le graphique ci-dessous montre en quoi l'alignement délibératif diffère d'autres méthodes telles que la RLHF (Reinforcement Learning with Human Feedback), RLAIF (Reinforcement Learning with AI Feedback), et les techniques de raffinement en temps d'inférence comme Self-REFINE.

alignement délibératif vs rlhf vs rlaif vs techniques de raffinement par inférence

Source : OpenAI

Dans l'alignement délibératif, le modèle ne se contente pas de s'appuyer sur des règles statiques ou des ensembles de données de préférences pour déterminer si une invite est sûre ou non. Au lieu de cela, il utilise ses capacités de raisonnement pour évaluer les messages en temps réel. Le graphique ci-dessus illustre ce processus :

  1. Génération de données d'apprentissage: Contrairement à la RLHF, où les données humaines informent directement le modèle, l'alignement délibératif utilise un modèle de raisonnement pour générer des chaînes de pensée (CoT). chaîne de pensée (CoT) pour des invites spécifiques. Ces sorties CoT fournissent des modèles de raisonnement nuancés qui guident le processus de formation, aidant le modèle à comprendre le contexte et l'intention de manière plus efficace.
  2. Temps d'inférence: Pendant l'inférence, le modèle de raisonnement évalue les invites et fournit une explication de la chaîne de pensée en même temps que ses réponses. Cette étape permet au modèle d'évaluer de manière dynamique l'intention et le contexte d'une invite, en identifiant les risques cachés potentiels ou les ambiguïtés que les règles statiques pourraient manquer.

OpenAI s'attend à ce que nous voulions continuer à nous informer sur la sécurité. En prévision de cela, ils ont publié leur Cadre de préparation avec ses idées sur l'évaluation et la protection contre les dommages graves.

Qu'en est-il d'o3-Pro ?

Dans le sélecteur de modèles du ChatGPT, vous verrez maintenant o3 et o4-mini disponibles. Selon l'annonce d'OpenAI, o3-pro devrait être lancé dans les prochaines semaines. Il comprendra les mêmes fonctionnalités d'utilisation d'outils - telles que Python, la navigation et l'analyse d'images - que les autres modèles de la série o.

Si vous souhaitez être tenu au courant de la disponibilité d'o3-pro, inscrivez-vous à la newsletter de DataCamp, The Median, et nous vous tiendrons au courant dès qu'elle sera disponible.

Conclusion

O3 et o3 mini mettent en évidence la complexité croissante des systèmes d'IA et les défis liés à leur diffusion de manière responsable. Bien que les données de référence soient impressionnantes, nous nous intéressons davantage aux questions que ces modèles soulèvent : Dans quelle mesure continueront-ils à fonctionner dans des scénarios réels ? Les mesures de sécurité sont-elles suffisamment robustes pour traiter les cas extrêmes à grande échelle ?

Pour nous, o3 et o3 mini sont des signes précurseurs de systèmes d'intelligence artificielle qui se rapprochent d'une plus grande autonomie. Leur raisonnement et leur capacité d'adaptation impressionnants suggèrent de passer d'outils que nous utilisons à des agents qui agissent en notre nom. Que se passe-t-il lorsque ces systèmes effectuent des tâches ouvertes sans intervention humaine ? Comment évaluer les modèles qui génèrent leurs propres objectifs, et pas seulement leurs résultats ?

Si vous souhaitez explorer d'autres sujets liés à l'IA, nous vous recommandons :

FAQ

Qu'est-ce que l'OpenAI o3 et en quoi est-elle différente de l'o1 ?

o3 est la dernière itération des modèles de raisonnement d'OpenAI. Par rapport à l'OpenAI o1, les modèles o3 et o3-mini affichent de meilleures performances dans les tâches de raisonnement, y compris le codage, l'analyse scientifique et les capacités de percée dans de nouvelles tâches.

L'OpenAI o3 est-elle multimodale ?

Pour l'instant, aucune annonce n'a été faite concernant les capacités multimodales d'o3.

Quelle est la différence entre OpenAI o3 et o3-mini ?

Tout comme OpenAI O1 et O1-mini, OpenAI O3-mini devrait être légèrement moins performant qu'O3, mais plus rentable à exécuter et à utiliser. 


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Je suis rédacteur et écrivain et je couvre les blogs, les tutoriels et les actualités sur l'IA, en m'assurant que tout est conforme à une stratégie de contenu solide et aux meilleures pratiques en matière de référencement. J'ai rédigé des cours de science des données sur Python, les statistiques, les probabilités et la visualisation des données. J'ai également publié un roman primé et je consacre mon temps libre à l'écriture de scénarios et à la réalisation de films.


Adel Nehme's photo
Author
Adel Nehme

Adel est un éducateur, conférencier et évangéliste en science des données à DataCamp où il a publié plusieurs cours et formations en direct sur l'analyse des données, l'apprentissage automatique et l'ingénierie des données. Il est passionné par la diffusion des compétences en matière de données dans les organisations et par l'intersection de la technologie et de la société. Il est titulaire d'une maîtrise en science des données et en analyse commerciale. Pendant son temps libre, vous pouvez le trouver en train de traîner avec son chat Louis.


Josef Waples's photo
Author
Josef Waples

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs ! 

Sujets

Apprenez l'IA avec ces cours ! 

Cursus

ChatGPT Fondamentaux

3 heures hr
Explorez les éléments essentiels du chatGPT et de l'ingénierie d'invite. Maîtrisez les messages-guides pour optimiser les capacités du ChatGPT.
Afficher les détailsRight Arrow
Commencer le cours
Certification disponible

Cours

Travailler avec l'API OpenAI

3 hr
47.2K
Commencez à développer des applications basées sur l'IA avec l'API OpenAI. Découvrez les fonctionnalités sur lesquelles reposent les applications d'IA les plus populaires, comme le ChatGPT.
Voir plusRight Arrow