Accéder au contenu principal

La recherche approfondie d'OpenAI : Un guide avec des exemples pratiques

Découvrez le nouvel outil Deep Research d'OpenAI, qui permet d'effectuer des recherches approfondies en plusieurs étapes.
Actualisé 5 févr. 2025  · 8 min de lecture

OpenAI vient de publier Deep Research, un agent d'intelligence artificielle basé sur une version du futur modèle modèle o3. Il est conçu pour naviguer sur le web, analyser plusieurs sources et synthétiser de grandes quantités d'informations.

Vous vous posez peut-être la question : Le ChatGPT ne fait-il pas déjà cela ?

Contrairement à une session normale de ChatGPT qui génère des réponses rapides, Deep Research peut mener des enquêtes en plusieurs étapes, référencer plusieurs sources et produire des rapports structurés.

Par exemple, si vous avez déjà recherché la meilleure voiture à acheter - en comparant les avis, en évaluant les coûts, etc. - vous savez que la recherche d'informations fiables prend du temps et nécessite beaucoup de navigation sur l'internet. Deep Research est conçu exactement pour ce type de travail.

J'ai testé Deep Research et j'ai été à la fois surpris et déçu. Il présente un grand potentiel, mais il produit également des faits et des déductions erronés. Dans ce blog, je serai votre agent humain et je résumerai tout ce que vous devez savoir sur la recherche approfondie. Je vous présenterai des exemples pratiques, des conseils sur l'incitation et je vous montrerai où la recherche en profondeur est la plus efficace et où vous devez faire preuve d'une grande prudence.

Qu'est-ce que la recherche approfondie d'OpenAI ?

Deep Research d'OpenAI est un agent piloté par l'IA conçu pour effectuer des recherches approfondies en plusieurs étapes sur l'internet. Contrairement aux capacités de navigation standard du ChatGPT, qui fournissent des réponses rapides, Deep Research trouve, analyse et synthétise de manière autonome des informations provenant de centaines de sources en ligne.

DeepResearch d'OpenAI est accessible depuis le chat.

Deep Research s'adresse à tous ceux qui ont besoin d'une recherche complète et fiable :

  • les professionnels de la finance, de la science, de la politique et de l'ingénierie qui ont besoin de rapports structurés et bien cités
  • Les stratèges d'entreprise qui effectuent des analyses concurrentielles ou des prévisions de tendances
  • Chercheurs et étudiants recueillant des informations à partir de sources multiples
  • Les acheteurs et les consommateurs qui prennent des décisions d'achat importantes (voitures, appareils électroménagers, immobilier, etc.)
  • Rédacteurs, journalistes et analystes qui ont besoin d'informations vérifiées par les faits et provenant de sources multiples.

Essentiellement, si une tâche implique de parcourir plusieurs sources, de recouper des données et de synthétiser des informations dans un format utile, Deep Research est l'outil qu'il vous faut.

Comment fonctionne la recherche approfondie ?

Alimenté par une version du modèle o3 à venir, Deep Research s'appuie sur les avancées d'OpenAI en matière de modèles de raisonnement, mais est spécifiquement optimisé pour la navigation sur le web et l'analyse de données du monde réel.

Pour ce faire, OpenAI a formé Deep Research à l'aide de l'apprentissage par renforcement. apprentissage par renforcement sur des tâches réelles de navigation et de raisonnement. Cela permet au modèle de suivre un processus de recherche itératif, étape par étape, améliorant ainsi sa capacité à synthétiser des sujets complexes dans des rapports structurés.

Critères de référence pour la recherche approfondie

Le dernier examen de l'humanité

Le dernier examen de l'humanité est un nouvel outil de référence conçu pour tester l'IA sur des questions à choix multiples et à réponses courtes de niveau expert dans plus de 100 domaines, de la linguistique à la science des fusées, en passant par l'écologie et les mathématiques. Cette évaluation mesure la capacité d'une IA à raisonner entre les disciplines et à rechercher des connaissances spécialisées en cas de besoin - une compétence essentielle pour les modèles orientés vers la recherche.

Deep Research a atteint une précision record de 26,6 %, dépassant de loin les modèles précédents, notamment o1 d'OpenAI (9,1 %), DeepSeek-R1 (9,4 %) et Claude 3.5 Sonnet (4,3 %). Notamment, les améliorations les plus importantes par rapport à l'o1 d'OpenAI ont été observées en chimie, en sciences humaines et en sciences sociales, ainsi qu'en mathématiques, où Deep Research a démontré sa capacité à décomposer des questions complexes et à extraire des informations faisant autorité.

Modèle

Précision (%)

GPT-4o

3.3

Claude 3.5 Sonnet

4.3

Réflexion des Gémeaux

6.2

OpenAI o1

9.1

DeepSeek-R1*

9.4

OpenAI o3-mini (haut)*

13.0

OpenAI Deep Research (avec navigation + outils Python)

26.6

* Modèles testés dans le sous-ensemble texte seul de l'examen parce qu'ils ne sont pas multimodaux. Source : OpenAI

GAIA

GAIA (General AI Agent benchmark) évalue la manière dont les systèmes d'intelligence artificielle traitent les questions du monde réel, en combinant le raisonnement, la navigation sur le web, la fluidité multimodale et la maîtrise de l'utilisation d'outils.

Deep Research a établi un nouveau record de l'état de l'art (SOTA), en prenant la tête du classement externe de GAIA. GAIA externe grâce à ses excellentes performances à tous les niveaux de difficulté. Le modèle a fait preuve d'une précision particulièrement élevée dans les tâches de niveau 3, qui nécessitent une recherche complexe en plusieurs étapes et une synthèse sur le site .

Évaluation de GAIA

Niveau 1

Niveau 2

Niveau 3

Moyenne

Précédent SOTA

67.92%

67.44%

42.31%

63.64%

Recherche approfondie (pass@1)

74.29%

69.06%

47.6%

67.36%

Recherche approfondie (cons@64)

78.66%

73.21%

58.03%

72.57%

Source : OpenAI

Lescoreélevé de réussite@1de Deep Research montre que même sa première tentative de réponse à une question GAIA est plus précise que les modèles précédents. Lescore cons@64 (qui mesure la performance avec des tentatives de réponses multiples) souligne en outre sa capacité à s'auto-corriger et à affiner ses réponses sur la base de nouvelles informations.

Évaluations internes

OpenAI a également procédé à des évaluations internes, au cours desquelles Deep Research a été évalué par des experts du domaine sur des tâches de niveau expert. J'ai trouvé les évaluations internes très intéressantes !

Le graphique ci-dessous montre que le taux de réussite du modèle augmente au fur et à mesure qu'il effectue des appels d'outils. Cela souligne l'importance de le laisser parcourir et analyser les informations de manière itérative - lui donner plus de temps pour réfléchir permet d'obtenir de meilleurs résultats.

taux de réussite par rapport au graphique des appels d'outils maximaux pour la recherche approfondie de l'openai

Source : OpenAI

Examinons un autre graphique - voir ci-dessous. La recherche approfondie donne les meilleurs résultats pour les tâches dont la valeur économique estimée est faible, la précision diminuant au fur et à mesure que l'impact financier potentiel de la tâche augmente. Cela suggère que les tâches les plus importantes d'un point de vue économique ont tendance à être plus complexes ou à reposer sur des connaissances exclusives qui ne sont pas largement accessibles en ligne.

graphique du taux de réussite par rapport à la valeur économique estimée pour la recherche approfondie de l'openai

Source : OpenAI

Le graphique ci-dessous met en regard les taux de réussite et le nombre d'heures estimées qu'il faudrait à un être humain pour accomplir chaque tâche. Le modèle est le plus performant pour les tâches qui prendraient de 1 à 3 heures à une personne, mais les performances ne diminuent pas de façon constante avec le temps, ce qui indique que ce que l'IA trouve difficile ne correspond pas toujours à ce que les humains trouvent chronophage.

Source : OpenAI

Comment utiliser la recherche approfondie : Exemples pratiques

Au moment de la publication de cet article, Deep Research n'est disponible que pour les utilisateurs Pro, avec une limite de 100 requêtes par mois, mais OpenAI prévoit d'étendre l'accès aux utilisateurs Plus, Team et Enterprise prochainement.

À mon avis, la recherche en profondeur en est encore à ses débuts. Bien qu'il soit très prometteur, le premier exemple ci-dessous met en évidence un grand nombre de ses problèmes. Cependant, le deuxième exemple démontre son immense potentiel.

Exemple 1 : Écosystèmes d'IA

Je m'efforce constamment d'obtenir une vue d'ensemble des écosystèmes d'IA des différentes entreprises. Prenez Google, par exemple - ils ont Gemini 2.0 Flash, Imagen 3, Veo 2, Project Mariner, Project Astra... qu'est-ce qui me manque encore ? Afin d'obtenir une vue d'ensemble claire, j'ai demandé à l'équipe Deep Research de l'OpenAI de répondre à cette question.

Exemple de discussion avec Deep Research d'OpenAI 

Notez que le modèle n'a pas commencé la recherche directement, mais a demandé des clarifications. Dans tous mes tests, quelle que soit la spécificité de ma première demande, le modèle a toujours tenté de restreindre sa recherche. C'est utile, à mon avis, parce que je pense souvent que mon message est clair et précis, mais qu'il gagnerait à être affiné.

J'ai répondu aux questions du modèle et la recherche a commencé. Un panneau s'ouvre sur le côté droit du navigateur, montrant l'activité et les sources de l'agent en temps réel :

Cela a pris 11 minutes et le modèle a consulté 25 sources. Notez qu'une source est un site web parent et que le modèle peut parcourir plusieurs pages de ce site web - pour 25 sources et une moyenne de quatre pages par source, vous pouvez vous attendre à ce que le modèle ait parcouru environ 100 pages web.

Il a fallu 11 minutes à Deep Research d'OpenAI pour effectuer la recherche.

Dans l'ensemble, j'ai été déçu par le résultat - vous pouvez lire la réponse de Deep Research ici. Mais commençons par ce que j'ai aimé :

  • Même si je n'ai pas spécifié de structure, la réponse était bien organisée, avec des sections claires, une utilisation appropriée des caractères gras, de la taille de la police et des puces.
  • Les sources sont bien placées, apparaissant juste après les informations auxquelles elles se réfèrent, et ce système facilite la vérification des faits.
  • Le rapport a trouvé un bon équilibre entre les détails et la longueur - il n'est pas superficiel, mais il n'est pas non plus à lire en une heure. Je peux toujours demander plus de détails si j'ai besoin d'en savoir plus.

Cependant, la réponse comportait plusieurs problèmes, et je me concentrerai sur les principaux d'entre eux :

  • Les inexactitudes : Il a confondu DeepSeek-V3 avec DeepSeek-R1 (n'oubliez pas que vous pouvez lire la réponse vous-même ici).
  • Informations périmées : Bien que j'aie spécifiquement demandé un rapport actualisé, Deep Research a affirmé que le dernier modèle de Meta était Llama 2 et que le dernier modèle d'Anthropic était Claude 2, en mentionnant des rumeurs sur quelque chose qui aurait un "nom de code" Sonnet et Haiku. J'ai d'abord trouvé cela amusant, puis j'ai pensé au nombre de personnes qui pourraient prendre ces réponses au pied de la lettre.
  • Faible respect des délais : J'ai explicitement demandé à Deep Research d'exclure le GPT-4 et de se concentrer sur les modèles les plus récents, mais il n'a pas suivi cette instruction.
  • Réponses incomplètes : La section OpenAI n'a pas mentionné des modèles clés comme o1, et dans la section Google, elle a complètement omis Veo.

Ces problèmes font qu'il est difficile de faire confiance à la recherche approfondie d'OpenAI. Je l'ai délibérément testé sur un sujet que je connais bien, afin de pouvoir vérifier les faits. Mais que se passerait-il si je devais faire appel à Deep Research pour un sujet que je ne connais pas du tout ?

Exemple 2 :  Un sujet toujours d'actualité

Le problème de la recherche approfondie est peut-être qu'elle n'est pas encore très efficace pour identifier les informations les plus récentes. J'ai donc décidé de le tester sur un sujet plus pérenne, qui ne dépend pas autant des évolutions récentes.

Je conduis une voiture construite en 2013 et j'envisage parfois de la remplacer. Mais je suis toujours confronté à la même question : dois-je acheter du neuf ou de l'occasion ? Une voiture neuve se déprécie rapidement, mais une vieille voiture peut entraîner des frais de réparation plus élevés. Je souhaite connaître l'avis des experts à ce sujet. C'était donc une excellente occasion de demander à Deep Research de parcourir diverses études et opinions et de rédiger un rapport.

Avant d'aller plus loin, permettez-moi de vous donner un conseil : avant de demander une recherche approfondie, optimisez votre demande à l'aide de la méthode d'apprentissage à distance que vous avez choisie. Commencez par "Vous êtes un ingénieur rapide. Aidez-moi à optimiser ce message : (votre message ici)". Voici le message optimisé que j'ai utilisé pour Deep Research :

Comme auparavant, Deep Research a demandé des éclaircissements avant de commencer et a terminé la recherche en six minutes, en consultant de nombreuses pages web à travers 12 sources. Vous pouvez lire le rapport complet ici.

Cette fois, le rapport est bon, très bon !

Je n'aurais jamais imaginé que vous puissiez envisager ce problème sous autant d'angles. L'étendue des informations était impressionnante et, selon mes estimations, Deep Research m'a permis d'économiser plus de 10 heures de navigation et de recherche. Il s'est appuyé sur des études universitaires, des rapports sectoriels, des analyses des tendances du marché, des comparaisons de coûts d'assurance, etc.

Je ne suis pas un expert dans ce domaine, je ne peux donc pas évaluer pleinement l'exactitude du rapport. Toutefois, du point de vue du consommateur, de nombreuses informations sont logiques et réellement utiles. J'ai également vérifié quelques détails par rapport aux sources citées et je n'ai rien trouvé à redire.

Comme dans le premier exemple, la profondeur était bien équilibrée et la structure de sortie était excellente. J'ai particulièrement apprécié le tableau ci-dessous - il suffit de regarder ces valeurs de dépréciation pour comprendre pourquoi je vais conserver mon hybride de 12 ans pendant un certain temps.

exemple de sortie structurée dans la recherche approfondie de l'openai

Conclusion

La recherche en profondeur d'OpenAI est très prometteuse et peut nous faire gagner beaucoup de temps en matière de recherche. Cependant, il n'est toujours pas fiable lorsqu'il s'agit d'informations actualisées, produisant parfois des faits incorrects ou des déductions erronées.

Je continue de penser que Deep Research en est encore à ses débuts, et l'équipe d'OpenAI le reconnaît ouvertement dans son article d'annonce.

Honnêtement, je reviendrai à Deep Research, et j'espère qu'il s'améliorera de plus en plus.

FAQ

Deep Research est-il disponible sur les appareils mobiles ?

À l'heure actuelle, Deep Research n'est disponible que dans la version web de bureau de ChatGPT, mais OpenAI a annoncé une prise en charge mobile dans le courant du mois.

Deep Research peut-elle travailler sur des sujets très techniques ou de niche ?

Oui, mais son exactitude dépend de la disponibilité de sources en ligne fiables. Dans les domaines de niche où la documentation est limitée, il peut avoir du mal à produire des résultats de haute qualité.

Comment Deep Research se compare-t-il à l'outil de navigation standard du ChatGPT ?

Contrairement à la navigation normale, la recherche approfondie mène des investigations en plusieurs étapes, en référençant plusieurs sources, en analysant les informations et en produisant des rapports structurés plutôt que des réponses rapides.

La recherche approfondie sera-t-elle mise à la disposition des utilisateurs du niveau gratuit ?

OpenAI n'a pas annoncé son intention de mettre Deep Research à la disposition des utilisateurs de niveau libre. Il est actuellement réservé aux utilisateurs Pro, mais il est prévu de l'étendre aux comptes Plus, Team et Enterprise.

Quelle est la différence entre Deep Research d'OpenAI et Deep Research de Google ?

Deep Research d'OpenAI et Deep Research de Google mènent tous deux des enquêtes en ligne en plusieurs étapes, mais diffèrent dans leur exécution. La version d'OpenAI, alimentée par un modèle basé sur o3, se concentre sur les rapports structurés, le raisonnement et l'analyse de données basée sur Python, mais a lutté avec une précision actualisée. Cela prend de 5 à 30 minutes par rapport et est actuellement limité aux utilisateurs Pro du ChatGPT. Deep Research de Google, intégré à Gemini, utilise Google Search pour la recherche d'informations en temps réel, ce qui permet d'effectuer des recherches en 5 à 10 minutes. Si la version d'OpenAI excelle dans l'analyse approfondie, celle de Google est peut-être plus efficace pour trouver les sources les plus récentes et faisant autorité.

Sujets

Apprenez l'IA avec ces cours !

cursus

Principes de l'IA

10 heures hr
Découvrez les fondamentaux de l'IA, plongez dans des modèles comme ChatGPT et décodez les secrets de l'IA générative pour naviguer dans le paysage dynamique de l'IA.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow