Accéder au contenu principal

Opérateur d'OpenAI : Exemples, cas d'utilisation, concurrence et plus encore

Découvrez OpenAI Operator, un agent d'intelligence artificielle utilisant le nouveau modèle Computer-Using Agent (CUA), capable de naviguer sur des sites web et d'effectuer des tâches de manière autonome.
Actualisé 24 janv. 2025  · 8 min de lecture

OpenAI a récemment annoncé Operator, un agent d'IA conçu pour effectuer seul des tâches sur le web. Il peut prendre en charge des tâches telles que la réservation d'un tableau ou les achats en ligne, simplifiant ainsi les interactions numériques pour les tâches quotidiennes.

Cependant, nous pensons que son potentiel va au-delà de la commodité : il pourrait permettre aux personnes qui n'ont pas de compétences informatiques d'accomplir des tâches telles que remplir des formulaires ou naviguer sur des sites web complexes en toute simplicité.

En outre, avec une intégration plus poussée des commandes vocales, il pourrait constituer une solution plus accessible pour les personnes handicapées, notamment celles souffrant de déficiences visuelles.

L'opérateur entre dans un domaine concurrentiel qui comprend Anthropic et le projet Mariner de Google. d'Anthropic et le projet Mariner de Google. L'une des différences est que les outils d'Anthropic nécessitent des connaissances en programmation (pour l'instant), alors qu'Operator permet aux utilisateurs de fournir des instructions en langage simple, ce qui le rend plus accessible.

Dans ce blog, nous expliquerons ce qu'est Operator, nous explorerons sa technologie de base (CUA), nous décrirons ses cas d'utilisation et ses limites, et nous discuterons de sa place dans le contexte plus large des agents d'intelligence artificielle.

Qu'est-ce qu'un opérateur ?

Operator est le premier agent d'IA d'OpenAI, conçu pour effectuer de manière autonome des tâches sur le web. Un agent d'intelligence artificielle est un système capable de recevoir des instructions, de les analyser et d'exécuter des actions sans surveillance humaine permanente.

Contrairement aux outils d'automatisation traditionnels qui s'appuient sur des API prédéfinies ou des flux de travail rigides, Operator interagit directement avec les sites web, imitant les actions humaines telles que le clic, la frappe et le défilement. Son objectif principal est de simplifier les tâches numériques qui pourraient autrement nécessiter un effort manuel ou une expertise technique.

Il est donc parfaitement adapté aux activités quotidiennes telles que la gestion des réservations ou le remplissage de formulaires, ainsi qu'aux flux de travail plus complexes à plusieurs étapes. Voici un exemple d'utilisation de l'opérateur :

Source : OpenAI

L'opérateur utilise un navigateur virtuel pour naviguer sur les sites web. Cet environnement virtuel lui permet d'interagir avec les interfaces utilisateur graphiques (IUG) comme le ferait un utilisateur humain. Au lieu d'exiger des sites web qu'ils disposent d'API spécialisées, Operator interprète la présentation visuelle d'une page web, clique sur des boutons, saisit des champs et fait défiler le contenu.

L'opérateur s'appuie sur des instructions en langage clair pour comprendre les besoins des utilisateurs. Une fois la tâche définie, il traite les instructions, les décompose en étapes exploitables et les exécute tout en fournissant un retour d'information à l'utilisateur. L'opérateur peut également demander des éclaircissements ou des confirmations pour des actions critiques, telles que l'envoi d'un formulaire ou l'exécution d'un paiement, ce qui lui permet de mieux contrôler ses résultats.

Qu'est-ce qu'un agent utilisateur d'ordinateur (AUE) ?

L'agent d'utilisation de l'ordinateur (AUE) est la technologie de base de l'opérateur. En combinant les capacités de vision de GPT-4o avec un raisonnement avancé par l'apprentissage par renforcementL'AUC est entraînée à interagir avec des interfaces utilisateur graphiques, c'est-à-dire des boutons, des menus et des champs de texte que l'on voit sur un écran.

Perception

L'AUC commence par traiter des données brutes de pixels provenant de captures d'écran. Il utilise ces informations visuelles pour identifier les éléments clés de l'interface tels que les boutons, les champs de saisie et les menus de navigation.

Source : OpenAI

Raisonnement

Une fois les données visuelles analysées, l'AUC applique un raisonnement en chaîne pour planifier ses actions. En intégrant les captures d'écran actuelles et passées, il évalue ses observations, divise les tâches en petites étapes et s'adapte dynamiquement aux défis. Par exemple, si une fenêtre contextuelle apparaît au cours d'une tâche (comme la publicité que nous avons vue dans l'exemple ci-dessus), l'AUC peut ajuster son approche et trouver un moyen de continuer, comme le ferait un utilisateur humain.

Action

L'AUC utilise la souris et le clavier virtuels pour effectuer des actions telles que cliquer, taper, faire défiler et soumettre des formulaires. Cette fonctionnalité lui permet d'exécuter des tâches de manière autonome, qu'il s'agisse de sélectionner un élément dans un menu déroulant ou de naviguer dans un formulaire à plusieurs étapes.

Pour les actions critiques, telles que les paiements ou la connexion à des comptes, CUA demande la confirmation de l'utilisateur avant de procéder, ce qui garantit que les utilisateurs gardent le contrôle sur les opérations sensibles.

Critères de référence de l'AUC

L'AUC a atteint des performances de pointe (SOTA) sur plusieurs critères de référence:

Type d'indice de référence Référence Utilisation de l'ordinateur (interface universelle) Agents de navigation sur le web Humain
    OpenAI CUA Précédent SOTA Précédent SOTA  
Utilisation de l'ordinateur OSWorld 38.1% 22.0%   72.4%
Utilisation du navigateur WebArena 58.1% 36.2% 57.1% 78.2%
WebVoyager 87.0% 56.0% 87.0%  

 Source : OpenAI

Voyonsce que fait chacun de ces trois points de référence :

  • OSWorld (38,1%) : Évalue la capacité à effectuer des tâches dans des systèmes d'exploitation complets tels qu'Ubuntu, Windows et macOS. Bien que l'AUC soit plus performante que les modèles précédents, son taux de réussite reste inférieur à la référence humaine de 72,4 %.
  • WebArena (58,1%) : Évalue la performance dans la navigation sur des sites web simulés, y compris le commerce électronique et les plateformes sociales. Bien qu'il surpasse les modèles précédents, il est possible de l'améliorer dans la gestion des interactions complexes à plusieurs étapes.
  • WebVoyager (87%) : Mesure l'efficacité sur des sites web tels qu'Amazon, GitHub et Google Maps. L'AUC obtient de bons résultats dans ce domaine, car les tâches ont tendance à être plus simples et plus structurées que celles de WebArena.

Le graphique ci-dessous illustre les performances de l'AUC d'OpenAI par rapport à Claude 3.5 Sonnet sur le benchmark OSWorld. L'axe des x représente le nombre maximum d'étapes autorisées pour l'accomplissement de la tâche, tandis que l'axe des y indique le taux de réussite en pourcentage. L'AUC fait preuve d'une amélioration constante au fur et à mesure que le nombre d'étapes autorisées augmente, surpassant ainsi les modèles de pointe précédents.

Graphique comparant l'AUC d'OpenAI et Claude 3.5 Sonnet sur le benchmark OSWorld

Source : OpenAI

Comment accéder à l'opérateur

Operator est actuellement disponible aux États-Unis dans le cadre d'un aperçu de recherche pour les utilisateurs Pro de ChatGPT. Pour y accéder, vous devez disposer d'un abonnement Pro actif. Vous pouvez visiter operator.chatgpt.com pour commencer à utiliser Operator.

​Pour l'instant, Operator est limité aux utilisateurs Pro, mais OpenAI prévoit d'étendre l'accès aux utilisateurs Plus dans les mois à venir. Cette stratégie de déploiement permet à OpenAI de recueillir des commentaires et d'améliorer le système avant de le proposer à un public plus large.

Si Operator se concentre sur les utilisateurs américains lors du lancement initial, OpenAI a déclaré que l'accessibilité en Europe et dans d'autres régions prendrait plus de temps en raison de problèmes réglementaires. Les utilisateurs de ces régions devront attendre les prochaines mises à jour, car l'OpenAI s'efforce de résoudre ces problèmes complexes.

Message de l'interface utilisateur indiquant que l'opérateur n'est pas disponible en Europe

À l'avenir, OpenAI prévoit également de rendre la technologie sous-jacente d'Operator, connue sous le nom de CUA, accessible par le biais d'une API. Cela permettrait aux développeurs de créer leurs propres agents dotés d'IA pour des applications personnalisées.

Cas d'utilisation de l'opérateur

Les exemples de démonstration pour Operator - comme la réservation d'un tableau ou les achats en ligne - sont fonctionnels, mais ils ne nous semblent pas particulièrement pratiques. Il est souvent plus rapide et plus facile d'effectuer ces tâches manuellement plutôt que de passer du temps à surveiller l'exécution d'une IA.

Cependant, le potentiel d'Operator devient plus clair lorsque vous réfléchissez au-delà de ces cas d'utilisation, en vous concentrant sur l'accessibilité ou le soutien institutionnel.

Cas d'utilisation de l'opérateur

Accessibilité

L'accessibilité est l'un des domaines les plus importants dans lesquels Operator pourrait briller. Pour les personnes ayant des compétences limitées en informatique, comme les personnes âgées ou celles qui découvrent la technologie, l'opérateur pourrait servir de guide et les aider à effectuer des tâches complexes en ligne sans avoir besoin d'une expertise préalable.

Imaginez que cela soit combiné à des commandes vocales : les utilisateurs n'auraient même pas besoin de taper une invite, ce qui rendrait l'outil encore plus intuitif.

De même, pour les personnes handicapées, comme celles souffrant de déficiences visuelles, l'opérateur pourrait les aider à interagir avec des sites web qui seraient autrement inaccessibles, en particulier s'il est associé à un retour d'information audio ou à un lecteur d'écran.

Soutien institutionnel

L'opérateur a un fort potentiel dans les contextes gouvernementaux et institutionnels. Il pourrait aider les citoyens à remplir des formulaires complexes pour des tâches telles que la demande de visa, la déclaration d'impôts ou l'accès aux prestations sociales. Cela réduirait la dépendance à l'égard de l'assistance en personne et améliorerait les processus tant pour les utilisateurs que pour les institutions.

Dans le domaine de l'éducation, l'opérateur pourrait simplifier les systèmes de candidature en ligne, les demandes de bourses et les tâches de recherche, permettant ainsi aux étudiants ou aux personnes ayant une culture numérique limitée de naviguer plus efficacement dans ces processus.

Petites entreprises et tâches professionnelles

Sur le lieu de travail, l'opérateur pourrait être utile aux petites entreprises en automatisant les tâches répétitives basées sur le web, telles que la gestion des stocks, le traitement des commandes en ligne ou la collecte des commentaires des clients. Pour les professionnels, il pourrait prendre en charge les flux de travail fastidieux, comme la collecte d'informations à partir de sources multiples ou le remplissage de formulaires, libérant ainsi du temps pour des tâches plus stratégiques.

Soins de santé et organisations à but non lucratif

Les soins de santé et les organisations à but non lucratif pourraient tirer un grand profit de l'opérateur. Les cliniques pourraient l'utiliser pour aider les patients à remplir des formulaires d'inscription en ligne ou à accéder à des ressources sans que le personnel n'ait à intervenir lourdement.

Les organisations à but non lucratif qui opèrent dans des régions où la culture numérique est faible peuvent déployer un opérateur pour aider les populations défavorisées à naviguer dans les systèmes en ligne essentiels, en veillant à ce que les barrières technologiques ne limitent pas l'accès à des services vitaux.

Concurrence des agents d'intelligence artificielle

L'opérateur d'OpenAI entre dans l'espace des agents d'IA aux côtés des capacités d'utilisation de l'ordinateur d'Anthropic et du projet Mariner de Google.

Utilisation de l'ordinateur d'Anthropic

Utilisation de l'ordinateur d'Anthropicalimenté par son Claude 3.5 Sonnet permet à l'IA d'interagir avec des environnements de bureau en simulant des actions humaines telles que cliquer, taper et naviguer. Actuellement, cette fonctionnalité nécessite certaines connaissances techniques pour être mise en place et utilisée efficacement via l'API, ce qui limite son accessibilité pour les utilisateurs non techniques.

En revanche, l'interface en langage simple d'Operator ne nécessite pas de connaissances en programmation, ce qui le rend plus convivial pour un public plus large. Cependant, Anthropic s'efforcera très certainement de simplifier ses outils afin de concurrencer plus directement la conception accessible d'Operator.

Le projet Mariner de Google

Le projet Marinerdéveloppé par DeepMind de Google, est un agent expérimental conçu pour naviguer et interagir avec des pages web de manière autonome. Bien qu'il soit encore en phase de recherche, Mariner est testé avec un petit groupe d'utilisateurs, et son intégration dans l'écosystème de Google suggère qu'il pourrait exceller dans les flux de travail impliquant Gmail, Google Docs et d'autres services Google.

Conclusion

Operator est le premier pas d'OpenAI dans le domaine concurrentiel des agents d'intelligence artificielle, offrant une approche unique avec son interface en langage clair et sa conception universelle basée sur un navigateur. Si des outils tels que l'utilisation de l'ordinateur par Anthropic et le projet Mariner de Google ont leurs propres atouts, l'accent mis par Operator sur l'accessibilité le distingue pour l'instant.

Nous sommes également curieux de savoir si d'autres acteurs, comme DeepSeek ou Meta, pourraient se joindre à la compétition. L'année 2025 pourrait bien être à la hauteur du battage médiatique et être l'année de l'IA agentique.

FAQ

L'Opérateur OpenAI peut-il gérer plus d'une tâche en même temps ?

Oui, Operator est conçu pour gérer plusieurs tâches simultanément. Vous pouvez avoir des conversations séparées pour chaque tâche et l'opérateur s'exécute en parallèle. Par exemple, vous pouvez demander à l'opérateur de commander des courses sur Instacart tout en effectuant une réservation sur Booking.com.

L'Opérateur OpenAI est-il un agent d'IA ?

Oui, OpenAI Operator est un agent d'intelligence artificielle conçu pour effectuer des tâches pour vous de manière autonome. Il interagit avec les sites web en naviguant, en cliquant et en remplissant des formulaires, ce qui vous permet d'automatiser les activités. Pour en savoir plus sur les agents d'intelligence artificielle, consultez notre article de blog : Comprendre les agents d'intelligence artificielle : L'avenir des systèmes autonomes.

Comment fonctionne l'opérateur ?

Basé sur le modèle Computer-Using Agent (CUA), Operator interagit avec les pages web en visualisant des captures d'écran et en effectuant des actions à l'aide de la souris et du clavier. Il peut s'auto-corriger ou demander l'aide de l'utilisateur si nécessaire.

Qui peut utiliser l'Opérateur dès maintenant et comment commencer ?

L'opérateur est disponible pour les utilisateurs Pro aux États-Unis. Si vous disposez d'un abonnement Pro, vous pouvez vous rendre sur operator.chatgpt.com pour commencer. Essayez de décrire une tâche et l'opérateur s'en chargera.

Quelles sont les limites actuelles de l'opérateur ?

Operator étant encore à l'état d'avant-première de recherche, il peut s'avérer difficile d'exécuter des tâches complexes telles que la création de diaporamas ou la gestion de calendriers.

L'opérateur sera-t-il disponible sur les appareils mobiles ?

Il n'y a pas encore de confirmation concernant la prise en charge mobile d'Operator, mais sa capacité à interagir avec des interfaces web pourrait lui permettre de s'adapter aux plateformes mobiles à l'avenir, au fur et à mesure du développement de la technologie.

Comment Operator se compare-t-il aux assistants vocaux tels que Siri ou Google Assistant ?

Operator se concentre sur les tâches basées sur le web et l'interaction directe avec les sites web, alors que les assistants vocaux traditionnels s'appuient généralement sur des intégrations d'applications prédéfinies ou des API. La capacité d'Operator à imiter les actions humaines telles que le clic et le défilement le distingue en termes de polyvalence pour les tâches en ligne complexes.

L'opérateur peut-il gérer des sites web qui utilisent des CAPTCHA ou des fonctions de sécurité avancées ?

L'opérateur s'appuie actuellement sur la saisie de l'utilisateur pour les tâches impliquant des CAPTCHA ou des connexions sensibles. Il ne contourne pas automatiquement ces systèmes, mais peut naviguer dans les flux de travail une fois que ces obstacles sont levés.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Je suis l'homme de tous les métiers, le maître de Python, du marketing et de la stratégie de contenu, du référencement, de la rédaction, de l'écriture. Technicien - j'ai donné des cours sur Python, les statistiques et les probabilités. Mais j'ai également publié un roman primé. Montage vidéo et étalonnage dans DaVinci.


Josef Waples's photo
Author
Josef Waples

Je suis rédacteur et éditeur dans le domaine de la science des données. Je suis particulièrement intéressé par l'algèbre linéaire, les statistiques, R, etc. Je joue également beaucoup aux échecs ! 

Sujets

Apprenez l'IA avec ces cours !

Certification disponible

cours

Stratégie en matière d'intelligence artificielle (IA)

3 hr
6.1K
Apprenez à mélanger l'entreprise, les données et l'IA, et définissez des objectifs pour favoriser la réussite avec une stratégie d'IA efficacement évolutive.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Apparenté

blog

Les 32 meilleures questions d'entretien sur AWS et leurs réponses pour 2024

Un guide complet pour explorer les questions d'entretien AWS de base, intermédiaires et avancées, ainsi que des questions basées sur des situations réelles. Il couvre tous les domaines, garantissant ainsi une stratégie de préparation bien équilibrée.
Zoumana Keita 's photo

Zoumana Keita

30 min

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 min

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

blog

Célébration de Saghar Hazinyar : Une boursière de DataCamp Donates et une diplômée de Code to Inspire

Découvrez le parcours inspirant de Saghar Hazinyar, diplômée de Code to Inspire, qui a surmonté les défis en Afghanistan et s'est épanouie grâce à une bourse de DataCamp Donates.
Fereshteh Forough's photo

Fereshteh Forough

4 min

blog

Nous avons fait don de bourses DataCamp Premium à un million de personnes, et ce n'est pas fini.

Réparties entre nos deux programmes d'impact social, DataCamp Classrooms et #DCDonates, les bourses offrent un accès illimité à tout ce que DataCamp Premium a à offrir.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Voir plusVoir plus