Opérateur d'OpenAI : Exemples, cas d'utilisation, concurrence et plus encore

Découvrez OpenAI Operator, un agent d'intelligence artificielle utilisant le nouveau modèle Computer-Using Agent (CUA), capable de naviguer sur des sites web et d'effectuer des tâches de manière autonome.

Actualisé 24 janv. 2025 · 8 min lire

OpenAI a récemment annoncé Operator, un agent d'IA conçu pour effectuer seul des tâches sur le web. Il peut prendre en charge des tâches telles que la réservation d'un tableau ou les achats en ligne, simplifiant ainsi les interactions numériques pour les tâches quotidiennes.

Cependant, nous pensons que son potentiel va au-delà de la commodité : il pourrait permettre aux personnes qui n'ont pas de compétences informatiques d'accomplir des tâches telles que remplir des formulaires ou naviguer sur des sites web complexes en toute simplicité.

En outre, avec une intégration plus poussée des commandes vocales, il pourrait constituer une solution plus accessible pour les personnes handicapées, notamment celles souffrant de déficiences visuelles.

L'opérateur entre dans un domaine concurrentiel qui comprend Anthropic et le projet Mariner de Google. d'Anthropic et le projet Mariner de Google. L'une des différences est que les outils d'Anthropic nécessitent des connaissances en programmation (pour l'instant), alors qu'Operator permet aux utilisateurs de fournir des instructions en langage simple, ce qui le rend plus accessible.

Dans ce blog, nous expliquerons ce qu'est Operator, nous explorerons sa technologie de base (CUA), nous décrirons ses cas d'utilisation et ses limites, et nous discuterons de sa place dans le contexte plus large des agents d'intelligence artificielle.

Qu'est-ce qu'un opérateur ?

Operator est le premier agent d'IA d'OpenAI, conçu pour effectuer de manière autonome des tâches sur le web. Un agent d'intelligence artificielle est un système capable de recevoir des instructions, de les analyser et d'exécuter des actions sans surveillance humaine permanente.

Contrairement aux outils d'automatisation traditionnels qui s'appuient sur des API prédéfinies ou des flux de travail rigides, Operator interagit directement avec les sites web, imitant les actions humaines telles que le clic, la frappe et le défilement. Son objectif principal est de simplifier les tâches numériques qui pourraient autrement nécessiter un effort manuel ou une expertise technique.

Il est donc parfaitement adapté aux activités quotidiennes telles que la gestion des réservations ou le remplissage de formulaires, ainsi qu'aux flux de travail plus complexes à plusieurs étapes. Voici un exemple d'utilisation de l'opérateur :

Source : OpenAI

L'opérateur utilise un navigateur virtuel pour naviguer sur les sites web. Cet environnement virtuel lui permet d'interagir avec les interfaces utilisateur graphiques (IUG) comme le ferait un utilisateur humain. Au lieu d'exiger des sites web qu'ils disposent d'API spécialisées, Operator interprète la présentation visuelle d'une page web, clique sur des boutons, saisit des champs et fait défiler le contenu.

L'opérateur s'appuie sur des instructions en langage clair pour comprendre les besoins des utilisateurs. Une fois la tâche définie, il traite les instructions, les décompose en étapes exploitables et les exécute tout en fournissant un retour d'information à l'utilisateur. L'opérateur peut également demander des éclaircissements ou des confirmations pour des actions critiques, telles que l'envoi d'un formulaire ou l'exécution d'un paiement, ce qui lui permet de mieux contrôler ses résultats.

Qu'est-ce qu'un agent utilisateur d'ordinateur (AUE) ?

L'agent d'utilisation de l'ordinateur (AUE) est la technologie de base de l'opérateur. En combinant les capacités de vision de GPT-4o avec un raisonnement avancé par l'apprentissage par renforcementL'AUC est entraînée à interagir avec des interfaces utilisateur graphiques, c'est-à-dire des boutons, des menus et des champs de texte que l'on voit sur un écran.

Perception

L'AUC commence par traiter des données brutes de pixels provenant de captures d'écran. Il utilise ces informations visuelles pour identifier les éléments clés de l'interface tels que les boutons, les champs de saisie et les menus de navigation.

Source : OpenAI

Raisonnement

Une fois les données visuelles analysées, l'AUC applique un raisonnement en chaîne pour planifier ses actions. En intégrant les captures d'écran actuelles et passées, il évalue ses observations, divise les tâches en petites étapes et s'adapte dynamiquement aux défis. Par exemple, si une fenêtre contextuelle apparaît au cours d'une tâche (comme la publicité que nous avons vue dans l'exemple ci-dessus), l'AUC peut ajuster son approche et trouver un moyen de continuer, comme le ferait un utilisateur humain.

Action

L'AUC utilise la souris et le clavier virtuels pour effectuer des actions telles que cliquer, taper, faire défiler et soumettre des formulaires. Cette fonctionnalité lui permet d'exécuter des tâches de manière autonome, qu'il s'agisse de sélectionner un élément dans un menu déroulant ou de naviguer dans un formulaire à plusieurs étapes.

Pour les actions critiques, telles que les paiements ou la connexion à des comptes, CUA demande la confirmation de l'utilisateur avant de procéder, ce qui garantit que les utilisateurs gardent le contrôle sur les opérations sensibles.

Critères de référence de l'AUC

L'AUC a atteint des performances de pointe (SOTA) sur plusieurs critères de référence:

Type d'indice de référence	Référence	Utilisation de l'ordinateur (interface universelle)		Agents de navigation sur le web	Humain
		OpenAI CUA	Précédent SOTA	Précédent SOTA
Utilisation de l'ordinateur	OSWorld	38.1%	22.0%		72.4%
Utilisation du navigateur	WebArena	58.1%	36.2%	57.1%	78.2%
Utilisation du navigateur	WebVoyager	87.0%	56.0%	87.0%

Source : OpenAI

Voyonsce que fait chacun de ces trois points de référence :

OSWorld (38,1%) : Évalue la capacité à effectuer des tâches dans des systèmes d'exploitation complets tels qu'Ubuntu, Windows et macOS. Bien que l'AUC soit plus performante que les modèles précédents, son taux de réussite reste inférieur à la référence humaine de 72,4 %.
WebArena (58,1%) : Évalue la performance dans la navigation sur des sites web simulés, y compris le commerce électronique et les plateformes sociales. Bien qu'il surpasse les modèles précédents, il est possible de l'améliorer dans la gestion des interactions complexes à plusieurs étapes.
WebVoyager (87%) : Mesure l'efficacité sur des sites web tels qu'Amazon, GitHub et Google Maps. L'AUC obtient de bons résultats dans ce domaine, car les tâches ont tendance à être plus simples et plus structurées que celles de WebArena.

Le graphique ci-dessous illustre les performances de l'AUC d'OpenAI par rapport à Claude 3.5 Sonnet sur le benchmark OSWorld. L'axe des x représente le nombre maximum d'étapes autorisées pour l'accomplissement de la tâche, tandis que l'axe des y indique le taux de réussite en pourcentage. L'AUC fait preuve d'une amélioration constante au fur et à mesure que le nombre d'étapes autorisées augmente, surpassant ainsi les modèles de pointe précédents.

Graphique comparant l'AUC d'OpenAI et Claude 3.5 Sonnet sur le benchmark OSWorld

Source : OpenAI

Comment accéder à l'opérateur

Operator est actuellement disponible aux États-Unis dans le cadre d'un aperçu de recherche pour les utilisateurs Pro de ChatGPT. Pour y accéder, vous devez disposer d'un abonnement Pro actif. Vous pouvez visiter operator.chatgpt.com pour commencer à utiliser Operator.

Pour l'instant, Operator est limité aux utilisateurs Pro, mais OpenAI prévoit d'étendre l'accès aux utilisateurs Plus dans les mois à venir. Cette stratégie de déploiement permet à OpenAI de recueillir des commentaires et d'améliorer le système avant de le proposer à un public plus large.

Si Operator se concentre sur les utilisateurs américains lors du lancement initial, OpenAI a déclaré que l'accessibilité en Europe et dans d'autres régions prendrait plus de temps en raison de problèmes réglementaires. Les utilisateurs de ces régions devront attendre les prochaines mises à jour, car l'OpenAI s'efforce de résoudre ces problèmes complexes.

Message de l'interface utilisateur indiquant que l'opérateur n'est pas disponible en Europe

À l'avenir, OpenAI prévoit également de rendre la technologie sous-jacente d'Operator, connue sous le nom de CUA, accessible par le biais d'une API. Cela permettrait aux développeurs de créer leurs propres agents dotés d'IA pour des applications personnalisées.

Cas d'utilisation de l'opérateur

Les exemples de démonstration pour Operator - comme la réservation d'un tableau ou les achats en ligne - sont fonctionnels, mais ils ne nous semblent pas particulièrement pratiques. Il est souvent plus rapide et plus facile d'effectuer ces tâches manuellement plutôt que de passer du temps à surveiller l'exécution d'une IA.

Cependant, le potentiel d'Operator devient plus clair lorsque vous réfléchissez au-delà de ces cas d'utilisation, en vous concentrant sur l'accessibilité ou le soutien institutionnel.

Cas d'utilisation de l'opérateur

Accessibilité

L'accessibilité est l'un des domaines les plus importants dans lesquels Operator pourrait briller. Pour les personnes ayant des compétences limitées en informatique, comme les personnes âgées ou celles qui découvrent la technologie, l'opérateur pourrait servir de guide et les aider à effectuer des tâches complexes en ligne sans avoir besoin d'une expertise préalable.

Imaginez que cela soit combiné à des commandes vocales : les utilisateurs n'auraient même pas besoin de taper une invite, ce qui rendrait l'outil encore plus intuitif.

De même, pour les personnes handicapées, comme celles souffrant de déficiences visuelles, l'opérateur pourrait les aider à interagir avec des sites web qui seraient autrement inaccessibles, en particulier s'il est associé à un retour d'information audio ou à un lecteur d'écran.

Soutien institutionnel

L'opérateur a un fort potentiel dans les contextes gouvernementaux et institutionnels. Il pourrait aider les citoyens à remplir des formulaires complexes pour des tâches telles que la demande de visa, la déclaration d'impôts ou l'accès aux prestations sociales. Cela réduirait la dépendance à l'égard de l'assistance en personne et améliorerait les processus tant pour les utilisateurs que pour les institutions.

Dans le domaine de l'éducation, l'opérateur pourrait simplifier les systèmes de candidature en ligne, les demandes de bourses et les tâches de recherche, permettant ainsi aux étudiants ou aux personnes ayant une culture numérique limitée de naviguer plus efficacement dans ces processus.

Petites entreprises et tâches professionnelles

Sur le lieu de travail, l'opérateur pourrait être utile aux petites entreprises en automatisant les tâches répétitives basées sur le web, telles que la gestion des stocks, le traitement des commandes en ligne ou la collecte des commentaires des clients. Pour les professionnels, il pourrait prendre en charge les flux de travail fastidieux, comme la collecte d'informations à partir de sources multiples ou le remplissage de formulaires, libérant ainsi du temps pour des tâches plus stratégiques.

Soins de santé et organisations à but non lucratif

Les soins de santé et les organisations à but non lucratif pourraient tirer un grand profit de l'opérateur. Les cliniques pourraient l'utiliser pour aider les patients à remplir des formulaires d'inscription en ligne ou à accéder à des ressources sans que le personnel n'ait à intervenir lourdement.

Les organisations à but non lucratif qui opèrent dans des régions où la culture numérique est faible peuvent déployer un opérateur pour aider les populations défavorisées à naviguer dans les systèmes en ligne essentiels, en veillant à ce que les barrières technologiques ne limitent pas l'accès à des services vitaux.

Concurrence des agents d'intelligence artificielle

L'opérateur d'OpenAI entre dans l'espace des agents d'IA aux côtés des capacités d'utilisation de l'ordinateur d'Anthropic et du projet Mariner de Google.

Utilisation de l'ordinateur d'Anthropic

Utilisation de l'ordinateur d'Anthropicalimenté par son Claude 3.5 Sonnet permet à l'IA d'interagir avec des environnements de bureau en simulant des actions humaines telles que cliquer, taper et naviguer. Actuellement, cette fonctionnalité nécessite certaines connaissances techniques pour être mise en place et utilisée efficacement via l'API, ce qui limite son accessibilité pour les utilisateurs non techniques.

En revanche, l'interface en langage simple d'Operator ne nécessite pas de connaissances en programmation, ce qui le rend plus convivial pour un public plus large. Cependant, Anthropic s'efforcera très certainement de simplifier ses outils afin de concurrencer plus directement la conception accessible d'Operator.

Le projet Mariner de Google

Le projet Marinerdéveloppé par DeepMind de Google, est un agent expérimental conçu pour naviguer et interagir avec des pages web de manière autonome. Bien qu'il soit encore en phase de recherche, Mariner est testé avec un petit groupe d'utilisateurs, et son intégration dans l'écosystème de Google suggère qu'il pourrait exceller dans les flux de travail impliquant Gmail, Google Docs et d'autres services Google.

Conclusion

Operator est le premier pas d'OpenAI dans le domaine concurrentiel des agents d'intelligence artificielle, offrant une approche unique avec son interface en langage clair et sa conception universelle basée sur un navigateur. Si des outils tels que l'utilisation de l'ordinateur par Anthropic et le projet Mariner de Google ont leurs propres atouts, l'accent mis par Operator sur l'accessibilité le distingue pour l'instant.

Nous sommes également curieux de savoir si d'autres acteurs, comme DeepSeek ou Meta, pourraient se joindre à la compétition. L'année 2025 pourrait bien être à la hauteur du battage médiatique et être l'année de l'IA agentique.

L'Opérateur OpenAI peut-il gérer plus d'une tâche en même temps ?

L'Opérateur OpenAI est-il un agent d'IA ?

Comment fonctionne l'opérateur ?

Qui peut utiliser l'Opérateur dès maintenant et comment commencer ?

Quelles sont les limites actuelles de l'opérateur ?

L'opérateur sera-t-il disponible sur les appareils mobiles ?

Comment Operator se compare-t-il aux assistants vocaux tels que Siri ou Google Assistant ?

L'opérateur peut-il gérer des sites web qui utilisent des CAPTCHA ou des fonctions de sécurité avancées ?

Author

Josef Waples

Sujets

Intelligence artificielle

Grands modèles linguistiques

OpenAI

Apprenez l'IA avec ces cours !

Cursus

Principes fondamentaux de l'IA

10 h

Découvrez les principes fondamentaux de l'IA, apprenez à l'utiliser efficacement dans votre travail et explorez des modèles tels que chatGPT pour vous orienter dans le paysage dynamique de l'IA.

Afficher les détails

Commencer le cours

Cours

Stratégie IA

3 h

18.7K

Alliez données, IA et objectifs métier pour bâtir une stratégie IA évolutive et performante.

Afficher les détails

Commencer le cours

Cours

ChatGPT niveau intermédiaire

1 h

29.3K

Découvrez l'architecture des modèles GPT et maîtrisez la création avancée de prompts afin de libérer tout le potentiel de chatGPT.

Afficher les détails

Commencer le cours

Contenus associés

blog

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Découvrez les principaux types d'agents d'intelligence artificielle, comment ils interagissent avec les environnements et comment ils sont utilisés dans les différents secteurs d'activité. Comprendre les agents réflexes simples, les agents basés sur un modèle, les agents basés sur un but, les agents basés sur l'utilité, les agents d'apprentissage, etc.

blog

Architecture de l'entrepôt de données : Tendances, outils et techniques

Apprenez l'essentiel de l'architecture d'un entrepôt de données, des composants clés aux meilleures pratiques, pour construire un système de données évolutif et efficace !

Kurtis Pykes

15 min

blog

2022-2023 Rapport annuel DataCamp Classrooms

À l'aube de la nouvelle année scolaire, DataCamp Classrooms est plus motivé que jamais pour démocratiser l'apprentissage des données, avec plus de 7 650 nouveaux Classrooms ajoutés au cours des 12 derniers mois.

Nathaniel Taylor-Leach

8 min

blog

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Vous êtes actuellement à la recherche d'un emploi qui utilise Snowflake ? Préparez-vous à répondre à ces 20 questions d'entretien sur le flocon de neige pour décrocher le poste !

Nisha Arya Ahmed

15 min

blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates a offert plus de 20k bourses d'études à nos partenaires à but non lucratif au deuxième trimestre 2023. Découvrez comment des apprenants défavorisés et assidus ont transformé ces opportunités en réussites professionnelles qui ont changé leur vie.

Nathaniel Taylor-Leach

Voir plus Voir plus

Qu'est-ce qu'un opérateur ?

Qu'est-ce qu'un agent utilisateur d'ordinateur (AUE) ?

Perception

Raisonnement

Action

Critères de référence de l'AUC

Comment accéder à l'opérateur

Cas d'utilisation de l'opérateur

Accessibilité

Soutien institutionnel

Petites entreprises et tâches professionnelles

Soins de santé et organisations à but non lucratif

Concurrence des agents d'intelligence artificielle

Utilisation de l'ordinateur d'Anthropic

Le projet Mariner de Google

Conclusion

FAQ

Comment fonctionne l'opérateur ?

Qui peut utiliser l'Opérateur dès maintenant et comment commencer ?

Quelles sont les limites actuelles de l'opérateur ?

L'opérateur sera-t-il disponible sur les appareils mobiles ?

Comment Operator se compare-t-il aux assistants vocaux tels que Siri ou Google Assistant ?

L'opérateur peut-il gérer des sites web qui utilisent des CAPTCHA ou des fonctions de sécurité avancées ?

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Architecture de l'entrepôt de données : Tendances, outils et techniques

2022-2023 Rapport annuel DataCamp Classrooms

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Q2 2023 DataCamp Donates Digest

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Principes fondamentaux de l'IA

Stratégie IA

ChatGPT niveau intermédiaire

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Architecture de l'entrepôt de données : Tendances, outils et techniques

2022-2023 Rapport annuel DataCamp Classrooms

Les 20 meilleures questions d'entretien pour les flocons de neige, à tous les niveaux

Q2 2023 DataCamp Donates Digest

Principes fondamentaux de l'IA