Cursus
Project Mariner est l'agent de navigation expérimental de Google DeepMind. Mariner utilise les puissantes capacités multimodales de Gemini pour voir votre écran, comprendre ce qui est affiché, planifier des tâches et les exécuter de manière autonome - en cliquant, en tapant, en faisant défiler et en remplissant des formulaires en votre nom.
Dans cet article de blog, je partage mon expérience en l'essayant sur les cinq tâches réelles suivantes :
- Réserver des billets de cinéma
- Trouver des vols
- Réserver un plombier pour réparer mon évier de cuisine
- Parcourir le web pour remplir une feuille de calcul
- Résoudre un problème LeetCode
Nous tenons nos lecteurs informés des dernières nouveautés en matière d'IA en leur envoyant The Median, notre lettre d'information gratuite du vendredi qui analyse les principaux sujets de la semaine. Abonnez-vous et restez à la pointe de la technologie en quelques minutes par semaine :
Comment fonctionne le projet Mariner ?
Le projet Mariner utilise une interface utilisateur basée sur des invites qui nous permettent de décrire ce que nous voulons qu'il fasse. Il ouvre ensuite un navigateur et tente d'accomplir la tâche sur la base de ces données.
Pour l'instant, il se limite à des tâches liées au navigateur et ne peut pas accéder à votre ordinateur ni le contrôler. En coulisses, il fonctionne dans un navigateur et s'appuie sur les capacités multimodales de Gemini pour effectuer le travail. Il peut voir et comprendre le contenu de la fenêtre, effectuer des clics et taper du texte.
J'ai évalué le projet Mariner en le testant sur plusieurs tâches. Pour chacun d'entre eux, j'ai enregistré le processus et je vous montrerai les résultats. Comme Mariner est assez lent dans l'accomplissement des tâches, j'ai édité les vidéos pour accélérer les sections les plus lentes.
Comment accéder au projet Mariner ?
Projet Mariner est actuellement disponible pour les utilisateurs américains souscrivant à l'offre Google AI Ultra au prix de 249,99 $ par mois.
Ce plan offre de nombreux autres outils (comme Veo 3), des modèles et fonctionnalités Gemini avancés et le stockage des données. Cependant, c'est actuellement le seul plan qui vous donne accès au projet Mariner, ce qui en fait un outil très coûteux.
Examinons quelques exemples.
Exemple 1 : Réservation de billets de cinéma
J'ai d'abord essayé de réserver des places de cinéma. J'ai utilisé l'invite suivante :
"Trouvez un film d'horreur qui passe au cinéma ce vendredi soir à New York et aidez-moi à réserver un billet.
Voici comment il a résolu le problème :
- Recherche sur Google des films d'horreur à l'affiche le vendredi
- Parmi les options proposées, elle a sélectionné la première
- Il a ensuite identifié le bouton permettant de réserver les billets et a essayé la première option, le cinéma Alamo Drafthouse.
- Comme cela n'a pas fonctionné, il a opté pour Fandango.
- Finalement, il m'a demandé d'intervenir dans la sélection du siège.
- Ensuite, il m'a également demandé de confirmer avant de passer à la page de paiement.
- À ce stade, la tâche a été marquée comme terminée et j'ai pu continuer manuellement.
Je pense que, dans l'ensemble, ce projet a été un succès. Comme je n'ai pas choisi le siège, je pense qu'il n'était pas nécessaire de me demander de procéder à la sélection du siège. Il aurait également pu atteindre la page de paiement de lui-même, sans me demander mon accord. Ensuite, je pense qu'il est positif que l'interaction ne soit pas automatisée, car je ne voudrais pas dépenser de l'argent sans une confirmation manuelle.
Exemple 2 : Trouver les meilleurs vols
Je dois me rendre du Portugal à Taïwan, en passant par la Belgique, et j'ai donc décidé d'essayer de voir comment Mariner pourrait trouver les meilleurs vols pour moi. Voici l'exercice que j'ai utilisé (je n'ai pas donné d'informations sur les dates pour voir ce qui se passerait) :
"Je veux aller du Portugal à Taïwan, en passant par la Belgique pendant trois jours. Aidez-moi à trouver les meilleurs vols".
Celui-ci a été très décevant. La seule chose qu'il a faite a été de naviguer vers Google Flights et de remplir le formulaire pour moi. De plus, Mariner est assez lent à identifier où cliquer lorsqu'il navigue sur le site web, de sorte que ce processus a pris beaucoup plus de temps qu'il ne m'en aurait fallu.
J'ai également essayé de lui demander de réserver les billets, mais il est entré dans une boucle et j'ai fini par abandonner.
Exemple 3 : Trouver et réserver un plombier
Ensuite, j'ai voulu savoir s'il pouvait m'aider à trouver un plombier. Pour cet exemple, j'ai utilisé une adresse aléatoire à New York pour voir s'il serait possible de trouver quelqu'un près de cet endroit et de procéder à la réservation.
"J'habite au 33 Wilson Ave. Hamburg, NY 14075. Trouvez et réservez un plombier pour demain afin de réparer une fuite dans l'évier de ma cuisine".
Cette tâche a très bien fonctionné. Il a permis de trouver une entreprise de plomberie à New York et de prendre rendez-vous. Lorsqu'il avait besoin d'informations telles que mon nom et mon adresse électronique, il s'arrêtait et me les demandait, puis remplissait le formulaire automatiquement.
Exemple 4 : Remplir des données dans une feuille Google
Une tâche courante mais très fastidieuse consiste à rassembler des données provenant de plusieurs sources et à les placer dans une feuille de calcul. Pour tester la capacité de Mariner à résoudre une telle tâche, j'ai créé une simple feuille d'entreprises d'IA.
Je lui ai ensuite donné accès à l'onglet et lui ai demandé de rechercher sur le web les adresses électroniques de contact des entreprises et de remplir la colonne Email
.
Comme vous l'avez probablement remarqué, tout s'est bien passé, à l'exception d'un cas. Lors de la recherche de l'adresse électronique de Google DeepMind, il est entré dans une boucle, je l'ai donc arrêté et je lui ai demandé de réessayer - cette fois, il a réussi.
Exemple 5 : Résoudre un problème LeetCode
Pour le dernier exemple, j'ai voulu créer quelque chose de plus complexe, et j'ai donc posé la question suivante :
"Rendez-vous sur le site LeetCode et résolvez un problème de difficulté moyenne de votre choix en utilisant Python 3".
Elle a d'abord essayé d'utiliser des filtres pour trouver un problème de difficulté moyenne, mais pour une raison quelconque, cela n'a pas fonctionné. Ensuite, il a abandonné et a trouvé un problème sans que j'intervienne.
Ensuite, il a écrit le code dans le chat au lieu d'utiliser l'interface LeetCode. Je lui ai demandé de saisir la réponse directement dans l'interface, mais elle s'est affichée avec un formatage très étrange qu'il n'a pas pu corriger.
Ensuite, je lui ai demandé d'écrire à nouveau la solution dans le chat, et je l'ai définie manuellement. J'étais curieux de voir si la réponse était correcte. Cependant, je n'ai pas pu me connecter à LeetCode à cause de Cloudflare. C'est un problème que j'ai souvent constaté lors des tests de Mariner.
J'ai soumis la solution plus tard avec mon compte LeetCode, et elle était correcte. L'étape la plus rapide de cette exécution a été la résolution du problème. Dès que le problème est ouvert, une solution est affichée dans le chat. Cela m'a beaucoup impressionné.
Enseigner une tâche dans le cadre du projet Mariner
Le projet Mariner est accompagné d'une extension Chrome que nous pouvons utiliser pour lui apprendre à effectuer des tâches. Il enregistre votre écran pendant que vous effectuez et expliquez la tâche (oui, vous devez parler pendant l'exécution de la tâche).
De ces données, il extrait une liste d'actions. J'ai essayé de lui apprendre à faire des achats sur Walmart, et voici ce que j'ai obtenu :
Je ne sais pas s'il collecte également d'autres données, mais j'ai eu l'impression que c'était beaucoup d'efforts d'exécuter et d'expliquer la tâche juste pour obtenir cette liste, que j'aurais pu taper en quelques secondes.
J'ai essayé d'exécuter la tâche, mais cela n'a pas fonctionné. On a l'impression qu'il manque des étapes, comme demander quels sont les articles de la liste de courses. Vous pouvez modifier manuellement une tâche avant de la créer, mais je n'ai trouvé aucun moyen de la modifier ultérieurement.
Pour l'instant, j'ai le sentiment que cette fonctionnalité est encore sous-développée et qu'elle n'est pas prête à être utilisée. En outre, j'ai eu du mal à trouver un cas d'utilisation, car si je lui avais simplement demandé d'ajouter des articles d'une liste de courses sur un tableur dans un panier Walmart, il aurait fait un meilleur travail.
Avantages et inconvénients du projet Mariner
Les bons côtés
Bonne navigation sur le web
Toutes les tâches liées à la navigation sur le web et à la recherche d'informations sur un site web semblent bien fonctionner. Les cas d'utilisation des tickets de cinéma et des plombiers en sont de bons exemples.
Travailler avec plusieurs onglets
Mariner peut résoudre des tâches qui nécessitent d'utiliser plusieurs onglets et d'effectuer des recherches séquentielles sur Google.
Compréhension visuelle
Malgré sa lenteur, il est capable de comprendre le contenu du site web et ses éléments. Il peut interagir avec des éléments, remplir des formulaires et cliquer sur des boutons pour contrôler le site web.
Les mauvais côtés
Voici, à mon avis, les principaux problèmes que pose l'actuelle version du projet Mariner.
Obstacles à l'automatisation du web
La navigation sur le web est un processus complexe, semé d'embûches pour des outils automatisés comme Project Mariner. Un obstacle important est la résistance des sites web grâce à des outils tels que Cloudflare et reCAPTCHA, conçus pour bloquer les robots et protéger contre les activités malveillantes.
Au cours de mes expériences, j'ai été très souvent bloqué. Même en essayant l'un des exemples qu'ils proposent, le site web m'a bloqué :
Cette résistance complique l'exécution des tâches de Mariner, qui s'efforce de contourner ces barrières destinées à la vérification humaine. En outre, en raison de la réglementation, les sites web comportent souvent des bannières de cookies et des fenêtres contextuelles, ce qui oblige les utilisateurs à prendre continuellement des décisions concernant leurs préférences en matière de données.
Mariner ne gère pas automatiquement les sélections de cookies, probablement parce que les utilisateurs doivent faire ces choix en fonction de leurs préférences en matière de confidentialité. Il peut également exister des réglementations qui empêchent l'automatisation de ces décisions. Par conséquent, les nombreux points de décision et les interactions nécessaires augmentent la complexité et les frictions pour que des outils comme Mariner fonctionnent efficacement.
Idéalement, nous visons à automatiser les tâches pour réduire les efforts manuels, mais l'état actuel de ces outils nécessite encore une supervision importante, ce qui montre clairement que nous sommes loin d'une expérience d'automatisation véritablement transparente et utile.
Lenteur du traitement de l'interface utilisateur
Un autre problème auquel Mariner est actuellement confronté est celui de la vitesse. Il faut beaucoup de temps pour traiter le contenu de l'écran. Remplir un formulaire, même le plus simple, peut prendre quelques minutes.
Pas assez de raisonnement
Au cours de mes expériences, il est apparu qu'à chaque fois qu'un choix devait être fait - par exemple, quelle plateforme acheter des billets de cinéma ou quelle entreprise de plomberie utiliser - l'agent évaluait les options une par une, dans l'ordre où elles apparaissaient.
Ce n'est pas une bonne stratégie, et ce n'est pas ainsi que les humains font généralement leurs choix. J'ai l'impression qu'il manque à l'agent une étape de raisonnement et de recherche lorsqu'il prend des décisions.
Intégration au navigateur
J'ai lutté pour partager des onglets avec elle. Il m'arrivait souvent de me déconnecter et de perdre l'accès aux informations affichées dans l'onglet que je partageais. La solution consiste à se connecter manuellement dans le navigateur qu'il utilise. C'est encombrant et cela m'incite à ne pas l'utiliser.
Je pense que ce serait mieux s'il s'agissait d'une extension Chrome qui vivrait côte à côte avec l'onglet ouvert actuel. Ainsi, vous pouvez lui demander à tout moment de prendre le contrôle de l'onglet et d'effectuer des actions directement.
Je suppose que cette approche pose des problèmes de sécurité, mais je ne pense pas qu'elle soit très utile lorsque l'on utilise un navigateur distinct du nôtre, car la plupart des tâches nécessiteront alors une longue configuration, comme l'ouverture d'une session, avant d'être accomplies.
Boucles
Il arrive souvent qu'il entre dans des boucles où il me demande si quelque chose va bien, puis continue à me le demander sans aller plus loin. En voici un exemple :
Préoccupations en matière de protection de la vie privée et de sécurité
Un autre aspect préoccupant concerne la vie privée et la sécurité. Voici l'avis officiel sur la protection de la vie privée.
En bref, le projet Mariner de Google recueille vos conversations, vos données de navigation et l'utilisation des fonctionnalités afin d'améliorer ses services et son IA, conformément aux règles de confidentialité de Google. Certaines données peuvent être examinées par des personnes réelles. Évitez donc de partager des informations confidentielles.
Conclusion
Le projet Mariner est encore un produit expérimental, lent, limité dans sa portée et susceptible de se heurter à des obstacles tels que les CAPTCHA ou les problèmes de connexion. Dans son état actuel, je ne pense pas qu'il vaille la peine de s'abonner pour y avoir accès.
Ce que j'apprécie le plus dans l'approche de Google, c'est sa volonté de publier très tôt des prototypes non perfectionnés. Ce type de transparence et d'itération leur permet d'apprendre rapidement et de créer de meilleurs produits au fil du temps.
En revanche, si vous regardez Apple, qui préfère lancer des produits parfaitement peaufinés, il semble qu'il soit absent de la course à l'IA, qui évolue rapidement. L'IA se nourrit de données et d'usages réels, c'est pourquoi l'exposition de ces outils à un stade précoce, même s'ils sont inachevés, est un moyen intelligent d'itérer et de s'améliorer rapidement.