Lernpfad
Projekt Mariner ist der experimentelle KI-Browser-Agent von Google DeepMind. Mariner nutzt die leistungsstarken multimodalen Fähigkeiten von Gemini, um deinen Bildschirm zu sehen, zu verstehen, was angezeigt wird, Aufgaben zu planen und sie selbstständig auszuführen - durch Klicken, Tippen, Scrollen und Ausfüllen von Formularen in deinem Namen.
In diesem Blogbeitrag teile ich meine Erfahrungen mit den folgenden fünf Aufgaben aus der Praxis:
- Kinokarten buchen
- Flüge finden
- Einen Klempner für die Reparatur meiner Küchenspüle buchen
- Durchsuche das Internet, um ein Arbeitsblatt auszufüllen
- Löse ein LeetCode Problem
Wir halten unsere Leserinnen und Leser mit dem kostenlosen FreitagsnewsletterThe Medianauf dem Laufenden , in dem wir die wichtigsten Themen der Woche aufschlüsseln. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:
Wie funktioniert das Projekt Mariner?
Project Mariner verwendet eine auf Eingabeaufforderungen basierende Benutzeroberfläche, mit der wir beschreiben können, was wir tun wollen. Dann startet er einen Browser und versucht, die Aufgabe auf der Grundlage dieser Eingabe zu erledigen.
Im Moment ist es auf browserbezogene Aufgaben beschränkt - es kann nicht auf deinen Computer zugreifen oder ihn kontrollieren. Hinter den Kulissen läuft es in einem Browser und verlässt sich auf die multimodalen Fähigkeiten von Gemini, um die Arbeit zu erledigen. Er kann den Inhalt des Fensters sehen und verstehen, Klicks ausführen und Text eingeben.
Ich habe Project Mariner bei verschiedenen Aufgaben getestet. Für jede habe ich den Prozess aufgezeichnet und werde dir die Ergebnisse zeigen. Da Mariner ziemlich langsam bei der Erledigung von Aufgaben ist, habe ich die Videos bearbeitet, um die langsameren Abschnitte zu beschleunigen.
Wie erreiche ich Project Mariner?
Project Mariner ist derzeit für US-Nutzer verfügbar, die den Google AI Ultra-Tarif für 249,99 $ pro Monat abonniert haben.
Dieser Plan bietet viele andere Tools (wie Veo 3), erweiterte Gemini-Modelle und -Funktionen sowie Datenspeicherung. Allerdings ist es derzeit der einzige Plan, der dir Zugang zu Project Mariner bietet, was es zu einem sehr teuren Tool macht.
Sehen wir uns ein paar Beispiele an.
Beispiel 1: Kinokarten buchen
Das erste, was ich versucht habe, war, Kinokarten zu buchen. Ich habe die folgende Aufforderung verwendet:
"Finde einen Horrorfilm, der an diesem Freitagabend in New York im Kino läuft und hilf mir, eine Karte zu buchen."
Hier ist eine Aufschlüsselung, wie sie die Aufgabe gelöst hat:
- Habe eine Google-Suche durchgeführt, um Horrorfilme zu finden, die am Freitag laufen
- Von den Optionen wählte er die erste
- Dann hat er die Schaltfläche zum Buchen der Tickets identifiziert und die erste Option, Alamo Drafthouse Cinema, ausprobiert.
- Das hat nicht funktioniert, also hat er sich für Fandango entschieden.
- Schließlich bat es mich um mein Eingreifen bei der Auswahl des Sitzes.
- Dann wurde ich auch noch aufgefordert, zu bestätigen, bevor ich auf die Bezahlseite weitergeleitet wurde.
- An diesem Punkt wurde die Aufgabe als erledigt markiert und ich konnte manuell fortfahren.
Ich denke, das war insgesamt ein Erfolg. Da ich den Sitzplatz nicht ausgewählt habe, war die Aufforderung, mit der Sitzplatzauswahl fortzufahren, meiner Meinung nach unnötig. Er hätte auch von selbst auf die Bezahlseite gelangen können, ohne mich nach meiner Zustimmung zu fragen. Danach finde ich es positiv, dass die Interaktion nicht automatisiert ist, denn ich würde kein Geld ausgeben wollen, ohne dass ich es manuell bestätigt habe.
Beispiel 2: Suche nach den besten Flügen
Ich muss von Portugal nach Taiwan reisen und dabei Belgien durchqueren. Also dachte ich mir, ich versuche mal zu sehen, wie Mariner die besten Flüge für mich findet. Hier ist die Aufforderung, die ich verwendet habe (ich habe keine Angaben zu den Daten gemacht, um zu sehen, was passieren würde):
"Ich möchte von Portugal nach Taiwan reisen und dabei drei Tage lang an Belgien vorbeikommen. Hilf mir, die besten Flüge zu finden."
Das hier war sehr enttäuschend. Das einzige, was es tat, war, zu Google Flights zu navigieren und das Formular für mich auszufüllen. Außerdem ist Mariner ziemlich langsam, wenn es darum geht, zu erkennen, wohin man beim Navigieren auf der Website klicken muss.
Ich habe auch versucht, das Programm zu bitten, die Tickets zu buchen, aber es ist in eine Schleife geraten, und ich habe schließlich aufgegeben.
Beispiel 3: Einen Klempner finden und buchen
Als Nächstes war ich neugierig, ob es mir helfen könnte, einen Klempner zu finden. Für dieses Beispiel habe ich eine zufällige Adresse in New York gewählt, um zu sehen, ob es in der Lage ist, jemanden in der Nähe dieses Ortes zu finden und die Buchung auszuführen.
"Ich wohne in der Wilson Ave. 33. Hamburg, NY 14075. Finde und buche einen Klempner für morgen, um ein Leck in meiner Küchenspüle zu reparieren."
Diese Aufgabe hat ganz gut funktioniert. Er konnte eine Klempnerfirma in New York finden und einen Termin vereinbaren. Wenn es Informationen wie meinen Namen und meine E-Mail-Adresse brauchte, hielt es an und fragte danach und füllte dann das Formular automatisch aus.
Beispiel 4: Ausfüllen von Daten in einem Google Sheet
Eine häufige, aber sehr mühsame Aufgabe ist es, Daten aus verschiedenen Quellen zu sammeln und sie in eine Tabelle zu übertragen. Um die Fähigkeit von Mariner zu testen, eine solche Aufgabe zu lösen, habe ich ein einfaches Blatt mit KI-Unternehmen erstellt.
Dann gab ich ihm Zugriff auf die Registerkarte und bat es, im Internet nach den Kontakt-E-Mails der Unternehmen zu suchen und die Spalte Email
auszufüllen.
Wie du wahrscheinlich bemerkt hast, lief alles gut, bis auf einen Fall. Als ich nach der E-Mail von Google DeepMind suchte, geriet es in eine Schleife, sodass ich es schließlich stoppte und bat, es noch einmal zu versuchen - diesmal war es erfolgreich.
Beispiel 5: Lösen eines LeetCode-Problems
Für das letzte Beispiel wollte ich etwas Komplexeres schaffen, also habe ich die folgende Frage gestellt:
"Gehe zu LeetCode und löse ein mittelschweres Problem deiner Wahl mit Python 3"
Zuerst wurde versucht, mit Hilfe von Filtern ein Problem mit mittlerem Schwierigkeitsgrad zu finden, aber aus irgendeinem Grund hat das nicht funktioniert. Dann hat es aufgegeben und ein Problem gefunden, ohne dass ich eingreifen musste.
Dann hat er den Code im Chat geschrieben, anstatt die LeetCode-Schnittstelle zu verwenden. Ich habe ihn gebeten, die Antwort direkt in die Schnittstelle einzugeben, aber sie wurde mit einer sehr seltsamen Formatierung angezeigt, die er nicht korrigieren konnte.
Dann habe ich ihn gebeten, die Lösung wieder in den Chat zu schreiben, und ich habe sie manuell eingestellt. Ich war neugierig, ob die Antwort richtig war. Allerdings konnte ich mich wegen Cloudflare nicht bei LeetCode anmelden. Dieses Problem ist mir beim Testen von Mariner häufig aufgefallen.
Ich habe die Lösung später mit meinem LeetCode-Konto eingereicht, und sie war korrekt. Der schnellste Schritt bei dieser Ausführung war das Lösen des Problems. Sobald das Problem geöffnet wurde, wurde im Chat eine Lösung angezeigt. Das war sehr beeindruckend für mich.
Eine Aufgabe im Projekt Mariner unterrichten
Project Mariner wird mit einer Chrome-Erweiterung geliefert, mit der wir ihm beibringen können, wie man Aufgaben ausführt. Es zeichnet deinen Bildschirm auf, während du die Aufgabe ausführst und ihr erklärst (ja, du musst sprechen, während du die Aufgabe ausführst).
Aus diesen Daten wird eine Liste von Aktionen erstellt. Ich habe versucht, ihm beizubringen, wie man bei Walmart einkauft, und das ist das Ergebnis:
Ich weiß nicht, ob es auch andere Daten sammelt, aber ich hatte das Gefühl, dass es ein großer Aufwand war, die Aufgabe durchzuführen und zu erklären, nur um diese Liste zu erhalten, die ich in ein paar Sekunden hätte tippen können.
Ich habe versucht, die Aufgabe auszuführen, aber es hat nicht funktioniert. Es fühlt sich an, als würden Schritte fehlen, wie zum Beispiel die Frage, was auf der Einkaufsliste steht. Du kannst eine Aufgabe manuell bearbeiten, bevor du sie erstellst, aber ich habe keine Möglichkeit gefunden, sie nachträglich zu bearbeiten.
Im Moment habe ich das Gefühl, dass diese Funktion noch unterentwickelt und nicht einsatzbereit ist. Außerdem fiel es mir schwer, einen Anwendungsfall zu finden, denn wenn ich das Programm nur gebeten hätte, Artikel aus einer Einkaufsliste in einen Walmart-Warenkorb zu legen, hätte es bessere Arbeit geleistet.
Vor- und Nachteile von Project Mariner
Die guten Seiten
Gut im Internet surfen
Alle Aufgaben, die das Surfen im Internet und die Suche nach Informationen auf einer Website betreffen, scheinen gut zu funktionieren. Die Anwendungsfälle Kinokarte und Klempner sind gute Beispiele dafür.
Mit mehreren Tabs arbeiten
Mariner kann Aufgaben lösen, die die Verwendung mehrerer Tabs und die Durchführung aufeinander folgender Google-Suchen erfordern.
Visuelles Verständnis
Trotz seiner Langsamkeit ist er gut darin, den Inhalt der Website und ihre Elemente zu verstehen. Er kann mit Elementen interagieren, Formulare ausfüllen und auf Schaltflächen klicken, um die Website zu steuern.
Die schlechten Seiten
Hier sind meiner Meinung nach die Hauptprobleme mit der aktuellen Version von Project Mariner.
Hindernisse für die Automatisierung des Webs
Das Navigieren im Web ist ein komplexer Prozess, der automatisierte Tools wie Project Mariner vor zahlreiche Herausforderungen stellt. Eine große Hürde ist der Widerstand von Websites durch Tools wie Cloudflare und reCAPTCHA, die Bots blockieren und vor bösartigen Aktivitäten schützen sollen.
Während meiner Versuche wurde ich sehr oft blockiert. Selbst als ich eines der vorgeschlagenen Beispiele ausprobierte, wurde ich von der Website blockiert:
Diese Widerstände erschweren die Ausführung der Aufgaben von Mariner, denn es ist schwierig, diese Barrieren, die für die menschliche Überprüfung gedacht sind, zu umgehen. Außerdem sind Websites aufgrund von Vorschriften oft mit Cookie-Bannern und Pop-ups versehen, so dass die Nutzer/innen gezwungen sind, ständig Entscheidungen über ihre Datenpräferenzen zu treffen.
Mariner wählt die Cookies nicht automatisch aus, da die Nutzer/innen diese Auswahl wahrscheinlich auf der Grundlage ihrer Datenschutzpräferenzen treffen sollten. Es kann auch Vorschriften geben, die eine Automatisierung dieser Entscheidungen verhindern. Infolgedessen erhöhen die zahlreichen Entscheidungspunkte und notwendigen Interaktionen die Komplexität und die Reibung, damit Tools wie Mariner effizient funktionieren.
Im Idealfall wollen wir Aufgaben automatisieren, um den manuellen Aufwand zu reduzieren, aber der aktuelle Stand dieser Tools erfordert immer noch einen erheblichen Aufwand, was deutlich macht, dass wir weit davon entfernt sind, eine wirklich nahtlose und hilfreiche Automatisierung zu erreichen.
Langsame Verarbeitung der UI
Ein weiteres Problem, mit dem Mariner im Moment zu kämpfen hat, ist die Geschwindigkeit. Es dauert lange, den Inhalt auf dem Bildschirm zu verarbeiten. Selbst das Ausfüllen der einfachsten Formulare kann Minuten dauern.
Nicht genug Argumente
Bei meinen Experimenten schien es so, als ob der Agent bei jeder Entscheidung, z. B. bei welcher Plattform er Kinokarten kaufen oder welches Sanitärunternehmen er beauftragen sollte, die Optionen nacheinander in der Reihenfolge bewertete, in der sie erschienen.
Das ist keine gute Strategie und es ist auch nicht die Art, wie Menschen normalerweise ihre Entscheidungen treffen. Ich habe das Gefühl, dass dem Agenten bei seinen Entscheidungen ein Schritt der Argumentation und Recherche fehlt.
Integration mit dem Browser
Ich kämpfte damit, die Tabs mit ihm zu teilen. Oft wurde ich ausgeloggt und konnte nicht mehr auf die Informationen zugreifen, die in dem von mir freigegebenen Tab angezeigt wurden. Die Abhilfe bestand darin, sich manuell in dem verwendeten Browser anzumelden. Das ist umständlich und macht mir keine Lust, es zu benutzen.
Ich denke, es wäre besser, wenn es eine Chrome-Erweiterung wäre, die Seite an Seite mit dem aktuell geöffneten Tab läuft. Auf diese Weise kannst du ihn jederzeit bitten, die Kontrolle über die Registerkarte zu übernehmen und direkt Aktionen durchzuführen.
Ich gehe davon aus, dass es bei diesem Ansatz Sicherheitsbedenken gibt, aber ich sehe nicht, dass es sehr nützlich ist, wenn man seinen Browser benutzt, der von unserem getrennt ist, weil die meisten Aufgaben dann eine lange Einrichtung, wie z.B. Logins, erfordern, um abgeschlossen zu werden.
Loops
Es kommt oft vor, dass er in Schleifen gerät, in denen er mich fragt, ob etwas in Ordnung ist, und dann immer weiter fragt, ohne weiterzugehen. Hier ist ein Beispiel:
Datenschutz und Sicherheitsbedenken
Ein weiterer wichtiger Aspekt betrifft den Datenschutz und die Sicherheit. Hier ist der offizielle Datenschutzhinweis.
Kurz gesagt, Googles Project Mariner sammelt deine Konversationen, Browsing-Daten und die Nutzung von Funktionen, um seine Dienste und KI zu verbessern, und folgt dabei Googles Datenschutzbestimmungen. Einige Daten können von echten Menschen überprüft werden. Vermeide es daher, vertrauliche Informationen weiterzugeben.
Fazit
Project Mariner ist immer noch ein sehr experimentelles Produkt - langsam, begrenzt im Umfang und anfällig für Hindernisse wie CAPTCHA oder Login-Probleme. In seinem jetzigen Zustand lohnt es sich meiner Meinung nach nicht, ein Abonnement abzuschließen, nur um Zugang zu haben.
Was ich am meisten an Googles Ansatz schätze, ist die Bereitschaft, unfertige Prototypen frühzeitig zu veröffentlichen. Durch diese Art von Transparenz und Iteration können sie schnell lernen und mit der Zeit bessere Produkte entwickeln.
Im Gegensatz dazu scheint Apple, das es vorzieht, nur perfekt ausgefeilte Produkte auf den Markt zu bringen, den Anschluss an das sich schnell entwickelnde KI-Rennen zu verlieren. KI lebt von Daten und der Nutzung in der Praxis. Daher ist die Veröffentlichung dieser frühen Tools, auch wenn sie noch nicht fertig sind, ein kluger Weg, um schnell zu iterieren und zu verbessern.