Direkt zum Inhalt

Projekt Mariner: Ein Leitfaden mit fünf praktischen Beispielen

Lerne Googles Project Mariner anhand von Beispielen aus der Praxis kennen und erfahre mehr über seine Stärken und Schwächen.
Aktualisierte 19. Juni 2025  · 8 Min. Lesezeit

Projekt Mariner ist der experimentelle KI-Browser-Agent von Google DeepMind. Mariner nutzt die leistungsstarken multimodalen Fähigkeiten von Gemini, um deinen Bildschirm zu sehen, zu verstehen, was angezeigt wird, Aufgaben zu planen und sie selbstständig auszuführen - durch Klicken, Tippen, Scrollen und Ausfüllen von Formularen in deinem Namen.

In diesem Blogbeitrag teile ich meine Erfahrungen mit den folgenden fünf Aufgaben aus der Praxis:

  • Kinokarten buchen
  • Flüge finden
  • Einen Klempner für die Reparatur meiner Küchenspüle buchen
  • Durchsuche das Internet, um ein Arbeitsblatt auszufüllen
  • Löse ein LeetCode Problem

Wir halten unsere Leserinnen und Leser mit dem kostenlosen FreitagsnewsletterThe Medianauf dem Laufenden , in dem wir die wichtigsten Themen der Woche aufschlüsseln. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:

Wie funktioniert das Projekt Mariner?

Project Mariner verwendet eine auf Eingabeaufforderungen basierende Benutzeroberfläche, mit der wir beschreiben können, was wir tun wollen. Dann startet er einen Browser und versucht, die Aufgabe auf der Grundlage dieser Eingabe zu erledigen.

Projekt Mariner's UI

Im Moment ist es auf browserbezogene Aufgaben beschränkt - es kann nicht auf deinen Computer zugreifen oder ihn kontrollieren. Hinter den Kulissen läuft es in einem Browser und verlässt sich auf die multimodalen Fähigkeiten von Gemini, um die Arbeit zu erledigen. Er kann den Inhalt des Fensters sehen und verstehen, Klicks ausführen und Text eingeben.

Ich habe Project Mariner bei verschiedenen Aufgaben getestet. Für jede habe ich den Prozess aufgezeichnet und werde dir die Ergebnisse zeigen. Da Mariner ziemlich langsam bei der Erledigung von Aufgaben ist, habe ich die Videos bearbeitet, um die langsameren Abschnitte zu beschleunigen.

Wie erreiche ich Project Mariner?

Project Mariner ist derzeit für US-Nutzer verfügbar, die den Google AI Ultra-Tarif für 249,99 $ pro Monat abonniert haben.

Dieser Plan bietet viele andere Tools (wie Veo 3), erweiterte Gemini-Modelle und -Funktionen sowie Datenspeicherung. Allerdings ist es derzeit der einzige Plan, der dir Zugang zu Project Mariner bietet, was es zu einem sehr teuren Tool macht.

Sehen wir uns ein paar Beispiele an.

Beispiel 1: Kinokarten buchen

Das erste, was ich versucht habe, war, Kinokarten zu buchen. Ich habe die folgende Aufforderung verwendet:

"Finde einen Horrorfilm, der an diesem Freitagabend in New York im Kino läuft und hilf mir, eine Karte zu buchen."

Hier ist eine Aufschlüsselung, wie sie die Aufgabe gelöst hat:

  1. Habe eine Google-Suche durchgeführt, um Horrorfilme zu finden, die am Freitag laufen
  2. Von den Optionen wählte er die erste
  3. Dann hat er die Schaltfläche zum Buchen der Tickets identifiziert und die erste Option, Alamo Drafthouse Cinema, ausprobiert.
  4. Das hat nicht funktioniert, also hat er sich für Fandango entschieden.
  5. Schließlich bat es mich um mein Eingreifen bei der Auswahl des Sitzes.
  6. Dann wurde ich auch noch aufgefordert, zu bestätigen, bevor ich auf die Bezahlseite weitergeleitet wurde.
  7. An diesem Punkt wurde die Aufgabe als erledigt markiert und ich konnte manuell fortfahren.

Ich denke, das war insgesamt ein Erfolg. Da ich den Sitzplatz nicht ausgewählt habe, war die Aufforderung, mit der Sitzplatzauswahl fortzufahren, meiner Meinung nach unnötig. Er hätte auch von selbst auf die Bezahlseite gelangen können, ohne mich nach meiner Zustimmung zu fragen. Danach finde ich es positiv, dass die Interaktion nicht automatisiert ist, denn ich würde kein Geld ausgeben wollen, ohne dass ich es manuell bestätigt habe.

Beispiel 2: Suche nach den besten Flügen

Ich muss von Portugal nach Taiwan reisen und dabei Belgien durchqueren. Also dachte ich mir, ich versuche mal zu sehen, wie Mariner die besten Flüge für mich findet. Hier ist die Aufforderung, die ich verwendet habe (ich habe keine Angaben zu den Daten gemacht, um zu sehen, was passieren würde):

"Ich möchte von Portugal nach Taiwan reisen und dabei drei Tage lang an Belgien vorbeikommen. Hilf mir, die besten Flüge zu finden."

Das hier war sehr enttäuschend. Das einzige, was es tat, war, zu Google Flights zu navigieren und das Formular für mich auszufüllen. Außerdem ist Mariner ziemlich langsam, wenn es darum geht, zu erkennen, wohin man beim Navigieren auf der Website klicken muss.

Ich habe auch versucht, das Programm zu bitten, die Tickets zu buchen, aber es ist in eine Schleife geraten, und ich habe schließlich aufgegeben.

Beispiel 3: Einen Klempner finden und buchen

Als Nächstes war ich neugierig, ob es mir helfen könnte, einen Klempner zu finden. Für dieses Beispiel habe ich eine zufällige Adresse in New York gewählt, um zu sehen, ob es in der Lage ist, jemanden in der Nähe dieses Ortes zu finden und die Buchung auszuführen.

"Ich wohne in der Wilson Ave. 33. Hamburg, NY 14075. Finde und buche einen Klempner für morgen, um ein Leck in meiner Küchenspüle zu reparieren."

Diese Aufgabe hat ganz gut funktioniert. Er konnte eine Klempnerfirma in New York finden und einen Termin vereinbaren. Wenn es Informationen wie meinen Namen und meine E-Mail-Adresse brauchte, hielt es an und fragte danach und füllte dann das Formular automatisch aus.

Beispiel 4: Ausfüllen von Daten in einem Google Sheet

Eine häufige, aber sehr mühsame Aufgabe ist es, Daten aus verschiedenen Quellen zu sammeln und sie in eine Tabelle zu übertragen. Um die Fähigkeit von Mariner zu testen, eine solche Aufgabe zu lösen, habe ich ein einfaches Blatt mit KI-Unternehmen erstellt.

Beispiel Spreedsheet

Dann gab ich ihm Zugriff auf die Registerkarte und bat es, im Internet nach den Kontakt-E-Mails der Unternehmen zu suchen und die Spalte Email auszufüllen.

Wie du wahrscheinlich bemerkt hast, lief alles gut, bis auf einen Fall. Als ich nach der E-Mail von Google DeepMind suchte, geriet es in eine Schleife, sodass ich es schließlich stoppte und bat, es noch einmal zu versuchen - diesmal war es erfolgreich.

Beispiel 5: Lösen eines LeetCode-Problems

Für das letzte Beispiel wollte ich etwas Komplexeres schaffen, also habe ich die folgende Frage gestellt:

"Gehe zu LeetCode und löse ein mittelschweres Problem deiner Wahl mit Python 3"

Zuerst wurde versucht, mit Hilfe von Filtern ein Problem mit mittlerem Schwierigkeitsgrad zu finden, aber aus irgendeinem Grund hat das nicht funktioniert. Dann hat es aufgegeben und ein Problem gefunden, ohne dass ich eingreifen musste.

Dann hat er den Code im Chat geschrieben, anstatt die LeetCode-Schnittstelle zu verwenden. Ich habe ihn gebeten, die Antwort direkt in die Schnittstelle einzugeben, aber sie wurde mit einer sehr seltsamen Formatierung angezeigt, die er nicht korrigieren konnte.

Dann habe ich ihn gebeten, die Lösung wieder in den Chat zu schreiben, und ich habe sie manuell eingestellt. Ich war neugierig, ob die Antwort richtig war. Allerdings konnte ich mich wegen Cloudflare nicht bei LeetCode anmelden. Dieses Problem ist mir beim Testen von Mariner häufig aufgefallen.

Ich habe die Lösung später mit meinem LeetCode-Konto eingereicht, und sie war korrekt. Der schnellste Schritt bei dieser Ausführung war das Lösen des Problems. Sobald das Problem geöffnet wurde, wurde im Chat eine Lösung angezeigt. Das war sehr beeindruckend für mich.

Eine Aufgabe im Projekt Mariner unterrichten

Project Mariner wird mit einer Chrome-Erweiterung geliefert, mit der wir ihm beibringen können, wie man Aufgaben ausführt. Es zeichnet deinen Bildschirm auf, während du die Aufgabe ausführst und ihr erklärst (ja, du musst sprechen, während du die Aufgabe ausführst).

Aus diesen Daten wird eine Liste von Aktionen erstellt. Ich habe versucht, ihm beizubringen, wie man bei Walmart einkauft, und das ist das Ergebnis:

Ausgabe der Aufgabenschulung

Ich weiß nicht, ob es auch andere Daten sammelt, aber ich hatte das Gefühl, dass es ein großer Aufwand war, die Aufgabe durchzuführen und zu erklären, nur um diese Liste zu erhalten, die ich in ein paar Sekunden hätte tippen können.

Ich habe versucht, die Aufgabe auszuführen, aber es hat nicht funktioniert. Es fühlt sich an, als würden Schritte fehlen, wie zum Beispiel die Frage, was auf der Einkaufsliste steht. Du kannst eine Aufgabe manuell bearbeiten, bevor du sie erstellst, aber ich habe keine Möglichkeit gefunden, sie nachträglich zu bearbeiten.

Im Moment habe ich das Gefühl, dass diese Funktion noch unterentwickelt und nicht einsatzbereit ist. Außerdem fiel es mir schwer, einen Anwendungsfall zu finden, denn wenn ich das Programm nur gebeten hätte, Artikel aus einer Einkaufsliste in einen Walmart-Warenkorb zu legen, hätte es bessere Arbeit geleistet.

Vor- und Nachteile von Project Mariner

Die guten Seiten

Gut im Internet surfen

Alle Aufgaben, die das Surfen im Internet und die Suche nach Informationen auf einer Website betreffen, scheinen gut zu funktionieren. Die Anwendungsfälle Kinokarte und Klempner sind gute Beispiele dafür.

Mit mehreren Tabs arbeiten

Mariner kann Aufgaben lösen, die die Verwendung mehrerer Tabs und die Durchführung aufeinander folgender Google-Suchen erfordern.

Visuelles Verständnis

Trotz seiner Langsamkeit ist er gut darin, den Inhalt der Website und ihre Elemente zu verstehen. Er kann mit Elementen interagieren, Formulare ausfüllen und auf Schaltflächen klicken, um die Website zu steuern.

Die schlechten Seiten

Hier sind meiner Meinung nach die Hauptprobleme mit der aktuellen Version von Project Mariner.

Hindernisse für die Automatisierung des Webs

Das Navigieren im Web ist ein komplexer Prozess, der automatisierte Tools wie Project Mariner vor zahlreiche Herausforderungen stellt. Eine große Hürde ist der Widerstand von Websites durch Tools wie Cloudflare und reCAPTCHA, die Bots blockieren und vor bösartigen Aktivitäten schützen sollen.

Während meiner Versuche wurde ich sehr oft blockiert. Selbst als ich eines der vorgeschlagenen Beispiele ausprobierte, wurde ich von der Website blockiert:

Diese Widerstände erschweren die Ausführung der Aufgaben von Mariner, denn es ist schwierig, diese Barrieren, die für die menschliche Überprüfung gedacht sind, zu umgehen. Außerdem sind Websites aufgrund von Vorschriften oft mit Cookie-Bannern und Pop-ups versehen, so dass die Nutzer/innen gezwungen sind, ständig Entscheidungen über ihre Datenpräferenzen zu treffen.

Mariner wählt die Cookies nicht automatisch aus, da die Nutzer/innen diese Auswahl wahrscheinlich auf der Grundlage ihrer Datenschutzpräferenzen treffen sollten. Es kann auch Vorschriften geben, die eine Automatisierung dieser Entscheidungen verhindern. Infolgedessen erhöhen die zahlreichen Entscheidungspunkte und notwendigen Interaktionen die Komplexität und die Reibung, damit Tools wie Mariner effizient funktionieren.

Im Idealfall wollen wir Aufgaben automatisieren, um den manuellen Aufwand zu reduzieren, aber der aktuelle Stand dieser Tools erfordert immer noch einen erheblichen Aufwand, was deutlich macht, dass wir weit davon entfernt sind, eine wirklich nahtlose und hilfreiche Automatisierung zu erreichen.

Langsame Verarbeitung der UI

Ein weiteres Problem, mit dem Mariner im Moment zu kämpfen hat, ist die Geschwindigkeit. Es dauert lange, den Inhalt auf dem Bildschirm zu verarbeiten. Selbst das Ausfüllen der einfachsten Formulare kann Minuten dauern. 

Nicht genug Argumente

Bei meinen Experimenten schien es so, als ob der Agent bei jeder Entscheidung, z. B. bei welcher Plattform er Kinokarten kaufen oder welches Sanitärunternehmen er beauftragen sollte, die Optionen nacheinander in der Reihenfolge bewertete, in der sie erschienen.

Das ist keine gute Strategie und es ist auch nicht die Art, wie Menschen normalerweise ihre Entscheidungen treffen. Ich habe das Gefühl, dass dem Agenten bei seinen Entscheidungen ein Schritt der Argumentation und Recherche fehlt.

Integration mit dem Browser

Ich kämpfte damit, die Tabs mit ihm zu teilen. Oft wurde ich ausgeloggt und konnte nicht mehr auf die Informationen zugreifen, die in dem von mir freigegebenen Tab angezeigt wurden. Die Abhilfe bestand darin, sich manuell in dem verwendeten Browser anzumelden. Das ist umständlich und macht mir keine Lust, es zu benutzen.

Ich denke, es wäre besser, wenn es eine Chrome-Erweiterung wäre, die Seite an Seite mit dem aktuell geöffneten Tab läuft. Auf diese Weise kannst du ihn jederzeit bitten, die Kontrolle über die Registerkarte zu übernehmen und direkt Aktionen durchzuführen.

Ich gehe davon aus, dass es bei diesem Ansatz Sicherheitsbedenken gibt, aber ich sehe nicht, dass es sehr nützlich ist, wenn man seinen Browser benutzt, der von unserem getrennt ist, weil die meisten Aufgaben dann eine lange Einrichtung, wie z.B. Logins, erfordern, um abgeschlossen zu werden.

Loops

Es kommt oft vor, dass er in Schleifen gerät, in denen er mich fragt, ob etwas in Ordnung ist, und dann immer weiter fragt, ohne weiterzugehen. Hier ist ein Beispiel:

Beispiel für Mariner-Schleifen

Datenschutz und Sicherheitsbedenken

Ein weiterer wichtiger Aspekt betrifft den Datenschutz und die Sicherheit. Hier ist der offizielle Datenschutzhinweis.

Kurz gesagt, Googles Project Mariner sammelt deine Konversationen, Browsing-Daten und die Nutzung von Funktionen, um seine Dienste und KI zu verbessern, und folgt dabei Googles Datenschutzbestimmungen. Einige Daten können von echten Menschen überprüft werden. Vermeide es daher, vertrauliche Informationen weiterzugeben. 

Fazit

Project Mariner ist immer noch ein sehr experimentelles Produkt - langsam, begrenzt im Umfang und anfällig für Hindernisse wie CAPTCHA oder Login-Probleme. In seinem jetzigen Zustand lohnt es sich meiner Meinung nach nicht, ein Abonnement abzuschließen, nur um Zugang zu haben.

Was ich am meisten an Googles Ansatz schätze, ist die Bereitschaft, unfertige Prototypen frühzeitig zu veröffentlichen. Durch diese Art von Transparenz und Iteration können sie schnell lernen und mit der Zeit bessere Produkte entwickeln.

Im Gegensatz dazu scheint Apple, das es vorzieht, nur perfekt ausgefeilte Produkte auf den Markt zu bringen, den Anschluss an das sich schnell entwickelnde KI-Rennen zu verlieren. KI lebt von Daten und der Nutzung in der Praxis. Daher ist die Veröffentlichung dieser frühen Tools, auch wenn sie noch nicht fertig sind, ein kluger Weg, um schnell zu iterieren und zu verbessern.


François Aubry's photo
Author
François Aubry
LinkedIn
Full-Stack-Ingenieur und Gründer von CheapGPT. Das Unterrichten war schon immer meine Leidenschaft. Schon als Schülerin habe ich eifrig nach Möglichkeiten gesucht, anderen Schülern Nachhilfe zu geben und sie zu unterstützen. Diese Leidenschaft führte dazu, dass ich einen Doktortitel anstrebte, wobei ich auch als Lehrassistentin tätig war, um meine akademischen Bemühungen zu unterstützen. In diesen Jahren fand ich im traditionellen Klassenzimmer große Erfüllung, indem ich Verbindungen förderte und das Lernen erleichterte. Doch mit dem Aufkommen von Online-Lernplattformen erkannte ich das transformative Potenzial der digitalen Bildung. Ich war sogar aktiv an der Entwicklung einer solchen Plattform an unserer Hochschule beteiligt. Es ist mir ein großes Anliegen, traditionelle Unterrichtsprinzipien mit innovativen digitalen Methoden zu verbinden. Meine Leidenschaft ist es, Kurse zu erstellen, die nicht nur ansprechend und informativ, sondern auch für Lernende im digitalen Zeitalter zugänglich sind.
Themen

Lerne KI mit diesen Kursen!

Lernpfad

AI Fundamentals

0 Min.
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.
Vinod Chugani's photo

Vinod Chugani

14 Min.

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Mehr anzeigenMehr anzeigen