OpenAI's Operator: Beispiele, Anwendungsfälle, Wettbewerb und mehr

Erfahre mehr über OpenAI Operator, einen KI-Agenten, der das neue Computer-Using Agent (CUA)-Modell verwendet und selbstständig auf Websites navigieren und Aufgaben erledigen kann.

Aktualisiert 24. Jan. 2025 · 8 Min. lesen

OpenAI hat kürzlich Operatorangekündigt , einen KI-Agent der webbasierte Aufgaben selbstständig erledigen kann. Es kann Aufgaben wie die Reservierung eines Tisches oder das Online-Shopping übernehmen und vereinfacht so die digitale Interaktion bei alltäglichen Aufgaben.

Wir glauben jedoch, dass sein Potenzial über die Bequemlichkeit hinausgeht - es könnte Menschen mit mangelnden Computerkenntnissen helfen, indem es ihnen ermöglicht, Aufgaben wie das Ausfüllen von Formularen oder das Navigieren auf komplexen Websites mit Leichtigkeit zu erledigen.

Durch die weitere Integration von Sprachbefehlen könnte es außerdem eine leichter zugängliche Lösung für Menschen mit Behinderungen, wie z.B. Sehbehinderungen, darstellen.

Operator betritt ein wettbewerbsfähiges Feld, zu dem auch Anthropic's Computer-Nutzungs Fähigkeiten und Googles Project Mariner. Ein Unterschied besteht darin, dass für die Werkzeuge von Anthropic (vorerst) Programmierkenntnisse erforderlich sind, während Operator es den Nutzern ermöglicht, Anweisungen in einfacher Sprache zu geben, was es leichter zugänglich macht.

In diesem Blog erklären wir, was Operator ist, erforschen seine Kerntechnologie (CUA), erläutern seine Anwendungsfälle und Grenzen und diskutieren, wo er in den breiteren Kontext der KI-Agenten passt.

Was ist Operator?

Operator ist der erste KI-Agent von OpenAI, der selbstständig Aufgaben im Internet erledigen soll. Ein KI-Agent ist ein System, das Anweisungen entgegennehmen, sie durchdenken und Aktionen ohne ständige menschliche Aufsicht ausführen kann.

Im Gegensatz zu herkömmlichen Automatisierungstools, die sich auf vordefinierte APIs oder starre Workflows verlassen, interagiert Operator direkt mit Websites und ahmt menschliche Aktionen wie Klicken, Tippen und Scrollen nach. Sein Hauptziel ist es, digitale Aufgaben zu vereinfachen, die sonst manuellen Aufwand oder technisches Fachwissen erfordern würden.

Damit eignet sie sich sowohl für alltägliche Tätigkeiten wie die Verwaltung von Reservierungen oder das Ausfüllen von Formularen als auch für komplexere, mehrstufige Arbeitsabläufe. Hier ist ein Beispiel für die Verwendung von Operator:

Quelle: OpenAI

Der Operator verwendet einen virtuellen Browser, um auf Websites zu navigieren. Diese virtuelle Umgebung ermöglicht es ihm, mit grafischen Benutzeroberflächen (GUIs) zu interagieren, wie es ein menschlicher Benutzer tun würde. Anstatt dass Webseiten spezielle APIs benötigen, interpretiert Operator das visuelle Layout einer Webseite, klickt auf Schaltflächen, tippt in Felder und scrollt durch Inhalte.

Operator verlässt sich auf Anweisungen in einfacher Sprache, um zu verstehen, was die Benutzer brauchen. Sobald die Aufgabe festgelegt ist, verarbeitet sie die Anweisungen, zerlegt sie in umsetzbare Schritte und führt sie aus, während sie dem/der Nutzer/in Feedback gibt. Der Betreiber kann auch um Klärung oder Bestätigungen für kritische Aktionen bitten, z. B. das Absenden eines Formulars oder das Abschließen einer Zahlung, und so eine bessere Kontrolle über seine Leistung gewährleisten.

Was ist ein Computer-User-Agent (CUA)?

Der Computer-Using Agent (CUA) ist die Kerntechnologie von Operator. Die Kombination von GPT-4o's Vision-Fähigkeiten mit fortgeschrittenem Reasoning durch VerstärkungslernenDie CUA ist darauf trainiert, mit grafischen Benutzeroberflächen zu interagieren - den Schaltflächen, Menüs und Textfeldern, die Menschen auf einem Bildschirm sehen.

Wahrnehmung

CUA beginnt mit der Verarbeitung von Pixel-Rohdaten aus Screenshots des Bildschirms. Es nutzt diese visuellen Informationen, um wichtige Oberflächenelemente wie Schaltflächen, Eingabefelder und Navigationsmenüs zu identifizieren.

Quelle: OpenAI

Vernunft

Sobald die visuellen Daten analysiert sind, wendet die CUA das Chain-of-Thought-Prinzip an, um ihre Aktionen zu planen. Durch die Integration aktueller und vergangener Screenshots wertet er seine Beobachtungen aus, zerlegt Aufgaben in kleinere Schritte und passt sich dynamisch an Herausforderungen an. Wenn zum Beispiel während einer Aufgabe ein Pop-up erscheint (wie die Anzeige im obigen Beispiel), kann die CUA ihren Ansatz anpassen und einen Weg finden, um fortzufahren, ähnlich wie ein menschlicher Nutzer es tun würde.

Aktion

Die CUA verwendet virtuelle Maus- und Tastatureingaben, um Aktionen wie Klicken, Tippen, Scrollen und das Absenden von Formularen durchzuführen. Mit dieser Funktionalität kann es Aufgaben selbstständig ausführen, sei es die Auswahl eines Elements aus einem Dropdown-Menü oder das Navigieren durch ein mehrstufiges Formular.

Für kritische Aktionen - wie Zahlungen oder das Einloggen in Konten - holt die CUA die Bestätigung der Benutzer/innen ein, bevor sie fortfahren, um sicherzustellen, dass die Benutzer/innen die Kontrolle über sensible Vorgänge behalten.

CUA-Benchmarks

Die CUA hat bei mehreren Benchmarks die beste Leistung (SOTA) erzielt:

Benchmark-Typ	Benchmark	Computereinsatz (Universal Interface)		Web-Browsing-Agenten	Human
		OpenAI CUA	Vorherige SOTA	Vorherige SOTA
Computereinsatz	OSWorld	38.1%	22.0%		72.4%
Browser Verwendung	WebArena	58.1%	36.2%	57.1%	78.2%
Browser Verwendung	WebVoyager	87.0%	56.0%	87.0%

Quelle: OpenAI

Schauen wir unsan, was jeder dieser drei Benchmarks macht:

OSWorld (38,1%): Bewertet die Fähigkeit, Aufgaben in vollständigen Betriebssystemen wie Ubuntu, Windows und macOS durchzuführen. Obwohl CUA die bisherigen Modelle übertrifft, liegt seine Erfolgsquote immer noch unter dem menschlichen Benchmark von 72,4 %.
WebArena (58.1%): Bewertet die Leistung beim Navigieren auf simulierten Websites, einschließlich E-Commerce und sozialen Plattformen. Es übertrifft zwar frühere Modelle, hat aber noch Verbesserungspotenzial bei der Handhabung komplexer, mehrstufiger Interaktionen.
WebVoyager (87%): Misst die Effektivität auf Live-Websites wie Amazon, GitHub und Google Maps. CUA schneidet hier gut ab, da die Aufgaben im Vergleich zu WebArena einfacher und strukturierter sind.

Die folgende Grafik zeigt die Leistung von OpenAIs CUA im Vergleich zu Claude 3.5 Sonnet im OSWorld Benchmark. Die x-Achse stellt die maximale Anzahl der Schritte dar, die für die Erledigung der Aufgabe erlaubt sind, während die y-Achse die Erfolgsquote in Prozent anzeigt. CUA zeigt eine stetige Verbesserung, je mehr Schritte erlaubt werden, und übertrifft damit frühere State-of-the-Art-Modelle.

Grafik zum Vergleich von OpenAIs CUA und Claude 3.5 Sonnet im OSWorld Benchmark

Quelle: OpenAI

Wie man auf den Operator zugreift

Operator ist derzeit in den Vereinigten Staaten als Teil einer Forschungsvorschau für Pro-Benutzer von ChatGPT verfügbar. Um darauf zuzugreifen, brauchst du ein aktives Pro-Abonnement. Du kannst besuchen operator.chatgpt.com um mit der Nutzung von Operator zu beginnen.

Im Moment ist Operator auf Pro-Nutzer/innen beschränkt, aber OpenAI plant, den Zugang in den kommenden Monaten auf Plus-Nutzer/innen auszuweiten. Die Einführungsstrategie ermöglicht es OpenAI, Feedback zu sammeln und das System zu verbessern, bevor es einem breiteren Publikum angeboten wird.

Während sich Operator in der Anfangsphase auf US-Nutzer/innen konzentriert, hat OpenAI erklärt, dass der Zugang in Europa und anderen Regionen aufgrund von regulatorischen Herausforderungen länger dauern wird. Nutzerinnen und Nutzer in diesen Regionen müssen auf zukünftige Updates warten, während OpenAI daran arbeitet, diese Komplexität zu bewältigen.

UI-Meldung, dass der Betreiber in Europa nicht verfügbar ist

Für die Zukunft plant OpenAI außerdem, die zugrunde liegende Technologie hinter Operator, bekannt als CUA, über eine API verfügbar zu machen. Dies würde es Entwicklern ermöglichen, ihre eigenen KI-gesteuerten Agenten für eigene Anwendungen zu erstellen.

Anwendungsfälle des Betreibers

Die Demo-Beispiele für Operator - wie z.B. die Buchung eines Tisches oder das Online-Shopping - sind zwar funktional, aber wir finden sie nicht besonders praktisch. Oft ist es schneller und einfacher, diese Aufgaben manuell zu erledigen, als die Ausführung einer KI zu überwachen.

Das Potenzial von Operator wird jedoch deutlicher, wenn du über diese Anwendungsfälle hinaus denkst und dich auf Barrierefreiheit oder institutionelle Unterstützung konzentrierst.

Anwendungsfälle des Betreibers

Zugänglichkeit

Einer der wirkungsvollsten Bereiche, in denen Operator glänzen könnte, ist die Barrierefreiheit. Für Menschen mit begrenzten Computerkenntnissen, wie z. B. ältere Menschen oder Technikneulinge, könnte der Operator als Wegweiser fungieren und ihnen helfen, komplexe Online-Aufgaben zu bewältigen, ohne dass sie dafür Vorkenntnisse benötigen.

Stell dir vor, dies würde mit Sprachbefehlen kombiniert - die Nutzer müssten nicht einmal eine Eingabeaufforderung eingeben, was das Tool noch intuitiver machen würde.

Auch für Menschen mit Behinderungen, z. B. mit Sehbehinderungen, könnte der Operator ihnen helfen, mit Websites zu interagieren, die sonst unzugänglich wären, vor allem, wenn er mit Audio-Feedback oder Screenreader-Unterstützung kombiniert wird.

Institutionelle Unterstützung

Der Betreiber hat ein großes Potenzial in staatlichen und institutionellen Einrichtungen. Sie könnte Bürgerinnen und Bürgern beim Ausfüllen komplexer Formulare helfen, z. B. bei der Beantragung von Visa, bei der Steuererklärung oder beim Zugang zu Sozialleistungen. Dies würde die Abhängigkeit von persönlicher Hilfe verringern und die Abläufe sowohl für Nutzer als auch für Institutionen verbessern.

Im Bildungsbereich könnte der Operator Online-Bewerbungssysteme, Stipendieneinreichungen und Rechercheaufgaben vereinfachen, so dass Studierende oder Personen mit begrenzten digitalen Kenntnissen diese Prozesse besser bewältigen können.

Kleine Unternehmen und berufliche Aufgaben

Am Arbeitsplatz könnte Operator für kleine Unternehmen wertvoll sein, indem er sich wiederholende webbasierte Aufgaben wie die Verwaltung des Lagerbestands, die Bearbeitung von Online-Bestellungen oder die Erfassung von Kundenfeedback automatisiert. Für Berufstätige könnte es mühsame Arbeitsabläufe wie das Sammeln von Informationen aus verschiedenen Quellen oder das Ausfüllen von Formularen übernehmen und so Zeit für strategischere Aufgaben freisetzen.

Gesundheitswesen und gemeinnützige Organisationen

Das Gesundheitswesen und gemeinnützige Organisationen könnten erheblich von Operator profitieren. Kliniken könnten es nutzen, um Patienten beim Ausfüllen von Online-Anmeldeformularen oder beim Zugriff auf Ressourcen zu helfen, ohne dass viel Personal benötigt wird.

Non-Profit-Organisationen, die in Regionen mit geringer digitaler Kompetenz tätig sind, könnten einen Operator einsetzen, der unterversorgten Bevölkerungsgruppen hilft, sich in wichtigen Online-Systemen zurechtzufinden, um sicherzustellen, dass technologische Barrieren den Zugang zu wichtigen Dienstleistungen nicht einschränken.

Wettbewerb der KI-Agenten

OpenAIs Operator betritt den Raum der KI-Agenten neben den Computernutzungsfähigkeiten von Anthropic und Googles Project Mariner.

Anthropics Computernutzung

Der Computer von Anthropic verwendet, angetrieben durch seine Claude 3.5 Sonnet Modell, kann die KI mit Desktop-Umgebungen interagieren, indem sie menschliche Aktionen wie Klicken, Tippen und Navigieren simuliert. Derzeit erfordert diese Funktion einige technische Kenntnisse, um sie einzurichten und effektiv über die API zu nutzen, was die Zugänglichkeit für technisch nicht versierte Nutzer/innen einschränkt.

Im Gegensatz dazu sind für die Benutzeroberfläche von Operator keine Programmierkenntnisse erforderlich, was sie für ein breiteres Publikum benutzerfreundlich macht. Anthropic wird jedoch mit ziemlicher Sicherheit daran arbeiten, seine Tools zu vereinfachen, um mit dem zugänglichen Design von Operator konkurrieren zu können.

Googles Projekt Mariner

Projekt MarinerDas von Googles DeepMind entwickelte Projekt Mariner ist ein experimenteller Agent, der selbstständig durch Webseiten navigieren und mit ihnen interagieren kann. Mariner befindet sich zwar noch in der Forschungsphase, wird aber bereits mit einer kleinen Gruppe von Nutzern getestet. Die Integration in das Google-Ökosystem deutet darauf hin, dass es sich hervorragend für Workflows mit Google Mail, Google Docs und anderen Google-Diensten eignet.

Fazit

Operator ist der erste Schritt von OpenAI in das wettbewerbsintensive Feld der KI-Agenten und bietet mit seiner leicht verständlichen Oberfläche und dem universellen browserbasierten Design einen einzigartigen Ansatz. Während Tools wie Anthropics Computereinsatz und Googles Project Mariner ihre eigenen Stärken haben, hebt sich Operator durch seinen Fokus auf Barrierefreiheit ab.

Wir sind auch neugierig darauf, ob andere Akteure wie DeepSeek oder Meta dem Wettbewerb beitreten werden. 2025 könnte tatsächlich dem Hype gerecht werden und das Jahr der agentenbasierten KI werden.

Kann OpenAI Operator mehr als eine Aufgabe gleichzeitig erledigen?

Ist OpenAI Operator ein KI-Agent?

Wie funktioniert der Operator?

Wer kann Operator jetzt schon gebrauchen und wie kann er anfangen?

Was sind die aktuellen Grenzen von Operator?

Wird Operator auf mobilen Geräten verfügbar sein?

Wie ist Operator im Vergleich zu Sprachassistenten wie Siri oder Google Assistant?

Kann Operator mit Websites umgehen, die CAPTCHA oder erweiterte Sicherheitsfunktionen verwenden?

Author

Josef Waples

Themen

Künstliche Intelligenz

Große Sprachmodelle

OpenAI

Lerne KI mit diesen Kursen!

Lernpfad

Grundlagen der KI

10 Std.

Lerne die Grundlagen der KI kennen, finde heraus, wie du KI effektiv bei der Arbeit nutzen kannst, und tauche in Modelle wie chatGPT ein, um dich in der dynamischen KI-Landschaft zurechtzufinden.

Details anzeigen

Kurs starten

Kurs

Strategien für künstliche Intelligenz (KI)

3 Std.

18.6K

Hier lernst du, wie du Business, Daten und KI kombinierst und eine effektiv skalierbare KI-Strategie erfolgreich und zielführend umsetzt.

Details anzeigen

Kurs starten

Kurs

ChatGPT für Fortgeschrittene

1 Std.

29.1K

Lerne die Architektur hinter GPT-Modellen kennen und meistere die Erstellung fortgeschrittener Prompts, um das volle Potenzial von ChatGPT auszuschöpfen.

Details anzeigen

Kurs starten

Verwandt

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Mehr anzeigen Mehr anzeigen

Was ist Operator?

Was ist ein Computer-User-Agent (CUA)?

Wahrnehmung

Vernunft

Aktion

CUA-Benchmarks

Wie man auf den Operator zugreift

Anwendungsfälle des Betreibers

Zugänglichkeit

Institutionelle Unterstützung

Kleine Unternehmen und berufliche Aufgaben

Gesundheitswesen und gemeinnützige Organisationen

Wettbewerb der KI-Agenten

Anthropics Computernutzung

Googles Projekt Mariner

Fazit

FAQs

Wie funktioniert der Operator?

Wer kann Operator jetzt schon gebrauchen und wie kann er anfangen?

Was sind die aktuellen Grenzen von Operator?

Wird Operator auf mobilen Geräten verfügbar sein?

Wie ist Operator im Vergleich zu Sprachassistenten wie Siri oder Google Assistant?

Kann Operator mit Websites umgehen, die CAPTCHA oder erweiterte Sicherheitsfunktionen verwenden?

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Grundlagen der KI

Strategien für künstliche Intelligenz (KI)

ChatGPT für Fortgeschrittene

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

Grundlagen der KI