Direkt zum Inhalt

OpenAI's Operator: Beispiele, Anwendungsfälle, Wettbewerb und mehr

Erfahre mehr über OpenAI Operator, einen KI-Agenten, der das neue Computer-Using Agent (CUA)-Modell verwendet und selbstständig auf Websites navigieren und Aufgaben erledigen kann.
Aktualisierte 24. Jan. 2025  · 8 Min. Lesezeit

OpenAI hat kürzlich Operatorangekündigt , einen KI-Agent der webbasierte Aufgaben selbstständig erledigen kann. Es kann Aufgaben wie die Reservierung eines Tisches oder das Online-Shopping übernehmen und vereinfacht so die digitale Interaktion bei alltäglichen Aufgaben.

Wir glauben jedoch, dass sein Potenzial über die Bequemlichkeit hinausgeht - es könnte Menschen mit mangelnden Computerkenntnissen helfen, indem es ihnen ermöglicht, Aufgaben wie das Ausfüllen von Formularen oder das Navigieren auf komplexen Websites mit Leichtigkeit zu erledigen.

Durch die weitere Integration von Sprachbefehlen könnte es außerdem eine leichter zugängliche Lösung für Menschen mit Behinderungen, wie z.B. Sehbehinderungen, darstellen.

Operator betritt ein wettbewerbsfähiges Feld, zu dem auch Anthropic's Computer-Nutzungs Fähigkeiten und Googles Project Mariner. Ein Unterschied besteht darin, dass für die Werkzeuge von Anthropic (vorerst) Programmierkenntnisse erforderlich sind, während Operator es den Nutzern ermöglicht, Anweisungen in einfacher Sprache zu geben, was es leichter zugänglich macht.

In diesem Blog erklären wir, was Operator ist, erforschen seine Kerntechnologie (CUA), erläutern seine Anwendungsfälle und Grenzen und diskutieren, wo er in den breiteren Kontext der KI-Agenten passt.

Was ist Operator?

Operator ist der erste KI-Agent von OpenAI, der selbstständig Aufgaben im Internet erledigen soll. Ein KI-Agent ist ein System, das Anweisungen entgegennehmen, sie durchdenken und Aktionen ohne ständige menschliche Aufsicht ausführen kann.

Im Gegensatz zu herkömmlichen Automatisierungstools, die sich auf vordefinierte APIs oder starre Workflows verlassen, interagiert Operator direkt mit Websites und ahmt menschliche Aktionen wie Klicken, Tippen und Scrollen nach. Sein Hauptziel ist es, digitale Aufgaben zu vereinfachen, die sonst manuellen Aufwand oder technisches Fachwissen erfordern würden.

Damit eignet sie sich sowohl für alltägliche Tätigkeiten wie die Verwaltung von Reservierungen oder das Ausfüllen von Formularen als auch für komplexere, mehrstufige Arbeitsabläufe. Hier ist ein Beispiel für die Verwendung von Operator:

Quelle: OpenAI

Der Operator verwendet einen virtuellen Browser, um auf Websites zu navigieren. Diese virtuelle Umgebung ermöglicht es ihm, mit grafischen Benutzeroberflächen (GUIs) zu interagieren, wie es ein menschlicher Benutzer tun würde. Anstatt dass Webseiten spezielle APIs benötigen, interpretiert Operator das visuelle Layout einer Webseite, klickt auf Schaltflächen, tippt in Felder und scrollt durch Inhalte.

Operator verlässt sich auf Anweisungen in einfacher Sprache, um zu verstehen, was die Benutzer brauchen. Sobald die Aufgabe festgelegt ist, verarbeitet sie die Anweisungen, zerlegt sie in umsetzbare Schritte und führt sie aus, während sie dem/der Nutzer/in Feedback gibt. Der Betreiber kann auch um Klärung oder Bestätigungen für kritische Aktionen bitten, z. B. das Absenden eines Formulars oder das Abschließen einer Zahlung, und so eine bessere Kontrolle über seine Leistung gewährleisten.

Was ist ein Computer-User-Agent (CUA)?

Der Computer-Using Agent (CUA) ist die Kerntechnologie von Operator. Die Kombination von GPT-4o's Vision-Fähigkeiten mit fortgeschrittenem Reasoning durch VerstärkungslernenDie CUA ist darauf trainiert, mit grafischen Benutzeroberflächen zu interagieren - den Schaltflächen, Menüs und Textfeldern, die Menschen auf einem Bildschirm sehen.

Wahrnehmung

CUA beginnt mit der Verarbeitung von Pixel-Rohdaten aus Screenshots des Bildschirms. Es nutzt diese visuellen Informationen, um wichtige Oberflächenelemente wie Schaltflächen, Eingabefelder und Navigationsmenüs zu identifizieren.

Quelle: OpenAI

Vernunft

Sobald die visuellen Daten analysiert sind, wendet die CUA das Chain-of-Thought-Prinzip an, um ihre Aktionen zu planen. Durch die Integration aktueller und vergangener Screenshots wertet er seine Beobachtungen aus, zerlegt Aufgaben in kleinere Schritte und passt sich dynamisch an Herausforderungen an. Wenn zum Beispiel während einer Aufgabe ein Pop-up erscheint (wie die Anzeige im obigen Beispiel), kann die CUA ihren Ansatz anpassen und einen Weg finden, um fortzufahren, ähnlich wie ein menschlicher Nutzer es tun würde.

Aktion

Die CUA verwendet virtuelle Maus- und Tastatureingaben, um Aktionen wie Klicken, Tippen, Scrollen und das Absenden von Formularen durchzuführen. Mit dieser Funktionalität kann es Aufgaben selbstständig ausführen, sei es die Auswahl eines Elements aus einem Dropdown-Menü oder das Navigieren durch ein mehrstufiges Formular.

Für kritische Aktionen - wie Zahlungen oder das Einloggen in Konten - holt die CUA die Bestätigung der Benutzer/innen ein, bevor sie fortfahren, um sicherzustellen, dass die Benutzer/innen die Kontrolle über sensible Vorgänge behalten.

CUA-Benchmarks

Die CUA hat bei mehreren Benchmarks die beste Leistung (SOTA) erzielt:

Benchmark-Typ Benchmark Computereinsatz (Universal Interface) Web-Browsing-Agenten Human
    OpenAI CUA Vorherige SOTA Vorherige SOTA  
Computereinsatz OSWorld 38.1% 22.0%   72.4%
Browser Verwendung WebArena 58.1% 36.2% 57.1% 78.2%
WebVoyager 87.0% 56.0% 87.0%  

 Quelle: OpenAI

Schauen wir unsan, was jeder dieser drei Benchmarks macht:

  • OSWorld (38,1%): Bewertet die Fähigkeit, Aufgaben in vollständigen Betriebssystemen wie Ubuntu, Windows und macOS durchzuführen. Obwohl CUA die bisherigen Modelle übertrifft, liegt seine Erfolgsquote immer noch unter dem menschlichen Benchmark von 72,4 %.
  • WebArena (58.1%): Bewertet die Leistung beim Navigieren auf simulierten Websites, einschließlich E-Commerce und sozialen Plattformen. Es übertrifft zwar frühere Modelle, hat aber noch Verbesserungspotenzial bei der Handhabung komplexer, mehrstufiger Interaktionen.
  • WebVoyager (87%): Misst die Effektivität auf Live-Websites wie Amazon, GitHub und Google Maps. CUA schneidet hier gut ab, da die Aufgaben im Vergleich zu WebArena einfacher und strukturierter sind.

Die folgende Grafik zeigt die Leistung von OpenAIs CUA im Vergleich zu Claude 3.5 Sonnet im OSWorld Benchmark. Die x-Achse stellt die maximale Anzahl der Schritte dar, die für die Erledigung der Aufgabe erlaubt sind, während die y-Achse die Erfolgsquote in Prozent anzeigt. CUA zeigt eine stetige Verbesserung, je mehr Schritte erlaubt werden, und übertrifft damit frühere State-of-the-Art-Modelle.

Grafik zum Vergleich von OpenAIs CUA und Claude 3.5 Sonnet im OSWorld Benchmark

Quelle: OpenAI

Wie man auf den Operator zugreift

Operator ist derzeit in den Vereinigten Staaten als Teil einer Forschungsvorschau für Pro-Benutzer von ChatGPT verfügbar. Um darauf zuzugreifen, brauchst du ein aktives Pro-Abonnement. Du kannst besuchen operator.chatgpt.com um mit der Nutzung von Operator zu beginnen.

​Im Moment ist Operator auf Pro-Nutzer/innen beschränkt, aber OpenAI plant, den Zugang in den kommenden Monaten auf Plus-Nutzer/innen auszuweiten. Die Einführungsstrategie ermöglicht es OpenAI, Feedback zu sammeln und das System zu verbessern, bevor es einem breiteren Publikum angeboten wird.

Während sich Operator in der Anfangsphase auf US-Nutzer/innen konzentriert, hat OpenAI erklärt, dass der Zugang in Europa und anderen Regionen aufgrund von regulatorischen Herausforderungen länger dauern wird. Nutzerinnen und Nutzer in diesen Regionen müssen auf zukünftige Updates warten, während OpenAI daran arbeitet, diese Komplexität zu bewältigen.

UI-Meldung, dass der Betreiber in Europa nicht verfügbar ist

Für die Zukunft plant OpenAI außerdem, die zugrunde liegende Technologie hinter Operator, bekannt als CUA, über eine API verfügbar zu machen. Dies würde es Entwicklern ermöglichen, ihre eigenen KI-gesteuerten Agenten für eigene Anwendungen zu erstellen.

Anwendungsfälle des Betreibers

Die Demo-Beispiele für Operator - wie z.B. die Buchung eines Tisches oder das Online-Shopping - sind zwar funktional, aber wir finden sie nicht besonders praktisch. Oft ist es schneller und einfacher, diese Aufgaben manuell zu erledigen, als die Ausführung einer KI zu überwachen.

Das Potenzial von Operator wird jedoch deutlicher, wenn du über diese Anwendungsfälle hinaus denkst und dich auf Barrierefreiheit oder institutionelle Unterstützung konzentrierst.

Anwendungsfälle des Betreibers

Zugänglichkeit

Einer der wirkungsvollsten Bereiche, in denen Operator glänzen könnte, ist die Barrierefreiheit. Für Menschen mit begrenzten Computerkenntnissen, wie z. B. ältere Menschen oder Technikneulinge, könnte der Operator als Wegweiser fungieren und ihnen helfen, komplexe Online-Aufgaben zu bewältigen, ohne dass sie dafür Vorkenntnisse benötigen.

Stell dir vor, dies würde mit Sprachbefehlen kombiniert - die Nutzer müssten nicht einmal eine Eingabeaufforderung eingeben, was das Tool noch intuitiver machen würde.

Auch für Menschen mit Behinderungen, z. B. mit Sehbehinderungen, könnte der Operator ihnen helfen, mit Websites zu interagieren, die sonst unzugänglich wären, vor allem, wenn er mit Audio-Feedback oder Screenreader-Unterstützung kombiniert wird.

Institutionelle Unterstützung

Der Betreiber hat ein großes Potenzial in staatlichen und institutionellen Einrichtungen. Sie könnte Bürgerinnen und Bürgern beim Ausfüllen komplexer Formulare helfen, z. B. bei der Beantragung von Visa, bei der Steuererklärung oder beim Zugang zu Sozialleistungen. Dies würde die Abhängigkeit von persönlicher Hilfe verringern und die Abläufe sowohl für Nutzer als auch für Institutionen verbessern.

Im Bildungsbereich könnte der Operator Online-Bewerbungssysteme, Stipendieneinreichungen und Rechercheaufgaben vereinfachen, so dass Studierende oder Personen mit begrenzten digitalen Kenntnissen diese Prozesse besser bewältigen können.

Kleine Unternehmen und berufliche Aufgaben

Am Arbeitsplatz könnte Operator für kleine Unternehmen wertvoll sein, indem er sich wiederholende webbasierte Aufgaben wie die Verwaltung des Lagerbestands, die Bearbeitung von Online-Bestellungen oder die Erfassung von Kundenfeedback automatisiert. Für Berufstätige könnte es mühsame Arbeitsabläufe wie das Sammeln von Informationen aus verschiedenen Quellen oder das Ausfüllen von Formularen übernehmen und so Zeit für strategischere Aufgaben freisetzen.

Gesundheitswesen und gemeinnützige Organisationen

Das Gesundheitswesen und gemeinnützige Organisationen könnten erheblich von Operator profitieren. Kliniken könnten es nutzen, um Patienten beim Ausfüllen von Online-Anmeldeformularen oder beim Zugriff auf Ressourcen zu helfen, ohne dass viel Personal benötigt wird.

Non-Profit-Organisationen, die in Regionen mit geringer digitaler Kompetenz tätig sind, könnten einen Operator einsetzen, der unterversorgten Bevölkerungsgruppen hilft, sich in wichtigen Online-Systemen zurechtzufinden, um sicherzustellen, dass technologische Barrieren den Zugang zu wichtigen Dienstleistungen nicht einschränken.

Wettbewerb der KI-Agenten

OpenAIs Operator betritt den Raum der KI-Agenten neben den Computernutzungsfähigkeiten von Anthropic und Googles Project Mariner.

Anthropics Computernutzung

Der Computer von Anthropic verwendet, angetrieben durch seine Claude 3.5 Sonnet Modell, kann die KI mit Desktop-Umgebungen interagieren, indem sie menschliche Aktionen wie Klicken, Tippen und Navigieren simuliert. Derzeit erfordert diese Funktion einige technische Kenntnisse, um sie einzurichten und effektiv über die API zu nutzen, was die Zugänglichkeit für technisch nicht versierte Nutzer/innen einschränkt.

Im Gegensatz dazu sind für die Benutzeroberfläche von Operator keine Programmierkenntnisse erforderlich, was sie für ein breiteres Publikum benutzerfreundlich macht. Anthropic wird jedoch mit ziemlicher Sicherheit daran arbeiten, seine Tools zu vereinfachen, um mit dem zugänglichen Design von Operator konkurrieren zu können.

Googles Projekt Mariner

Projekt MarinerDas von Googles DeepMind entwickelte Projekt Mariner ist ein experimenteller Agent, der selbstständig durch Webseiten navigieren und mit ihnen interagieren kann. Mariner befindet sich zwar noch in der Forschungsphase, wird aber bereits mit einer kleinen Gruppe von Nutzern getestet. Die Integration in das Google-Ökosystem deutet darauf hin, dass es sich hervorragend für Workflows mit Google Mail, Google Docs und anderen Google-Diensten eignet.

Fazit

Operator ist der erste Schritt von OpenAI in das wettbewerbsintensive Feld der KI-Agenten und bietet mit seiner leicht verständlichen Oberfläche und dem universellen browserbasierten Design einen einzigartigen Ansatz. Während Tools wie Anthropics Computereinsatz und Googles Project Mariner ihre eigenen Stärken haben, hebt sich Operator durch seinen Fokus auf Barrierefreiheit ab.

Wir sind auch neugierig darauf, ob andere Akteure wie DeepSeek oder Meta dem Wettbewerb beitreten werden. 2025 könnte tatsächlich dem Hype gerecht werden und das Jahr der agentenbasierten KI werden.

FAQs

Kann OpenAI Operator mehr als eine Aufgabe gleichzeitig erledigen?

Ja, Operator ist so konzipiert, dass er mehrere Aufgaben gleichzeitig erledigen kann. Du kannst für jede Aufgabe eine eigene Konversation führen, und Operator wird parallel ausgeführt. Du kannst z.B. den Betreiber beauftragen, Lebensmittel auf Instacart zu bestellen und gleichzeitig eine Buchung auf Booking.com vorzunehmen.

Ist OpenAI Operator ein KI-Agent?

Ja, OpenAI Operator ist ein KI-Agent, der selbstständig Aufgaben für dich erledigen kann. Es interagiert mit Websites, indem es navigiert, klickt und Formulare ausfüllt, und ermöglicht es dir, Aktivitäten zu automatisieren. Erfahre mehr über KI-Agenten in unserem Blogbeitrag: KI-Agenten verstehen: Die Zukunft der autonomen Systeme.

Wie funktioniert der Operator?

Auf der Grundlage des Computer-Using-Agent-Modells (CUA) interagiert Operator mit Webseiten, indem er Screenshots anzeigt und Maus- und Tastaturaktionen ausführt. Es kann sich selbst korrigieren oder bei Bedarf die Hilfe des Benutzers anfordern.

Wer kann Operator jetzt schon gebrauchen und wie kann er anfangen?

Operator ist für Pro-Benutzer in den USA verfügbar. Wenn du ein Pro-Abo hast, kannst du operator.chatgpt.com besuchen, um zu starten. Versuche, eine Aufgabe zu beschreiben, und Operator wird sie erledigen.

Was sind die aktuellen Grenzen von Operator?

Da es sich bei Operator noch um eine Forschungsvorschau handelt, kann es bei komplexen Aufgaben wie dem Erstellen von Diashows oder der Verwaltung von Kalendern Probleme geben.

Wird Operator auf mobilen Geräten verfügbar sein?

Es gibt noch keine Bestätigung für die mobile Unterstützung von Operator, aber seine Fähigkeit, mit Webschnittstellen zu interagieren, könnte ihn in Zukunft an mobile Plattformen anpassen, wenn sich die Technologie weiterentwickelt.

Wie ist Operator im Vergleich zu Sprachassistenten wie Siri oder Google Assistant?

Operator konzentriert sich auf webbasierte Aufgaben und die direkte Interaktion mit Websites, während traditionelle Sprachassistenten in der Regel auf vordefinierte App-Integrationen oder APIs angewiesen sind. Die Fähigkeit von Operator, menschliche Handlungen wie Klicken und Scrollen zu imitieren, macht ihn besonders vielseitig für komplexe Online-Aufgaben einsetzbar.

Kann Operator mit Websites umgehen, die CAPTCHA oder erweiterte Sicherheitsfunktionen verwenden?

Operator verlässt sich derzeit auf Benutzereingaben für Aufgaben, die CAPTCHAs oder sensible Logins beinhalten. Er umgeht diese Systeme nicht automatisch, kann aber durch die Arbeitsabläufe navigieren, sobald solche Hindernisse beseitigt sind.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Tausendsassa, Meister der Python, Content Marketing & Strategie, SEO, Redaktion, Schreiben. Techniker - ich habe Kurse über Python, Statistik und Wahrscheinlichkeitsrechnung geschrieben. Aber ich habe auch einen preisgekrönten Roman veröffentlicht. Videobearbeitung und Farbkorrektur in DaVinci.


Josef Waples's photo
Author
Josef Waples
Themen

Lerne KI mit diesen Kursen!

Kurs

Artificial Intelligence (AI) Strategy

3 hr
6.1K
Learn how to blend business, data, and AI, and set goals to drive success with an effectively scalable AI Strategy.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 32 besten AWS-Interview-Fragen und Antworten für 2024

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interview-Fragen, zusammen mit Fragen, die auf realen Situationen basieren. Es deckt alle Bereiche ab und sorgt so für eine abgerundete Vorbereitungsstrategie.
Zoumana Keita 's photo

Zoumana Keita

30 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigenMehr anzeigen