Course
Anthropische Computernutzung: Automatisiere deinen Desktop mit Claude 3.5
Vor kurzem hat Anthropic AI ihre Claude 3.5 Sonnet und Claude 3.5 Haiku verbessert. Mit diesem Update haben sie eine neue Funktion eingeführt, die die Art und Weise, wie wir arbeiten und mit KI im Allgemeinen interagieren, revolutionieren wird. Sie haben den Computer eingeführt, eine bahnbrechende neue Fähigkeit, mit der du auf deinen Bildschirm schauen, die Maus bewegen, auf Schaltflächen klicken und Text eingeben kannst.
Im Grunde genommen kann es alles für dich tun, wenn du eine einfache Aufforderung erhältst. Alles, was du tun musst, ist, die Aufforderung zu schreiben, und Claude wird alle notwendigen Schritte ausführen, um das Ziel zu erreichen.
Hier erfahren wir, wie Anthropic Computer verwendet werden, wie sie funktionieren und wie du sie mit Docker nutzen kannst. Außerdem erfahren wir, wie wir die Leistung des Modells verbessern können, welche Anwendungsfälle es gibt, wo die Grenzen liegen und wie die Preise aussehen.
Bild vom Autor
Was ist anthropische Computernutzung?
Die Computernutzung ist eine neue Funktion von Anthropic, bei der Claude mit Werkzeugen interagieren kann, um eine Computer-Desktop-Umgebung zu manipulieren. Wie Menschen kann es einen Befehl annehmen und die notwendigen Schritte ausführen, um das Ziel zu erreichen.
Wie wir im Demo-Video unten sehen können, hat Sam, einer der Anthropic-Forscher, Claude KI gebeten, das Formular für die Lieferantenanfrage auszufüllen, indem er die Tabelle oder den Suchport benutzt. Claude AI hat das Formular nach der Überprüfung ausgefüllt und damit die manuelle Arbeit automatisiert.
Die Computernutzung befindet sich derzeit in der Experimentierphase, und Anthropic erlaubt es Entwicklern, die Software auszuprobieren und Fehler zu melden. Mit der Zeit wird sich die Technologie verbessern und sie hat das Potenzial, unglaublich effizient zu sein und Aufgaben für alle Arten von Rollen zu erledigen, von der Entwicklerin oder dem Entwickler bis zur Administratorin oder dem Administrator.
Unternehmen wie Canva, DoorDash und Replit haben bereits begonnen, mit dem Einsatz von Computern zu experimentieren, um Aufgaben zu automatisieren, die Dutzende oder manchmal sogar Hunderte von Schritten erfordern.
Diese neue Fähigkeit wird durch das neue und verbesserte Claude 3.5 Sonnet-Modell ermöglicht, das für alle Nutzer/innen verfügbar ist. Du kannst über Anthropic API, Amazon Bedrock und Vertex AI von Google Cloud darauf zugreifen.
Wie funktioniert die Computernutzung?
Die anthropische Computernutzung führt vier Schritte im Hintergrund aus. Zuerst erhält sie die API-Anfrage des Nutzers. Anhand der Eingabeaufforderung wählt Claude dann das zu verwendende Werkzeug aus. Danach macht es Screenshots vom Desktop und wertet aus, ob die Aufgabe erledigt ist. Wenn nicht, wird es die Werkzeuge so lange verwenden, bis das Ziel erreicht ist. Lass uns das genauer untersuchen.
1. API-Anfrage
Wir beginnen mit der Python-API, um auf das neueste Claude 3.5 Sonnet-Modell zuzugreifen, und verwenden zwei Tools: text_editor und bash. Derzeit haben wir nur Zugang zu drei anthropisch definierten Werkzeugen:
- { "type": "computer_20241022", "name": "computer" }
- { "type": "text_editor_20241022", "name": "str_replace_editor" }
- { "type": "bash_20241022", "name": "bash" }
Das Feld "Typ" wird verwendet, um die Werkzeuge zu identifizieren, und das Feld "Name" ist für das Modell bestimmt. Dann werden wir sie mit der Eingabeaufforderung und den Parametern für die Computernutzung versehen.
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
tools=[
{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{
"type": "text_editor_20241022",
"name": "str_replace_editor"
},
{
"type": "bash_20241022",
"name": "bash"
}
],
messages=[{"role": "user", "content": "Download a picture of a sports car to my desktop."}],
betas=["computer-use-2024-10-22"],
)
print(response)
2. Claude wählt das zu verwendende Werkzeug aus
Claude überprüft die Werkzeugdefinitionen und den Zugriff, um zu sehen, ob bestimmte Werkzeuge mit der Benutzerabfrage verwendet werden können. Wenn das Werkzeug ausgewählt ist, führt Claude eine Werkzeuganforderung durch.
3. Extrahieren, bewerten und Ergebnisse
Der Computer extrahiert die Eingabe des Werkzeugs, verwendet die Eingabe, um den Prozess auf dem Computer durchzuführen, und gibt das Ergebnis als Screenshot zurück. Danach setzt es die Konversation mit einer neuen Benutzernachricht fort, die das Ergebnis des Tools enthält.
4. Aufrufen von Computern, die Werkzeuge verwenden, bis sie die Aufgabe erledigt haben
Claude verarbeitet und interpretiert die Ergebnisse des Tools, um festzustellen, ob die Aufgabe erledigt ist oder ob weitere Tools benötigt werden. Wenn es sich entscheidet, ein anderes Werkzeug zu verwenden, wiederholt es Schritt drei erneut. Die Wiederholung der Schritte drei und vier ohne Benutzereingabe wird als "Agentenschleife" bezeichnet. Dabei handelt es sich um einen sich wiederholenden Prozess, bei dem Claude mit Hilfe der Werkzeuge mit deiner Desktop-Umgebung interagiert und die Ergebnisse auswertet.
Der Einstieg in die Computernutzung
Die Computernutzung ist im Beta-Stadium und birgt daher verschiedene Risiken. Diese Risiken werden noch größer, wenn der Computer versucht, über einen Browser auf das Internet zuzugreifen. Deshalb werden wir einen Docker-Container mit minimalen Privilegien verwenden, um direkte Systemangriffe oder Unfälle zu verhindern.
Wir werden eine Referenzimplementierung verwenden, die Befehle enthält, um die Computerbenutzung mit Docker zu starten. Das Docker-Image enthält alle Komponenten, die Claude für die Nutzung eines Computers benötigt.
Voraussetzung:
- Installiere die neueste Version von Docker auf deinem System.
- Besorge dir einen Anthropic-API-Schlüssel und stelle sicher, dass du genug Guthaben hast, um diese Funktion zu nutzen.
Gib den folgenden Befehl in das Terminal oder die Bash ein. Ersetze den %your_api_key% durch den Anthropic-API-Schlüssel, den du über die Konsole abrufen kannst.
export ANTHROPIC_API_KEY=%your_api_key%
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
Er lädt alle notwendigen Pakete herunter und führt sie im Docker-Container aus.
Sobald der Container läuft, können wir auf Claude Computer zugreifen, indem wir die lokale URL http://localhost:8080 in den Browser eingeben.
Fang an, die Eingabeaufforderung zu tippen, und der Computer führt alle notwendigen Schritte aus, um die Aufgabe zu erledigen.
Verbesserung der Leistung des Modells
Die Eingabeaufforderung für den Computer zu schreiben, ist etwas völlig anderes als Claude 3.5 Sonnet für einen Chat oder eine allgemeine Antwort zu verwenden. Du musst einige einfache Regeln befolgen, um genaue Ergebnisse zu erzielen.
- Gib einfache und detaillierte Anweisungen für jeden Schritt an.
- Schreibe eine Aufforderung, die Claude anweist, nach jedem Schritt einen Screenshot zu machen und das richtige Ergebnis zu bewerten.
- Füge den Reflexionsprozess zur Eingabeaufforderung hinzu. Weise Claude an, es noch einmal zu versuchen, wenn das gewünschte Ergebnis nicht erreicht wird.
- Bitte Claude, bei komplexen UI-Elementen Tastaturkürzel statt der Maus zu verwenden.
- Füge einen Screenshot der Ergebnisse bei, die du erreichen willst, um Claude zu helfen, ähnliche Ergebnisse zu erzielen.
Computereinsatz Anwendungen
Die Computernutzung hat hunderte von Anwendungsfällen im Alltag und am Arbeitsplatz. Es kann eine Vielzahl von komplexen Aufgaben für dich automatisieren. Du kannst zum Beispiel einen Computer bitten, ein Treffen mit einem Freund an der Golden Gate Bridge zu planen.
Wie im Video gezeigt, kann es eine Google-Suche durchführen, Karten öffnen, um die Entfernung zu ermitteln, die Sonnenuntergangszeit überprüfen und das Ereignis zum Kalender hinzufügen. Das ist erstaunlich für alltägliche Aufgaben, die normalerweise stundenlange Recherchen und Organisation erfordern würden. KI kann das in nur wenigen Minuten und mit minimaler Aufsicht erledigen.
In einem anderen Beispiel bittet Alex den Computer, einen Chrome-Browser zu starten und eine Website namens claude.ai zu verwenden, um eine persönliche Website mit einem 90er-Jahre-Thema zu erstellen. Danach bat er ihn, die Datei herunterzuladen, sie in VS Code zu öffnen und sie lokal auszuführen. Innerhalb weniger Minuten hat er eine richtige Website erstellt.
Einschränkungen bei der Computernutzung
Bevor du Claudes Computer für KI-Experimente verwendest, solltest du seine Einschränkungen und Warnungen beachten, wie zum Beispiel:
- Latenz: Die Latenzzeit bei der Computernutzung könnte im Vergleich zu normalen, von Menschen gesteuerten Computeraktionen zu langsam sein.
- Zuverlässigkeit beim Scrollen: Das Scrollen ist mit der aktuellen Einstellung nicht zuverlässig. Bitte Claude stattdessen, Tastaturkürzel zu verwenden.
- Tabellenkalkulation Interaktion: Mausklicks für die Interaktion mit Tabellenkalkulationen sind unzuverlässig. Du kannst dies verhindern, indem du Claude aufforderst, die Pfeiltasten zu benutzen.
- Schwachstellen: Jailbreaking oder Prompt Injection sind gängige KI-Modelle und kommen auch bei der Computernutzung vor.
- Illegale Handlungen: Du darfst den Computer nicht benutzen, um Gesetze zu brechen.
- Probleme mit sozialen und Kommunikationsplattformen: Claude kämpft damit, Konten zu erstellen und auf Social-Media-Plattformen zu posten.
- Computer Vision Genauigkeit: Claude kann bei der Erstellung von Aktionen bestimmte Koordinaten verwechseln und falsch interpretieren.
- Genauigkeit der Werkzeugauswahl: Claude kann Fehler machen oder halluzinieren, wenn er beim Erstellen von Aktionen Werkzeuge auswählt.
Preise für die Computernutzung
Die Kosten für die Computernutzung sind ähnlich hoch wie die für API-Aufrufe zu den Claude-Modellen. Allerdings entstehen zusätzliche Kosten durch die Verwendung eines speziellen Systemprompts und durch zusätzliche Eingabezeichen. Du kannst die Preisdetails für die Modelle einsehen unter Preisgestaltung \ Anthropic.
Verwendung von speziellen System-Prompt-Tokens
Die spezielle Systemabfrage erfordert zusätzliche 466 Token für die automatische Werkzeugauswahl und 499 Token für jedes Werkzeug. Diese Zahlen gelten für das Modell Claude 3.5 Sonnet (neu), dessen Preis bei $3 pro Million Input-Token und $15 pro Million Output-Token liegt.
Zusätzliche Eingabe-Token
Für die Verwendung der von Anthropic definierten Werkzeuge sind die folgenden zusätzlichen Eingabe-Token erforderlich:
- computer_20241022: 683 Spielsteine
- text_editor_20241022: 700 Spielsteine
- bash_20241022: 245 Spielsteine
Schlussgedanken
Es gibt unzählige Anwendungen für den Computereinsatz, und Unternehmen können einen Großteil ihrer manuellen Arbeit automatisieren, um die Produktivität zu steigern. Außerdem kann der durchschnittliche Computernutzer bei Routineaufgaben wie der Bestellung eines Kaffees oder der Buchung eines Fluges Zeit sparen.
Der Computer hat das Potenzial, alle möglichen Aufgaben zu erledigen, und du musst nur noch die Aufsicht führen. Du musst ihm nur einen Befehl geben und seine Arbeit bewerten. Wenn sie nicht genau ist, kannst du sie auffordern, zu iterieren und zu verbessern. Dieses Tool ist ein potenzieller Game Changer und könnte mehr bewirken als die Einführung des OpenAI o1 Modells.
Wir haben die neue Funktion von Anthropic kennengelernt und erfahren, wie sie mit Hilfe von Claude AI mit der Desktop-Umgebung interagieren und sie verändern kann. Wir haben auch gelernt, wie es funktioniert, haben das Docker-Image erstellt und es lokal verwendet, haben etwas über die Anwendungsfälle, die Einschränkungen und die Preise gelernt. Alles, was du jetzt noch tun musst, ist, es selbst auszuprobieren, um die tollen Funktionen zu erleben. Wenn du neu bei Anthropic und Claude bist, schau dir unsere Ressourcen an:
Als zertifizierter Data Scientist ist es meine Leidenschaft, modernste Technologien zu nutzen, um innovative Machine Learning-Anwendungen zu entwickeln. Mit meinem fundierten Hintergrund in den Bereichen Spracherkennung, Datenanalyse und Reporting, MLOps, KI und NLP habe ich meine Fähigkeiten bei der Entwicklung intelligenter Systeme verfeinert, die wirklich etwas bewirken können. Neben meinem technischen Fachwissen bin ich auch ein geschickter Kommunikator mit dem Talent, komplexe Konzepte in eine klare und prägnante Sprache zu fassen. Das hat dazu geführt, dass ich ein gefragter Blogger zum Thema Datenwissenschaft geworden bin und meine Erkenntnisse und Erfahrungen mit einer wachsenden Gemeinschaft von Datenexperten teile. Zurzeit konzentriere ich mich auf die Erstellung und Bearbeitung von Inhalten und arbeite mit großen Sprachmodellen, um aussagekräftige und ansprechende Inhalte zu entwickeln, die sowohl Unternehmen als auch Privatpersonen helfen, das Beste aus ihren Daten zu machen.
Top DataCamp Kurse
Track
Entwicklung von großen Sprachmodellen
Course
LLMOps Concepts
Der Blog