cours
Utilisation anthropique de l'ordinateur : Automatisez votre bureau avec Claude 3.5
Récemment, Anthropic AI a amélioré ses produits Claude 3.5 Sonnet et Claude 3.5 Haiku. Avec cette mise à jour, ils ont introduit une nouvelle fonctionnalité qui va révolutionner notre façon de travailler et d'interagir avec l'IA en général. Ils ont introduit l'utilisation de l'ordinateur, une nouvelle capacité révolutionnaire qui permet de regarder votre écran, de déplacer la souris, de cliquer sur des boutons et de taper du texte.
Essentiellement, il peut tout faire pour vous sur la base d'une simple demande. Il vous suffit de rédiger le message, et Claude effectuera toutes les démarches nécessaires pour atteindre l'objectif.
Ici, nous allons découvrir l'utilisation de l'ordinateur Anthropic, comment il fonctionne et comment vous pouvez commencer à l'utiliser avec Docker. Nous apprendrons également comment améliorer les performances du modèle, les cas d'utilisation, les limites et les prix.
Image par l'auteur
Qu'est-ce que l'utilisation anthropique de l'ordinateur ?
L'utilisation de l'ordinateur est une nouvelle fonctionnalité d'Anthropic, qui permet à Claude d'interagir avec des outils pour manipuler l'environnement d'un bureau d'ordinateur. Comme les humains, il peut recevoir un ordre et exécuter les étapes nécessaires pour atteindre l'objectif.
Comme on peut le voir dans la vidéo de démonstration ci-dessous, Sam, l'un des chercheurs d'Anthropic, a demandé à Claude AI de remplir le formulaire de demande de fournisseur à l'aide de la feuille de calcul ou du port de recherche. Claude AI a rempli le formulaire après l'avoir vérifié, automatisant ainsi le travail manuel.
L'utilisation de l'ordinateur est actuellement en phase expérimentale, et Anthropic permet aux développeurs de l'essayer et de signaler les bogues. Au fil du temps, la technologie s'améliorera, et elle a le potentiel d'être incroyablement efficace, gérant les tâches de tous les types de rôles, des développeurs aux administrateurs.
Des organisations telles que Canva, DoorDash et Replit ont déjà commencé à expérimenter l'utilisation de l'informatique pour automatiser des tâches qui nécessitent des dizaines, voire des centaines d'étapes.
Cette nouvelle capacité est rendue possible grâce au nouveau modèle Claude 3.5 Sonnet amélioré, qui est disponible pour tous les utilisateurs. Vous pouvez y accéder par l'intermédiaire de l'API Anthropic, d'Amazon Bedrock et de Vertex AI de Google Cloud.
Comment fonctionne l'utilisation d'un ordinateur ?
L'utilisation anthropique de l'ordinateur s'effectue en quatre étapes en arrière-plan. Tout d'abord, il reçoit la demande d'API de l'utilisateur. En utilisant l'invite, Claude sélectionne ensuite l'outil à utiliser. Ensuite, il prend des captures d'écran du bureau et évalue si la tâche est terminée. Si ce n'est pas le cas, il continuera à utiliser les outils jusqu'à ce que l'objectif soit atteint. Voyons cela plus en détail.
1. Demande d'API
Nous commencerons par utiliser l'API Python pour accéder au dernier modèle Sonnet Claude 3.5 et nous emploierons deux outils : text_editor et bash. Actuellement, nous n'avons accès qu'à trois outils définis par l'Anthropologie :
{ "type": "computer_20241022", "name": "computer" }
{ "type": "text_editor_20241022", "name": "str_replace_editor" }
{ "type": "bash_20241022", "name": "bash" }
Le champ "type" est utilisé pour identifier les outils et le champ "nom" est exposé au modèle. Ensuite, nous lui fournirons l'invite de l'utilisateur et le paramètre d'utilisation de l'ordinateur.
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
tools=[
{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{
"type": "text_editor_20241022",
"name": "str_replace_editor"
},
{
"type": "bash_20241022",
"name": "bash"
}
],
messages=[{"role": "user", "content": "Download a picture of a sports car to my desktop."}],
betas=["computer-use-2024-10-22"],
)
print(response)
2. Claude sélectionne l'outil à utiliser
Claude vérifie les définitions des outils et leur accès pour voir si certains outils peuvent être utilisés avec la requête de l'utilisateur. Lorsque l'outil est sélectionné, Claude effectue une demande d'outil.
3. Extraction, évaluation et résultats
L'utilisation de l'ordinateur permet d'extraire l'entrée de l'outil, d'utiliser l'entrée pour effectuer le processus sur l'ordinateur, puis de renvoyer le résultat sous forme de capture d'écran. Ensuite, il poursuivra la conversation avec un nouveau message d'utilisateur contenant le résultat de l'outil.
4. Appeler l'ordinateur à utiliser des outils jusqu'à ce qu'il ait terminé la tâche
Claude traite et interprète les résultats de l'outil pour déterminer si la tâche est terminée ou si d'autres outils sont nécessaires. S'il décide d'utiliser un autre outil, il répète l'étape 3. La répétition des étapes 3 et 4 sans intervention de l'utilisateur est connue sous le nom de "boucle de l'agent". Il s'agit d'un processus répétitif au cours duquel Claude interagit avec votre environnement de bureau à l'aide des outils et évalue les résultats.
Débuter avec l'utilisation d'un ordinateur
L'utilisation de l'ordinateur est en phase bêta et, en tant que telle, présente divers risques. Ces risques sont accrus si l'ordinateur tente d'accéder à l'internet via un navigateur. C'est pourquoi nous utiliserons un conteneur Docker avec des privilèges minimaux afin d'éviter les attaques directes du système ou les accidents.
Nous utiliserons une implémentation de référence qui contient des commandes pour démarrer l'utilisation de l'ordinateur avec Docker. L'image Docker contient tous les composants nécessaires à Claude pour utiliser un ordinateur.
Prérequis :
- Installez la dernière version de Docker sur votre système.
- Obtenez une clé API Anthropic et assurez-vous d'avoir suffisamment de crédits pour utiliser cette fonctionnalité.
Tapez la commande suivante dans le terminal ou dans bash. Remplacez %votre_clé_api% par la clé API Anthropic que vous pouvez obtenir dans la console.
export ANTHROPIC_API_KEY=%your_api_key%
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
Il téléchargera tous les paquets nécessaires et les exécutera dans le conteneur Docker.
Une fois le conteneur lancé, nous pouvons accéder à l'ordinateur de Claude en tapant l'URL locale http://localhost:8080 dans le navigateur.
Commencez à taper l'invite et l'ordinateur effectuera toutes les étapes nécessaires pour terminer la tâche.
Améliorer les performances du modèle
La rédaction de l'invite pour l'utilisation de l'ordinateur est complètement différente de l'utilisation du sonnet Claude 3.5 pour le chat ou la génération de réponses générales. Vous devez suivre quelques règles simples pour obtenir des résultats précis.
- Spécifiez des instructions simples et détaillées pour chaque étape.
- Rédigez un message demandant à Claude de faire une capture d'écran après chaque étape et d'évaluer le résultat correct.
- Ajoutez le processus de réflexion à l'invite. Demandez à Claude d'essayer à nouveau si le résultat souhaité n'est pas atteint.
- Pour les éléments complexes de l'interface utilisateur, demandez à Claude d'utiliser des raccourcis clavier plutôt que la souris.
- Incluez une capture d'écran des résultats que vous souhaitez obtenir afin de guider Claude dans l'obtention de résultats similaires.
Applications informatiques
L'informatique a des centaines de cas d'utilisation dans la vie quotidienne et sur le lieu de travail. Il peut automatiser une série de tâches complexes pour vous. Par exemple, vous pouvez demander à un ordinateur de planifier un rendez-vous avec un ami au Golden Gate Bridge.
Comme le montre la vidéo, il peut effectuer une recherche sur Google, ouvrir des cartes pour trouver la distance, vérifier l'heure du coucher du soleil et ajouter l'événement au calendrier. C'est formidable pour les tâches quotidiennes qui nécessiteraient normalement des heures de recherche et d'organisation. L'IA peut le faire en quelques minutes avec une supervision minimale.
Dans un autre exemple, Alex demande à l'ordinateur de lancer un navigateur Chrome et d'utiliser un site web appelé claude.ai pour créer un site web personnel sur le thème des années 90. Il lui a ensuite demandé de télécharger le fichier, de l'ouvrir dans VS Code et de l'exécuter localement. En quelques minutes, il a créé un site web digne de ce nom.
Limitations de l'utilisation de l'ordinateur
Avant de commencer à utiliser l'ordinateur de Claude pour expérimenter l'IA, soyez conscient de ses limites et de ses avertissements :
- Temps de latence: Le temps de latence de l'utilisation de l'ordinateur peut être trop lent par rapport aux actions régulières de l'ordinateur dirigées par l'homme.
- Fiabilité du défilement: Le défilement n'est pas fiable avec la configuration actuelle. Demandez plutôt à Claude d'utiliser des raccourcis clavier.
- Interaction avec la feuille de calcul: Les clics de souris pour l'interaction avec les feuilles de calcul ne sont pas fiables. Vous pouvez éviter cela en demandant à Claude d'utiliser les touches fléchées.
- Vulnérabilités: Le jailbreaking ou l'injection d'invite sont des problèmes courants dans les modèles d'IA et existent également dans l'utilisation des ordinateurs.
- Actions illégales: Vous n'avez pas le droit d'utiliser l'ordinateur pour enfreindre la loi.
- Questions relatives aux plateformes sociales et de communication: Claude a du mal à créer des comptes et à publier des messages sur les plateformes de médias sociaux.
- Précision de la vision par ordinateur: Claude peut se tromper et mal interpréter des coordonnées spécifiques lorsqu'il génère des actions.
- Précision de la sélection des outils: Claude peut faire des erreurs ou avoir des hallucinations lorsqu'il sélectionne des outils tout en générant des actions.
Tarification de l'utilisation des ordinateurs
Le coût de l'utilisation de l'ordinateur est similaire à celui des appels API aux modèles Claude. Toutefois, l'utilisation d'une invite spéciale du système et de jetons d'entrée supplémentaires entraîne un coût supplémentaire. Vous pouvez consulter les tarifs des modèles à l'adresse suivante la page des prix d'Anthropic.
Utilisation d'un jeton d'invite de système spécial
L'invite spéciale du système nécessite 466 jetons supplémentaires pour la sélection automatique des outils et 499 jetons pour n'importe quel outil. Ces chiffres s'appliquent au modèle Claude 3.5 Sonnet (nouveau), dont le prix est de 3 dollars par million de jetons d'entrée et de 15 dollars par million de jetons de sortie.
Jetons d'entrée supplémentaires
Pour utiliser les outils définis par l'Anthropic, les jetons d'entrée supplémentaires suivants sont nécessaires :
- computer_20241022: 683 jetons
- text_editor_20241022: 700 jetons
- bash_20241022 : 245 jetons
Réflexions finales
Les applications informatiques sont innombrables et les entreprises peuvent automatiser une grande partie de leur travail manuel afin d'accroître leur productivité. Il peut également faire gagner du temps à l'utilisateur moyen d'un ordinateur pour des tâches de routine telles que la commande d'un café ou la réservation d'un vol.
L'utilisation de l'ordinateur permet de gérer toutes sortes de tâches, et vous n'avez qu'à superviser. Il vous suffit de lui donner une commande et d'évaluer son travail. S'il n'est pas précis, vous pouvez lui demander d'itérer et de s'améliorer. Cet outil est susceptible de changer la donne et pourrait avoir plus d'impact que l'introduction du modèle modèle OpenAI o1.
Nous avons découvert la nouvelle fonctionnalité d'Anthropic et la façon dont elle peut interagir avec l'environnement du bureau et le modifier avec l'aide de Claude AI. Nous avons également appris comment il fonctionne, construit l'image Docker et l'avons utilisé localement, nous avons appris ses cas d'utilisation, ses limites et son prix. En bref, il ne vous reste plus qu'à l'essayer par vous-même pour découvrir ses incroyables fonctionnalités. Si vous ne connaissez pas encore Anthropic et Claude, consultez nos ressources :

En tant que data scientist certifié, je suis passionné par l'utilisation des technologies de pointe pour créer des applications innovantes d'apprentissage automatique. Avec une solide expérience en reconnaissance vocale, en analyse de données et en reporting, en MLOps, en IA conversationnelle et en NLP, j'ai affiné mes compétences dans le développement de systèmes intelligents qui peuvent avoir un impact réel. En plus de mon expertise technique, je suis également un communicateur compétent, doué pour distiller des concepts complexes dans un langage clair et concis. En conséquence, je suis devenu un blogueur recherché dans le domaine de la science des données, partageant mes idées et mes expériences avec une communauté grandissante de professionnels des données. Actuellement, je me concentre sur la création et l'édition de contenu, en travaillant avec de grands modèles linguistiques pour développer un contenu puissant et attrayant qui peut aider les entreprises et les particuliers à tirer le meilleur parti de leurs données.
Les meilleurs cours de DataCamp
cursus
Développer de grands modèles linguistiques
cours