Utilisation anthropique de l'ordinateur : Automatisez votre bureau avec Claude 3.5

Découvrez la nouvelle fonctionnalité d'utilisation de l'ordinateur d'Anthropic et laissez Claude gérer votre espace de travail et automatiser vos tâches. Tapez simplement l'invite, et Claude s'occupe du reste.

Actualisé 11 févr. 2025 · 9 min lire

Récemment, Anthropic AI a amélioré ses produits Claude 3.5 Sonnet et Claude 3.5 Haiku. Avec cette mise à jour, ils ont introduit une nouvelle fonctionnalité qui va révolutionner notre façon de travailler et d'interagir avec l'IA en général. Ils ont introduit l'utilisation de l'ordinateur, une nouvelle capacité révolutionnaire qui permet de regarder votre écran, de déplacer la souris, de cliquer sur des boutons et de taper du texte.

Essentiellement, il peut tout faire pour vous sur la base d'une simple demande. Il vous suffit de rédiger le message, et Claude effectuera toutes les démarches nécessaires pour atteindre l'objectif.

Ici, nous allons découvrir l'utilisation de l'ordinateur Anthropic, comment il fonctionne et comment vous pouvez commencer à l'utiliser avec Docker. Nous apprendrons également comment améliorer les performances du modèle, les cas d'utilisation, les limites et les prix.

Image par l'auteur

Qu'est-ce que l'utilisation anthropique de l'ordinateur ?

L'utilisation de l'ordinateur est une nouvelle fonctionnalité d'Anthropic, qui permet à Claude d'interagir avec des outils pour manipuler l'environnement d'un bureau d'ordinateur. Comme les humains, il peut recevoir un ordre et exécuter les étapes nécessaires pour atteindre l'objectif.

Comme on peut le voir dans la vidéo de démonstration ci-dessous, Sam, l'un des chercheurs d'Anthropic, a demandé à Claude AI de remplir le formulaire de demande de fournisseur à l'aide de la feuille de calcul ou du port de recherche. Claude AI a rempli le formulaire après l'avoir vérifié, automatisant ainsi le travail manuel.

Claude | Utilisation de l'ordinateur pour l'automatisation des opérations

L'utilisation de l'ordinateur est actuellement en phase expérimentale, et Anthropic permet aux développeurs de l'essayer et de signaler les bogues. Au fil du temps, la technologie s'améliorera, et elle a le potentiel d'être incroyablement efficace, gérant les tâches de tous les types de rôles, des développeurs aux administrateurs.

Des organisations telles que Canva, DoorDash et Replit ont déjà commencé à expérimenter l'utilisation de l'informatique pour automatiser des tâches qui nécessitent des dizaines, voire des centaines d'étapes.

Cette nouvelle capacité est rendue possible grâce au nouveau modèle Claude 3.5 Sonnet amélioré, qui est disponible pour tous les utilisateurs. Vous pouvez y accéder par l'intermédiaire de l'API Anthropic, d'Amazon Bedrock et de Vertex AI de Google Cloud.

Comment fonctionne l'utilisation d'un ordinateur ?

L'utilisation anthropique de l'ordinateur s'effectue en quatre étapes en arrière-plan. Tout d'abord, il reçoit la demande d'API de l'utilisateur. En utilisant l'invite, Claude sélectionne ensuite l'outil à utiliser. Ensuite, il prend des captures d'écran du bureau et évalue si la tâche est terminée. Si ce n'est pas le cas, il continuera à utiliser les outils jusqu'à ce que l'objectif soit atteint. Voyons cela plus en détail.

1. Demande d'API

Nous commencerons par utiliser l'API Python pour accéder au dernier modèle Sonnet Claude 3.5 et nous emploierons deux outils : text_editor et bash. Actuellement, nous n'avons accès qu'à trois outils définis par l'Anthropologie :

{ "type": "computer_20241022", "name": "computer" }
{ "type": "text_editor_20241022", "name": "str_replace_editor" }
{ "type": "bash_20241022", "name": "bash" }

Le champ "type" est utilisé pour identifier les outils et le champ "nom" est exposé au modèle. Ensuite, nous lui fournirons l'invite de l'utilisateur et le paramètre d'utilisation de l'ordinateur.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20241022",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20241022",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20241022",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Download a picture of a sports car to my desktop."}],
    betas=["computer-use-2024-10-22"],
)
print(response)

2. Claude sélectionne l'outil à utiliser

Claude vérifie les définitions des outils et leur accès pour voir si certains outils peuvent être utilisés avec la requête de l'utilisateur. Lorsque l'outil est sélectionné, Claude effectue une demande d'outil.

3. Extraction, évaluation et résultats

L'utilisation de l'ordinateur permet d'extraire l'entrée de l'outil, d'utiliser l'entrée pour effectuer le processus sur l'ordinateur, puis de renvoyer le résultat sous forme de capture d'écran. Ensuite, il poursuivra la conversation avec un nouveau message d'utilisateur contenant le résultat de l'outil.

4. Appeler l'ordinateur à utiliser des outils jusqu'à ce qu'il ait terminé la tâche

Claude traite et interprète les résultats de l'outil pour déterminer si la tâche est terminée ou si d'autres outils sont nécessaires. S'il décide d'utiliser un autre outil, il répète l'étape 3. La répétition des étapes 3 et 4 sans intervention de l'utilisateur est connue sous le nom de "boucle de l'agent". Il s'agit d'un processus répétitif au cours duquel Claude interagit avec votre environnement de bureau à l'aide des outils et évalue les résultats.

Débuter avec l'utilisation d'un ordinateur

L'utilisation de l'ordinateur est en phase bêta et, en tant que telle, présente divers risques. Ces risques sont accrus si l'ordinateur tente d'accéder à l'internet via un navigateur. C'est pourquoi nous utiliserons un conteneur Docker avec des privilèges minimaux afin d'éviter les attaques directes du système ou les accidents.

Nous utiliserons une implémentation de référence qui contient des commandes pour démarrer l'utilisation de l'ordinateur avec Docker. L'image Docker contient tous les composants nécessaires à Claude pour utiliser un ordinateur.

Prérequis :

Installez la dernière version de Docker sur votre système.
Obtenez une clé API Anthropic et assurez-vous d'avoir suffisamment de crédits pour utiliser cette fonctionnalité.

Tapez la commande suivante dans le terminal ou dans bash. Remplacez %votre_clé_api% par la clé API Anthropic que vous pouvez obtenir dans la console.

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Il téléchargera tous les paquets nécessaires et les exécutera dans le conteneur Docker.

Une fois le conteneur lancé, nous pouvons accéder à l'ordinateur de Claude en tapant l'URL locale http://localhost:8080 dans le navigateur.

Commencez à taper l'invite et l'ordinateur effectuera toutes les étapes nécessaires pour terminer la tâche.

Améliorer les performances du modèle

La rédaction de l'invite pour l'utilisation de l'ordinateur est complètement différente de l'utilisation du sonnet Claude 3.5 pour le chat ou la génération de réponses générales. Vous devez suivre quelques règles simples pour obtenir des résultats précis.

Spécifiez des instructions simples et détaillées pour chaque étape.
Rédigez un message demandant à Claude de faire une capture d'écran après chaque étape et d'évaluer le résultat correct.
Ajoutez le processus de réflexion à l'invite. Demandez à Claude d'essayer à nouveau si le résultat souhaité n'est pas atteint.
Pour les éléments complexes de l'interface utilisateur, demandez à Claude d'utiliser des raccourcis clavier plutôt que la souris.
Incluez une capture d'écran des résultats que vous souhaitez obtenir afin de guider Claude dans l'obtention de résultats similaires.

Applications informatiques

L'informatique a des centaines de cas d'utilisation dans la vie quotidienne et sur le lieu de travail. Il peut automatiser une série de tâches complexes pour vous. Par exemple, vous pouvez demander à un ordinateur de planifier un rendez-vous avec un ami au Golden Gate Bridge.

Comme le montre la vidéo, il peut effectuer une recherche sur Google, ouvrir des cartes pour trouver la distance, vérifier l'heure du coucher du soleil et ajouter l'événement au calendrier. C'est formidable pour les tâches quotidiennes qui nécessiteraient normalement des heures de recherche et d'organisation. L'IA peut le faire en quelques minutes avec une supervision minimale.

Claude | Utilisation de l'ordinateur pour l'orchestration des tâches

Claude | Utilisation de l'ordinateur pour le codage

Limitations de l'utilisation de l'ordinateur

Avant de commencer à utiliser l'ordinateur de Claude pour expérimenter l'IA, soyez conscient de ses limites et de ses avertissements :

Temps de latence: Le temps de latence de l'utilisation de l'ordinateur peut être trop lent par rapport aux actions régulières de l'ordinateur dirigées par l'homme.
Fiabilité du défilement: Le défilement n'est pas fiable avec la configuration actuelle. Demandez plutôt à Claude d'utiliser des raccourcis clavier.
Interaction avec la feuille de calcul: Les clics de souris pour l'interaction avec les feuilles de calcul ne sont pas fiables. Vous pouvez éviter cela en demandant à Claude d'utiliser les touches fléchées.
Vulnérabilités: Le jailbreaking ou l'injection d'invite sont des problèmes courants dans les modèles d'IA et existent également dans l'utilisation des ordinateurs.
Actions illégales: Vous n'avez pas le droit d'utiliser l'ordinateur pour enfreindre la loi.
Questions relatives aux plateformes sociales et de communication: Claude a du mal à créer des comptes et à publier des messages sur les plateformes de médias sociaux.
Précision de la vision par ordinateur: Claude peut se tromper et mal interpréter des coordonnées spécifiques lorsqu'il génère des actions.
Précision de la sélection des outils: Claude peut faire des erreurs ou avoir des hallucinations lorsqu'il sélectionne des outils tout en générant des actions.

Tarification de l'utilisation des ordinateurs

Le coût de l'utilisation de l'ordinateur est similaire à celui des appels API aux modèles Claude. Toutefois, l'utilisation d'une invite spéciale du système et de jetons d'entrée supplémentaires entraîne un coût supplémentaire. Vous pouvez consulter les tarifs des modèles à l'adresse suivante la page des prix d'Anthropic.

Utilisation d'un jeton d'invite de système spécial

L'invite spéciale du système nécessite 466 jetons supplémentaires pour la sélection automatique des outils et 499 jetons pour n'importe quel outil. Ces chiffres s'appliquent au modèle Claude 3.5 Sonnet (nouveau), dont le prix est de 3 dollars par million de jetons d'entrée et de 15 dollars par million de jetons de sortie.

Jetons d'entrée supplémentaires

Pour utiliser les outils définis par l'Anthropic, les jetons d'entrée supplémentaires suivants sont nécessaires :

computer_20241022: 683 jetons
text_editor_20241022: 700 jetons
bash_20241022 : 245 jetons

Réflexions finales

Les applications informatiques sont innombrables et les entreprises peuvent automatiser une grande partie de leur travail manuel afin d'accroître leur productivité. Il peut également faire gagner du temps à l'utilisateur moyen d'un ordinateur pour des tâches de routine telles que la commande d'un café ou la réservation d'un vol.

L'utilisation de l'ordinateur permet de gérer toutes sortes de tâches, et vous n'avez qu'à superviser. Il vous suffit de lui donner une commande et d'évaluer son travail. S'il n'est pas précis, vous pouvez lui demander d'itérer et de s'améliorer. Cet outil est susceptible de changer la donne et pourrait avoir plus d'impact que l'introduction du modèle modèle OpenAI o1.

Nous avons découvert la nouvelle fonctionnalité d'Anthropic et la façon dont elle peut interagir avec l'environnement du bureau et le modifier avec l'aide de Claude AI. Nous avons également appris comment il fonctionne, construit l'image Docker et l'avons utilisé localement, nous avons appris ses cas d'utilisation, ses limites et son prix. En bref, il ne vous reste plus qu'à l'essayer par vous-même pour découvrir ses incroyables fonctionnalités. Si vous ne connaissez pas encore Anthropic et Claude, consultez nos ressources :

Author

Abid Ali Awan

En tant que data scientist certifié, je suis passionné par l'utilisation des technologies de pointe pour créer des applications innovantes d'apprentissage automatique. Avec une solide expérience en reconnaissance vocale, en analyse de données et en reporting, en MLOps, en IA conversationnelle et en NLP, j'ai affiné mes compétences dans le développement de systèmes intelligents qui peuvent avoir un impact réel. En plus de mon expertise technique, je suis également un communicateur compétent, doué pour distiller des concepts complexes dans un langage clair et concis. En conséquence, je suis devenu un blogueur recherché dans le domaine de la science des données, partageant mes idées et mes expériences avec une communauté grandissante de professionnels des données. Actuellement, je me concentre sur la création et l'édition de contenu, en travaillant avec de grands modèles linguistiques pour développer un contenu puissant et attrayant qui peut aider les entreprises et les particuliers à tirer le meilleur parti de leurs données.

Sujets

Intelligence artificielle

Grands modèles linguistiques

Les meilleurs cours de DataCamp

Cursus

Développer des LLM

16 h

Développez des LLM avec PyTorch et Hugging Face, en appliquant les techniques récentes de deep learning et NLP.

Afficher les détails

Commencer le cours

Cours

Introduction aux LLM en Python

3 h

33.7K

Apprenez les rouages des LLM et l'architecture révolutionnaire des transformateurs sur laquelle ils reposent !

Afficher les détails

Commencer le cours

Cours

Concepts LLMOps

1 h

15.7K

Afficher les détails

Commencer le cours

Contenus associés

blog

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Découvrez les principaux types d'agents d'intelligence artificielle, comment ils interagissent avec les environnements et comment ils sont utilisés dans les différents secteurs d'activité. Comprendre les agents réflexes simples, les agents basés sur un modèle, les agents basés sur un but, les agents basés sur l'utilité, les agents d'apprentissage, etc.

blog

Architecture de l'entrepôt de données : Tendances, outils et techniques

Apprenez l'essentiel de l'architecture d'un entrepôt de données, des composants clés aux meilleures pratiques, pour construire un système de données évolutif et efficace !

Kurtis Pykes

15 min

Tutoriel

Normalisation vs. Standardisation: comment faire la différence

Découvrez les principales différences, les applications et la mise en œuvre de la normalisation et de la standardisation dans le prétraitement des données pour l’apprentissage automatique.

Samuel Shaibu

Tutoriel

Fonctions lambda Python : Guide pour débutants

Découvrez les fonctions lambda Python, leur utilité et quand les utiliser. Comprend des exemples pratiques et des bonnes pratiques pour une mise en œuvre efficace.

Mark Pedigo

Tutoriel

Python Bonjour tout le monde : Guide de programmation pour débutants

Apprenez les bases de Python en exécutant le programme print(« Bonjour tout le monde »).

Adel Nehme

Voir plus Voir plus

Qu'est-ce que l'utilisation anthropique de l'ordinateur ?

Comment fonctionne l'utilisation d'un ordinateur ?

1. Demande d'API

2. Claude sélectionne l'outil à utiliser

3. Extraction, évaluation et résultats

4. Appeler l'ordinateur à utiliser des outils jusqu'à ce qu'il ait terminé la tâche

Débuter avec l'utilisation d'un ordinateur

Améliorer les performances du modèle

Applications informatiques

Limitations de l'utilisation de l'ordinateur

Tarification de l'utilisation des ordinateurs

Utilisation d'un jeton d'invite de système spécial

Jetons d'entrée supplémentaires

Réflexions finales

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Architecture de l'entrepôt de données : Tendances, outils et techniques

Normalisation vs. Standardisation: comment faire la différence

Fonctions lambda Python : Guide pour débutants

Python Bonjour tout le monde : Guide de programmation pour débutants

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Développer des LLM

Introduction aux LLM en Python

Concepts LLMOps

Types d'agents d'intelligence artificielle : Comprendre leurs rôles, leurs structures et leurs applications

Architecture de l'entrepôt de données : Tendances, outils et techniques

Normalisation vs. Standardisation: comment faire la différence

Fonctions lambda Python : Guide pour débutants

Python Bonjour tout le monde : Guide de programmation pour débutants

Développer des LLM