Uso antrópico del ordenador: Automatiza tu escritorio con Claude 3.5

Descubre la nueva función de uso del ordenador de Anthropic y deja que Claude gestione tu espacio de trabajo y automatice tus tareas. Sólo tienes que escribir la indicación y Claude se encargará del resto.

Actualizado 23 oct 2024 · 9 min leer

Recientemente, Anthropic AI ha mejorado sus Claude 3.5 Sonnet y Claude 3.5 Haiku. Con esta actualización, han introducido una nueva función que revolucionará nuestra forma de trabajar e interactuar con la IA en general. Han introducido el uso del ordenador, una nueva capacidad innovadora que puede mirar la pantalla, mover el ratón, pulsar botones y escribir texto.

Esencialmente, puede hacerlo todo por ti basándose en una simple indicación. Todo lo que tienes que hacer es escribir la indicación, y Claude realizará todos los pasos necesarios para alcanzar el objetivo.

Aquí aprenderemos sobre el uso antrópico del ordenador, cómo funciona y cómo puedes empezar a utilizarlo con Docker. También aprenderemos cómo mejorar el rendimiento del modelo, casos de uso, limitaciones y precios.

Imagen del autor

¿Qué es el uso antrópico del ordenador?

El uso del ordenador es una nueva función de Anthropic, en la que Claude puede interactuar con herramientas para manipular un entorno de escritorio de ordenador. Al igual que los humanos, puede recibir una orden y realizar los pasos necesarios para alcanzar el objetivo.

Como podemos ver en el vídeo de demostración que aparece a continuación, Sam, uno de los investigadores de Anthropic, ha pedido a Claude AI que rellene el formulario de solicitud de proveedores utilizando la hoja de cálculo o el puerto de búsqueda. Claude AI ha rellenado el formulario tras verificarlo, automatizando el trabajo manual.

Claude | Uso del ordenador para automatizar operaciones

El uso informático está actualmente en fase experimental, y Anthropic permite que los desarrolladores lo prueben e informen de los errores. Con el tiempo, la tecnología mejorará, y tiene el potencial de ser increíblemente eficiente, gestionando tareas en todo tipo de roles, desde desarrolladores hasta roles de administrador.

Organizaciones como Canva, DoorDash y Replit ya han empezado a experimentar con el uso de ordenadores para automatizar tareas que requieren docenas, y a veces incluso cientos, de pasos para completarse.

Esta nueva capacidad es posible gracias al nuevo y mejorado modelo Claude 3.5 Sonnet, que está disponible para todos los usuarios. Puedes acceder a ella a través de Anthropic API, Amazon Bedrock y Vertex AI de Google Cloud.

¿Cómo funciona el uso del ordenador?

El uso antrópico del ordenador realiza cuatro pasos en segundo plano. En primer lugar, recibe la solicitud API del usuario. A continuación, Claude selecciona la herramienta que va a utilizar. Después, realiza capturas de pantalla del escritorio y evalúa si se ha completado la tarea. Si no, seguirá utilizando las herramientas hasta alcanzar el objetivo. Exploremos esto con más detalle.

1. Solicitud API

Empezaremos utilizando la API de Python para acceder al último modelo de Claude 3.5 Sonnet y emplearemos dos herramientas: text_editor y bash. Actualmente, sólo tenemos acceso a tres herramientas definidas antrópicamente:

{ "type": "computer_20241022", "name": "computer" }
{ "type": "text_editor_20241022", "name": "str_replace_editor" }
{ "type": "bash_20241022", "name": "bash" }

El campo "tipo" se utiliza para identificar las herramientas, y el campo "nombre" se expone al modelo. A continuación, le proporcionaremos el indicador de usuario y el parámetro de uso del ordenador.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20241022",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20241022",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20241022",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Download a picture of a sports car to my desktop."}],
    betas=["computer-use-2024-10-22"],
)
print(response)

2. Claude selecciona la herramienta a utilizar

Claude comprueba las definiciones y el acceso a las herramientas para ver si se pueden utilizar determinadas herramientas con la consulta del usuario. Cuando se selecciona la herramienta, Claude realiza una petición de herramienta.

3. Extraer, evaluar y resultados

El uso del ordenador extraerá la entrada de la herramienta, la utilizará para realizar el proceso en el ordenador y, a continuación, devolverá el resultado como una captura de pantalla. Después, continuará la conversación con un nuevo mensaje de usuario que contenga el resultado de la herramienta.

4. Llamar a las herramientas de uso del ordenador hasta que haya completado la tarea

Claude procesa e interpreta los resultados de la herramienta para determinar si la tarea se ha completado o si se necesitan más herramientas. Si decide utilizar otra herramienta, repetirá de nuevo el paso tres. La repetición de los pasos tres y cuatro sin la intervención del usuario se conoce como "bucle agente". Se trata de un proceso repetitivo en el que Claude interactúa con tu entorno de escritorio utilizando las herramientas y evalúa los resultados.

Iniciarse en el uso del ordenador

El uso del ordenador está en fase beta y, como tal, plantea diversos riesgos. Estos riesgos aumentan si el ordenador intenta acceder a Internet a través de un navegador. Por eso utilizaremos un contenedor Docker con privilegios mínimos para evitar ataques directos al sistema o accidentes.

Utilizaremos una implementación de referencia que contiene comandos para iniciar el uso del ordenador con Docker. La imagen Docker contiene todos los componentes necesarios para que Claude utilice un ordenador.

Requisito previo:

Instala la última versión de Docker en tu sistema.
Consigue una clave API de Anthropic y asegúrate de que tienes suficientes créditos para utilizar esta función.

Escribe el siguiente comando en el terminal o bash. Sustituye %tu_clave_api% por la clave de la API de Anthropic que puedes obtener de la consola.

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Descargará todos los paquetes necesarios y los ejecutará en el contenedor Docker.

Una vez ejecutado el contenedor, podemos acceder al uso del ordenador Claude escribiendo la URL local http://localhost:8080 en el navegador.

Empieza a escribir la indicación, y el ordenador realizará todos los pasos necesarios para terminar la tarea.

Mejorar el rendimiento del modelo

Escribir el aviso para uso informático es completamente distinto de utilizar el Soneto Claude 3.5 para chatear o para generar respuestas en general. Debes seguir algunas reglas sencillas para obtener resultados precisos.

Especifica instrucciones sencillas y detalladas para cada paso.
Escribe una instrucción para que Claude haga una captura de pantalla después de cada paso y evalúe el resultado correcto.
Añade el proceso de reflexión al aviso. Indica a Claude que lo intente de nuevo si no consigue el resultado deseado.
Para los elementos complejos de la IU, pide a Claude que utilice atajos de teclado en lugar del ratón.
Incluye una captura de pantalla de los resultados que quieres conseguir para guiar a Claude en la consecución de resultados similares.

Aplicaciones informáticas

El uso del ordenador tiene cientos de usos en la vida cotidiana y en el lugar de trabajo. Puede automatizar por ti diversas tareas complejas. Por ejemplo, puedes pedir a un ordenador que planifique un encuentro con un amigo en el puente Golden Gate.

Como se muestra en el vídeo, puede realizar una búsqueda en Google, abrir mapas para encontrar la distancia, comprobar la hora de la puesta de sol y añadir el evento al calendario. Esto es increíble para tareas cotidianas que normalmente requerirían horas de investigación y organización. La IA puede hacerlo en pocos minutos con una supervisión mínima.

Claude | Uso del ordenador para orquestar tareas

Claude | Uso del ordenador para codificar

Limitaciones del uso del ordenador

Antes de empezar a utilizar el ordenador de Claude para la experimentación con IA, ten en cuenta sus limitaciones y advertencias, como:

Latencia: La latencia del uso del ordenador podría ser demasiado lenta en comparación con las acciones habituales del ordenador dirigidas por humanos.
Fiabilidad de desplazamiento: El desplazamiento no es fiable con la configuración actual. En su lugar, pide a Claude que utilice atajos de teclado.
Interacción con la hoja de cálculo: Los clics del ratón para interactuar con la hoja de cálculo no son fiables. Puedes evitarlo pidiendo a Claude que utilice las teclas de flecha.
Vulnerabilidades: El Jailbreaking o la inyección de prompt son problemas comunes de los modelos de IA y también existen en el uso de ordenadores.
Acciones ilegales: No está permitido utilizar el ordenador para infringir la ley.
Problemas con las plataformas sociales y de comunicación: A Claude le cuesta crear cuentas y publicar en las redes sociales.
Precisión de la visión por ordenador: Claude puede equivocarse y malinterpretar determinadas coordenadas al generar acciones.
Precisión en la selección de herramientas: Claude puede cometer errores o alucinar al seleccionar herramientas mientras genera acciones.

Precios del uso de ordenadores

El coste del uso del ordenador es similar al de hacer llamadas API a los modelos Claude. Sin embargo, hay un coste adicional asociado al uso de un indicador especial del sistema, así como fichas de entrada adicionales. Puedes consultar los precios de los modelos en Precios \ Antrópico.

Uso especial del testigo de aviso del sistema

El aviso especial del sistema requiere 466 fichas adicionales para la selección automática de herramientas y 499 fichas para cualquier herramienta. Estas cifras se aplican al modelo Claude 3.5 Sonnet (nuevo), cuyo precio es de 3 $ por millón de tokens de entrada y 15 $ por millón de tokens de salida.

Fichas de entrada adicionales

Para utilizar las herramientas definidas por Anthropic, se necesitan los siguientes tokens de entrada adicionales:

computer_20241022: 683 fichas
text_editor_20241022: 700 fichas
bash_20241022: 245 fichas

Reflexiones finales

Existen innumerables aplicaciones para el uso del ordenador, y las empresas pueden automatizar gran parte de su trabajo manual para aumentar la productividad. También puede ahorrar tiempo al usuario medio de ordenador en tareas rutinarias como pedir un café o reservar un vuelo.

El uso del ordenador tiene el potencial de realizar todo tipo de tareas, y todo lo que tienes que hacer es supervisar. Sólo tienes que darle una orden y evaluar su trabajo. Si no es preciso, puedes pedirle que itere y mejore. Esta herramienta es un potencial cambio de juego y podría ser más impactante que la introducción del modelo OpenAI o1.

Hemos conocido la nueva función de Anthropic y cómo puede interactuar con el entorno del escritorio y modificarlo con la ayuda de Claude AI. También hemos aprendido cómo funciona, hemos construido la imagen Docker y la hemos utilizado localmente, hemos conocido sus casos de uso, sus limitaciones y su precio. En resumen, todo lo que tienes que hacer ahora es probarlo por ti mismo para experimentar sus increíbles funciones. Si eres nuevo en Antropic y Claude, consulta nuestros recursos:

Author

Abid Ali Awan

Temas

Inteligencia Artificial

Grandes modelos lingüísticos

Los mejores cursos de DataCamp

programa

Desarrollar grandes modelos lingüísticos

0 min

Aprende a desarrollar grandes modelos lingüísticos (LLM) con PyTorch y Hugging Face, utilizando las últimas técnicas de aprendizaje profundo y PNL.

Ver detalles

Iniciar curso

Curso

Introduction to LLMs in Python

3 h

27.5K

Aprende los entresijos de los LLM y la revolucionaria arquitectura de transformadores en la que se basan.

Ver detalles

Iniciar curso

Curso

LLMOps Conceptos

1 h

9.5K

Aprende sobre LLMOps desde la idea hasta la implementación y cómo aplicarlo a tus aplicaciones.

Ver detalles

Iniciar curso

Relacionado

blog

10 de los mejores plugins de ChatGPT para sacar el máximo partido a la IA en 2023

Libera todo el potencial de ChatGPT con nuestra guía de expertos sobre los 10 mejores plugins para 2023. Mejora la productividad, agiliza los flujos de trabajo y descubre nueva funcionalidad para elevar tu experiencia ChatGPT.

Matt Crabtree

12 min

Tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.

Abid Ali Awan

Tutorial

Cursor AI: Una guía con 10 ejemplos prácticos

Aprende a instalar Cursor AI en Windows, macOS y Linux, y descubre cómo utilizarlo a través de 10 casos de uso diferentes.

Tutorial

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Empieza a utilizar el gran modelo de lenguaje DCLM-7B de Apple y aprende a configurarlo, utilizarlo y ajustarlo para tareas específicas.

Dimitri Didmanidze

Tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.

Moez Ali

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.

Dimitri Didmanidze

Ver más Ver más

¿Qué es el uso antrópico del ordenador?

¿Cómo funciona el uso del ordenador?

1. Solicitud API

2. Claude selecciona la herramienta a utilizar

3. Extraer, evaluar y resultados

4. Llamar a las herramientas de uso del ordenador hasta que haya completado la tarea

Iniciarse en el uso del ordenador

Mejorar el rendimiento del modelo

Aplicaciones informáticas

Limitaciones del uso del ordenador

Precios del uso de ordenadores

Uso especial del testigo de aviso del sistema

Fichas de entrada adicionales

Reflexiones finales

10 de los mejores plugins de ChatGPT para sacar el máximo partido a la IA en 2023

Primeros pasos con Claude 3 y la API de Claude 3

Cursor AI: Una guía con 10 ejemplos prácticos

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Desarrollar grandes modelos lingüísticos

Introduction to LLMs in Python

LLMOps Conceptos

10 de los mejores plugins de ChatGPT para sacar el máximo partido a la IA en 2023

Primeros pasos con Claude 3 y la API de Claude 3

Cursor AI: Una guía con 10 ejemplos prácticos

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

Desarrollar grandes modelos lingüísticos