Saltar al contenido principal

Uso antrópico del ordenador: Automatiza tu escritorio con Claude 3.5

Descubre la nueva función de uso del ordenador de Anthropic y deja que Claude gestione tu espacio de trabajo y automatice tus tareas. Sólo tienes que escribir la indicación y Claude se encargará del resto.
Actualizado 23 oct 2024  · 9 min de lectura

Recientemente, Anthropic AI ha mejorado sus Claude 3.5 Sonnet y Claude 3.5 Haiku. Con esta actualización, han introducido una nueva función que revolucionará nuestra forma de trabajar e interactuar con la IA en general. Han introducido el uso del ordenador, una nueva capacidad innovadora que puede mirar la pantalla, mover el ratón, pulsar botones y escribir texto. 

Esencialmente, puede hacerlo todo por ti basándose en una simple indicación. Todo lo que tienes que hacer es escribir la indicación, y Claude realizará todos los pasos necesarios para alcanzar el objetivo.

Aquí aprenderemos sobre el uso antrópico del ordenador, cómo funciona y cómo puedes empezar a utilizarlo con Docker. También aprenderemos cómo mejorar el rendimiento del modelo, casos de uso, limitaciones y precios.

Imagen principal del uso antrópico del ordenador

Imagen del autor

¿Qué es el uso antrópico del ordenador?

El uso del ordenador es una nueva función de Anthropic, en la que Claude puede interactuar con herramientas para manipular un entorno de escritorio de ordenador. Al igual que los humanos, puede recibir una orden y realizar los pasos necesarios para alcanzar el objetivo. 

Como podemos ver en el vídeo de demostración que aparece a continuación, Sam, uno de los investigadores de Anthropic, ha pedido a Claude AI que rellene el formulario de solicitud de proveedores utilizando la hoja de cálculo o el puerto de búsqueda. Claude AI ha rellenado el formulario tras verificarlo, automatizando el trabajo manual.

Claude | Uso del ordenador para automatizar operaciones

El uso informático está actualmente en fase experimental, y Anthropic permite que los desarrolladores lo prueben e informen de los errores. Con el tiempo, la tecnología mejorará, y tiene el potencial de ser increíblemente eficiente, gestionando tareas en todo tipo de roles, desde desarrolladores hasta roles de administrador. 

Organizaciones como Canva, DoorDash y Replit ya han empezado a experimentar con el uso de ordenadores para automatizar tareas que requieren docenas, y a veces incluso cientos, de pasos para completarse.

Esta nueva capacidad es posible gracias al nuevo y mejorado modelo Claude 3.5 Sonnet, que está disponible para todos los usuarios. Puedes acceder a ella a través de Anthropic API, Amazon Bedrock y Vertex AI de Google Cloud.

¿Cómo funciona el uso del ordenador?

El uso antrópico del ordenador realiza cuatro pasos en segundo plano. En primer lugar, recibe la solicitud API del usuario. A continuación, Claude selecciona la herramienta que va a utilizar. Después, realiza capturas de pantalla del escritorio y evalúa si se ha completado la tarea. Si no, seguirá utilizando las herramientas hasta alcanzar el objetivo. Exploremos esto con más detalle. 

1. Solicitud API

Empezaremos utilizando la API de Python para acceder al último modelo de Claude 3.5 Sonnet y emplearemos dos herramientas: text_editor y bash. Actualmente, sólo tenemos acceso a tres herramientas definidas antrópicamente:

  • { "type": "computer_20241022", "name": "computer" }
  • { "type": "text_editor_20241022", "name": "str_replace_editor" }
  • { "type": "bash_20241022", "name": "bash" }

El campo "tipo" se utiliza para identificar las herramientas, y el campo "nombre" se expone al modelo. A continuación, le proporcionaremos el indicador de usuario y el parámetro de uso del ordenador.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20241022",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20241022",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20241022",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Download a picture of a sports car to my desktop."}],
    betas=["computer-use-2024-10-22"],
)
print(response)

2. Claude selecciona la herramienta a utilizar 

Claude comprueba las definiciones y el acceso a las herramientas para ver si se pueden utilizar determinadas herramientas con la consulta del usuario. Cuando se selecciona la herramienta, Claude realiza una petición de herramienta.

3. Extraer, evaluar y resultados

El uso del ordenador extraerá la entrada de la herramienta, la utilizará para realizar el proceso en el ordenador y, a continuación, devolverá el resultado como una captura de pantalla. Después, continuará la conversación con un nuevo mensaje de usuario que contenga el resultado de la herramienta. 

4. Llamar a las herramientas de uso del ordenador hasta que haya completado la tarea

Claude procesa e interpreta los resultados de la herramienta para determinar si la tarea se ha completado o si se necesitan más herramientas. Si decide utilizar otra herramienta, repetirá de nuevo el paso tres. La repetición de los pasos tres y cuatro sin la intervención del usuario se conoce como "bucle agente". Se trata de un proceso repetitivo en el que Claude interactúa con tu entorno de escritorio utilizando las herramientas y evalúa los resultados. 

Iniciarse en el uso del ordenador

El uso del ordenador está en fase beta y, como tal, plantea diversos riesgos. Estos riesgos aumentan si el ordenador intenta acceder a Internet a través de un navegador. Por eso utilizaremos un contenedor Docker con privilegios mínimos para evitar ataques directos al sistema o accidentes.

Utilizaremos una implementación de referencia que contiene comandos para iniciar el uso del ordenador con Docker. La imagen Docker contiene todos los componentes necesarios para que Claude utilice un ordenador. 

Requisito previo: 

  • Instala la última versión de Docker en tu sistema.
  • Consigue una clave API de Anthropic y asegúrate de que tienes suficientes créditos para utilizar esta función. 

Escribe el siguiente comando en el terminal o bash. Sustituye %tu_clave_api% por la clave de la API de Anthropic que puedes obtener de la consola

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Descargará todos los paquetes necesarios y los ejecutará en el contenedor Docker. 

Extracción de la imagen Docker de uso del ordenador Antrópico

Una vez ejecutado el contenedor, podemos acceder al uso del ordenador Claude escribiendo la URL local http://localhost:8080 en el navegador. 

Utilizar el ordenador Antrópico.

Empieza a escribir la indicación, y el ordenador realizará todos los pasos necesarios para terminar la tarea. 

Mejorar el rendimiento del modelo

Escribir el aviso para uso informático es completamente distinto de utilizar el Soneto Claude 3.5 para chatear o para generar respuestas en general. Debes seguir algunas reglas sencillas para obtener resultados precisos.

  1. Especifica instrucciones sencillas y detalladas para cada paso.
  2. Escribe una instrucción para que Claude haga una captura de pantalla después de cada paso y evalúe el resultado correcto.
  3. Añade el proceso de reflexión al aviso. Indica a Claude que lo intente de nuevo si no consigue el resultado deseado.
  4. Para los elementos complejos de la IU, pide a Claude que utilice atajos de teclado en lugar del ratón.
  5. Incluye una captura de pantalla de los resultados que quieres conseguir para guiar a Claude en la consecución de resultados similares.

Aplicaciones informáticas

El uso del ordenador tiene cientos de usos en la vida cotidiana y en el lugar de trabajo. Puede automatizar por ti diversas tareas complejas. Por ejemplo, puedes pedir a un ordenador que planifique un encuentro con un amigo en el puente Golden Gate. 

Como se muestra en el vídeo, puede realizar una búsqueda en Google, abrir mapas para encontrar la distancia, comprobar la hora de la puesta de sol y añadir el evento al calendario. Esto es increíble para tareas cotidianas que normalmente requerirían horas de investigación y organización. La IA puede hacerlo en pocos minutos con una supervisión mínima.

Claude | Uso del ordenador para orquestar tareas

En otro ejemplo, Alex pide al ordenador que inicie un navegador Chrome y utilice un sitio web llamado claude.ai para crear un sitio web personal con un tema de los 90. Después, le pidió que descargara el archivo, lo abriera en VS Code y lo ejecutara localmente. En pocos minutos, ha creado un sitio web adecuado.

Claude | Uso del ordenador para codificar

Limitaciones del uso del ordenador

Antes de empezar a utilizar el ordenador de Claude para la experimentación con IA, ten en cuenta sus limitaciones y advertencias, como:

  1. Latencia: La latencia del uso del ordenador podría ser demasiado lenta en comparación con las acciones habituales del ordenador dirigidas por humanos.
  2. Fiabilidad de desplazamiento: El desplazamiento no es fiable con la configuración actual. En su lugar, pide a Claude que utilice atajos de teclado.
  3. Interacción con la hoja de cálculo: Los clics del ratón para interactuar con la hoja de cálculo no son fiables. Puedes evitarlo pidiendo a Claude que utilice las teclas de flecha.
  4. Vulnerabilidades: El Jailbreaking o la inyección de prompt son problemas comunes de los modelos de IA y también existen en el uso de ordenadores.
  5. Acciones ilegales: No está permitido utilizar el ordenador para infringir la ley.
  6. Problemas con las plataformas sociales y de comunicación: A Claude le cuesta crear cuentas y publicar en las redes sociales.
  7. Precisión de la visión por ordenador: Claude puede equivocarse y malinterpretar determinadas coordenadas al generar acciones.
  8. Precisión en la selección de herramientas: Claude puede cometer errores o alucinar al seleccionar herramientas mientras genera acciones.

Precios del uso de ordenadores

El coste del uso del ordenador es similar al de hacer llamadas API a los modelos Claude. Sin embargo, hay un coste adicional asociado al uso de un indicador especial del sistema, así como fichas de entrada adicionales. Puedes consultar los precios de los modelos en Precios \ Antrópico.

Uso especial del testigo de aviso del sistema

El aviso especial del sistema requiere 466 fichas adicionales para la selección automática de herramientas y 499 fichas para cualquier herramienta. Estas cifras se aplican al modelo Claude 3.5 Sonnet (nuevo), cuyo precio es de 3 $ por millón de tokens de entrada y 15 $ por millón de tokens de salida.

Fichas de entrada adicionales

Para utilizar las herramientas definidas por Anthropic, se necesitan los siguientes tokens de entrada adicionales:

  • computer_20241022: 683 fichas
  • text_editor_20241022: 700 fichas
  • bash_20241022: 245 fichas

Reflexiones finales

Existen innumerables aplicaciones para el uso del ordenador, y las empresas pueden automatizar gran parte de su trabajo manual para aumentar la productividad. También puede ahorrar tiempo al usuario medio de ordenador en tareas rutinarias como pedir un café o reservar un vuelo. 

El uso del ordenador tiene el potencial de realizar todo tipo de tareas, y todo lo que tienes que hacer es supervisar. Sólo tienes que darle una orden y evaluar su trabajo. Si no es preciso, puedes pedirle que itere y mejore. Esta herramienta es un potencial cambio de juego y podría ser más impactante que la introducción del modelo OpenAI o1.

Hemos conocido la nueva función de Anthropic y cómo puede interactuar con el entorno del escritorio y modificarlo con la ayuda de Claude AI. También hemos aprendido cómo funciona, hemos construido la imagen Docker y la hemos utilizado localmente, hemos conocido sus casos de uso, sus limitaciones y su precio. En resumen, todo lo que tienes que hacer ahora es probarlo por ti mismo para experimentar sus increíbles funciones. Si eres nuevo en Antropic y Claude, consulta nuestros recursos: 


Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

Soy un científico de datos certificado que disfruta creando aplicaciones de aprendizaje automático y escribiendo blogs sobre ciencia de datos. Actualmente me centro en la creación de contenidos, la edición y el trabajo con grandes modelos lingüísticos.

Temas

Los mejores cursos de DataCamp

Certificación disponible

curso

Introducción a los LLM en Python

4 hr
9K
Aprende los entresijos de los LLM y la revolucionaria arquitectura de transformadores en la que se basan.
Ver detallesRight Arrow
Comienza el curso
Ver másRight Arrow
Relacionado

blog

10 de los mejores plugins de ChatGPT para sacar el máximo partido a la IA en 2023

Libera todo el potencial de ChatGPT con nuestra guía de expertos sobre los 10 mejores plugins para 2023. Mejora la productividad, agiliza los flujos de trabajo y descubre nueva funcionalidad para elevar tu experiencia ChatGPT.
Matt Crabtree's photo

Matt Crabtree

12 min

An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

tutorial

Primeros pasos con Claude 3 y la API de Claude 3

Conozca los modelos Claude 3, las pruebas de rendimiento detalladas y cómo acceder a ellas. Además, descubra la nueva API Python de Claude 3 para generar texto, acceder a funciones de visión y streaming.
Abid Ali Awan's photo

Abid Ali Awan

tutorial

Cursor AI: Una guía con 10 ejemplos prácticos

Aprende a instalar Cursor AI en Windows, macOS y Linux, y descubre cómo utilizarlo a través de 10 casos de uso diferentes.
François Aubry's photo

François Aubry

10 min

tutorial

Cómo ajustar GPT 3.5: Liberar todo el potencial de la IA

Explore GPT-3.5 Turbo y descubra el potencial transformador del ajuste fino. Aprenda a personalizar este modelo de lenguaje avanzado para aplicaciones especializadas, mejore su rendimiento y comprenda los costes asociados, la seguridad y las consideraciones de privacidad.
Moez Ali's photo

Moez Ali

11 min

tutorial

DCLM-7B de Apple: Configuración, Ejemplo de uso, Ajuste fino

Empieza a utilizar el gran modelo de lenguaje DCLM-7B de Apple y aprende a configurarlo, utilizarlo y ajustarlo para tareas específicas.
Dimitri Didmanidze's photo

Dimitri Didmanidze

9 min

See MoreSee More