Uso de computador antrópico: Automatize sua área de trabalho com o Claude 3.5

Descubra o novo recurso de uso do computador do Anthropic e deixe que o Claude gerencie seu espaço de trabalho e automatize suas tarefas. Basta digitar o prompt, e o Claude cuidará do resto.

Atualizado 23 de out. de 2024 · 9 min lido

Recentemente, a Anthropic AI aprimorou o Claude 3.5 Sonnet e o Claude 3.5 Haiku. Com essa atualização, eles introduziram um novo recurso que revolucionará a forma como trabalhamos e interagimos com a IA em geral. Eles introduziram o uso do computador, um recurso novo e inovador que pode olhar para a tela, mover o mouse, clicar em botões e digitar texto.

Basicamente, ele pode fazer tudo para você com base em uma simples solicitação. Tudo o que você precisa fazer é escrever o prompt, e o Claude executará todas as etapas necessárias para atingir a meta.

Aqui, aprenderemos sobre o uso do computador Anthropic, como ele funciona e como você pode começar a usá-lo com o Docker. Também aprenderemos como melhorar o desempenho do modelo, os casos de uso, as limitações e os preços.

Imagem do autor

O que é o uso antrópico do computador?

O uso do computador é um novo recurso do Anthropic, no qual o Claude pode interagir com ferramentas para manipular o ambiente de trabalho de um computador. Assim como os humanos, ele pode receber um comando e executar as etapas necessárias para atingir a meta.

Como podemos ver no vídeo de demonstração abaixo, Sam, um dos pesquisadores da Anthropic, pediu a Claude AI que preenchesse o formulário de solicitação de fornecedor usando a planilha ou a porta de pesquisa. Claude AI preencheu o formulário depois de verificá-lo, automatizando o trabalho manual.

Claude | Uso de computadores para automatizar operações

No momento, o uso do computador está em fase experimental, e a Anthropic está permitindo que os desenvolvedores o experimentem e relatem os erros. Com o tempo, a tecnologia será aprimorada e terá o potencial de ser incrivelmente eficiente, lidando com tarefas em todos os tipos de funções, de desenvolvedores a funções de administrador.

Organizações como Canva, DoorDash e Replit já começaram a fazer experiências com o uso de computadores para automatizar tarefas que exigem dezenas e, às vezes, até centenas de etapas para serem concluídas.

Esse novo recurso é possível com o novo e aprimorado modelo Claude 3.5 Sonnet, que está disponível para todos os usuários. Você pode acessá-lo por meio da API Anthropic, do Amazon Bedrock e do Vertex AI do Google Cloud.

Como funciona o uso do computador?

O uso do computador antrópico executa quatro etapas em segundo plano. Primeiro, ele recebe a solicitação de API do usuário. Ao usar o prompt, Claude seleciona a ferramenta a ser usada. Depois disso, ele faz capturas de tela da área de trabalho e avalia se a tarefa foi concluída. Caso contrário, ele continuará usando as ferramentas até que a meta seja atingida. Vamos explorar isso com mais detalhes.

1. Solicitação de API

Começaremos usando a API do Python para acessar o modelo Sonnet mais recente do Claude 3.5 e empregaremos duas ferramentas: text_editor e bash. Atualmente, só temos acesso a três ferramentas definidas pela Antropologia:

{ "type": "computer_20241022", "name": "computer" }
{ "type": "text_editor_20241022", "name": "str_replace_editor" }
{ "type": "bash_20241022", "name": "bash" }

O campo "type" é usado para identificar as ferramentas, e o campo "name" é exposto ao modelo. Em seguida, forneceremos a ele o prompt do usuário e o parâmetro de uso do computador.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20241022",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20241022",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20241022",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Download a picture of a sports car to my desktop."}],
    betas=["computer-use-2024-10-22"],
)
print(response)

2. Claude seleciona a ferramenta a ser usada

O Claude verifica as definições e o acesso à ferramenta para ver se determinadas ferramentas podem ser usadas com a consulta do usuário. Quando a ferramenta é selecionada, o Claude executa uma solicitação de ferramenta.

3. Extrair, avaliar e obter resultados

O uso do computador extrairá a entrada da ferramenta, usará a entrada para executar o processo no computador e, em seguida, retornará o resultado como uma captura de tela. Depois disso, ele continuará a conversa com uma nova mensagem de usuário que contém o resultado da ferramenta.

4. Chamar o computador para usar ferramentas até que ele tenha concluído a tarefa

O Claude processa e interpreta os resultados da ferramenta para determinar se a tarefa foi concluída ou se são necessárias mais ferramentas. Se você decidir usar outra ferramenta, ele repetirá a etapa três novamente. A repetição das etapas três e quatro sem a entrada do usuário é conhecida como "loop do agente". Esse é um processo repetitivo em que o Claude interage com o ambiente de trabalho usando as ferramentas e avalia os resultados.

Primeiros passos no uso do computador

O uso do computador está em fase beta e, como tal, apresenta vários riscos. Esses riscos são maiores se o computador tentar acessar a Internet por meio de um navegador. Por isso, usaremos um contêiner do Docker com privilégios mínimos para evitar ataques diretos ao sistema ou acidentes.

Usaremos uma implementação de referência que contém comandos para você iniciar o uso do computador com o Docker. A imagem do Docker contém todos os componentes necessários para que o Claude use um computador.

Pré-requisito:

Instale a versão mais recente do Docker em seu sistema.
Obtenha uma chave de API Anthropic e verifique se você tem créditos suficientes para usar esse recurso.

Digite o seguinte comando no terminal ou no bash. Substitua %your_api_key% pela chave da API do Anthropic que você pode obter no console.

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Ele fará o download de todos os pacotes necessários e os executará no contêiner do docker.

Quando o contêiner estiver em execução, poderemos acessar o uso do computador Claude digitando o URL local http://localhost:8080 no navegador.

Comece a digitar o prompt, e o computador executará todas as etapas necessárias para concluir a tarefa.

Aprimoramento do desempenho do modelo

Escrever o prompt para uso no computador é completamente diferente de usar o Claude 3.5 Sonnet para bate-papo ou geração de respostas gerais. Você precisa seguir algumas regras simples para obter resultados precisos.

Especifique instruções simples e detalhadas para cada etapa.
Escreva um prompt instruindo o Claude a fazer uma captura de tela após cada etapa e avaliar o resultado correto.
Adicione o processo de reflexão ao prompt. Instrua o Claude a tentar novamente se o resultado desejado não for alcançado.
Para elementos complexos da interface do usuário, peça ao Claude para usar atalhos de teclado em vez do mouse.
Inclua uma captura de tela dos resultados que você deseja obter para orientar o Claude na obtenção de resultados semelhantes.

Aplicativos de uso do computador

O uso do computador tem centenas de casos de uso na vida cotidiana e no local de trabalho. Ele pode automatizar uma variedade de tarefas complexas para você. Por exemplo, você pode pedir a um computador que planeje um encontro com um amigo na Golden Gate Bridge.

Conforme mostrado no vídeo, ele pode realizar uma pesquisa no Google, abrir mapas para encontrar a distância, verificar a hora do pôr do sol e adicionar o evento ao calendário. Isso é incrível para tarefas cotidianas que normalmente exigiriam horas de pesquisa e organização. A IA pode fazer isso em apenas alguns minutos com o mínimo de supervisão.

Claude | Uso do computador para orquestrar tarefas

Claude | Uso do computador para codificação

Limitações de uso do computador

Antes de você começar a usar o computador do Claude para fazer experimentos com IA, esteja ciente de suas limitações e avisos, como, por exemplo:

Latência: A latência do uso do computador pode ser muito lenta em comparação com as ações normais do computador dirigidas por humanos.
Confiabilidade da rolagem: A rolagem não é confiável com a configuração atual. Em vez disso, peça ao Claude que use atalhos de teclado.
Interação com a planilha: Os cliques do mouse para interação com a planilha não são confiáveis. Você pode evitar isso pedindo ao Claude que use as teclas de seta.
Vulnerabilidades: O jailbreak ou a injeção de prompt são problemas comuns de modelos de IA e também existem no uso de computadores.
Ações ilegais: Você não tem permissão para usar o computador para violar leis.
Problemas com plataformas sociais e de comunicação: Claude tem dificuldades para criar contas e postar em plataformas de mídia social.
Precisão da visão computacional: Claude pode confundir e interpretar mal coordenadas específicas ao gerar ações.
Precisão na seleção de ferramentas: Claude pode cometer erros ou ter alucinações ao selecionar ferramentas enquanto gera ações.

Preços de uso do computador

O custo do uso do computador é semelhante ao de fazer chamadas de API para os modelos do Claude. No entanto, há um custo adicional associado ao uso de um prompt especial do sistema, além de tokens de entrada adicionais. Você pode ver os detalhes de preços dos modelos em Preços \ Anthropic.

Uso de token de prompt de sistema especial

O prompt especial do sistema requer 466 tokens adicionais para a seleção automática de ferramentas e 499 tokens para qualquer ferramenta. Esses números se aplicam ao modelo Claude 3.5 Sonnet (novo), cujo preço é de US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

Tokens de entrada adicionais

Para usar as ferramentas definidas pelo Anthropic, são necessários os seguintes tokens de entrada adicionais:

computer_20241022: 683 tokens
text_editor_20241022: 700 tokens
bash_20241022: 245 tokens

Considerações finais

Há inúmeros aplicativos para uso do computador, e as empresas podem automatizar grande parte do trabalho manual para aumentar a produtividade. Ele também pode economizar o tempo do usuário médio de computador em tarefas rotineiras, como pedir um café ou reservar um voo.

O uso do computador tem o potencial de lidar com todos os tipos de tarefas, e tudo o que você precisa fazer é supervisionar. Você só precisa dar a ele um comando e avaliar seu trabalho. Se não for preciso, você pode pedir que ele itere e melhore. Essa ferramenta tem potencial para mudar o jogo e pode ser mais impactante do que a introdução do modelo modelo o1 da OpenAI.

Você pode aprender sobre o novo recurso do Anthropic e como ele pode interagir e modificar o ambiente de trabalho com a ajuda do Claude AI. Também aprendemos como ele funciona, criamos a imagem do Docker e o usamos localmente, aprendemos sobre seus casos de uso, limitações e preços. Resumindo, tudo o que você precisa fazer agora é experimentá-lo por conta própria para conhecer os incríveis recursos. Se você ainda não conhece o Anthropic e o Claude, confira nossos recursos:

Author

Abid Ali Awan

Tópicos

Inteligência Artificial

Modelos de idiomas grandes

Principais cursos da DataCamp

Programa

Desenvolvimento de modelos de idiomas grandes

16 h

Aprenda a desenvolver grandes modelos de linguagem (LLMs) com PyTorch e Hugging Face, usando as mais recentes técnicas de aprendizagem profunda e PNL.

Ver detalhes

Iniciar curso

Curso

Introdução a LLMs em Python

3 h

32K

Entenda a fundo os LLMs e a arquitetura revolucionária de transformadores que está por trás dessa tecnologia!

Ver detalhes

Iniciar curso

Curso

Conceitos de LLMOps

1 h

13.8K

Aprenda sobre LLMOps, desde a concepção até a implantação, conheça o ciclo de vida e os desafios e veja como aplicar esses conceitos às suas aplicações.

Ver detalhes

Iniciar curso

Ver mais

O que é o uso antrópico do computador?

Como funciona o uso do computador?

1. Solicitação de API

2. Claude seleciona a ferramenta a ser usada

3. Extrair, avaliar e obter resultados

4. Chamar o computador para usar ferramentas até que ele tenha concluído a tarefa

Primeiros passos no uso do computador

Aprimoramento do desempenho do modelo

Aplicativos de uso do computador

Limitações de uso do computador

Preços de uso do computador

Uso de token de prompt de sistema especial

Tokens de entrada adicionais

Considerações finais

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Desenvolvimento de modelos de idiomas grandes

Introdução a LLMs em Python

Conceitos de LLMOps

Desenvolvimento de modelos de idiomas grandes