Pular para o conteúdo principal
InicioBlogInteligência Artificial (IA)

Uso de computador antrópico: Automatize sua área de trabalho com o Claude 3.5

Descubra o novo recurso de uso do computador do Anthropic e deixe que o Claude gerencie seu espaço de trabalho e automatize suas tarefas. Basta digitar o prompt, e o Claude cuidará do resto.
Actualizado 23 de out. de 2024  · 9 min leer

Recentemente, a Anthropic AI aprimorou o Claude 3.5 Sonnet e o Claude 3.5 Haiku. Com essa atualização, eles introduziram um novo recurso que revolucionará a forma como trabalhamos e interagimos com a IA em geral. Eles introduziram o uso do computador, um recurso novo e inovador que pode olhar para a tela, mover o mouse, clicar em botões e digitar texto. 

Basicamente, ele pode fazer tudo para você com base em uma simples solicitação. Tudo o que você precisa fazer é escrever o prompt, e o Claude executará todas as etapas necessárias para atingir a meta.

Aqui, aprenderemos sobre o uso do computador Anthropic, como ele funciona e como você pode começar a usá-lo com o Docker. Também aprenderemos como melhorar o desempenho do modelo, os casos de uso, as limitações e os preços.

Imagem do recurso Anthropic Computer Use

Imagem do autor

O que é o uso antrópico do computador?

O uso do computador é um novo recurso do Anthropic, no qual o Claude pode interagir com ferramentas para manipular o ambiente de trabalho de um computador. Assim como os humanos, ele pode receber um comando e executar as etapas necessárias para atingir a meta. 

Como podemos ver no vídeo de demonstração abaixo, Sam, um dos pesquisadores da Anthropic, pediu a Claude AI que preenchesse o formulário de solicitação de fornecedor usando a planilha ou a porta de pesquisa. Claude AI preencheu o formulário depois de verificá-lo, automatizando o trabalho manual.

Claude | Uso de computadores para automatizar operações

No momento, o uso do computador está em fase experimental, e a Anthropic está permitindo que os desenvolvedores o experimentem e relatem os erros. Com o tempo, a tecnologia será aprimorada e terá o potencial de ser incrivelmente eficiente, lidando com tarefas em todos os tipos de funções, de desenvolvedores a funções de administrador. 

Organizações como Canva, DoorDash e Replit já começaram a fazer experiências com o uso de computadores para automatizar tarefas que exigem dezenas e, às vezes, até centenas de etapas para serem concluídas.

Esse novo recurso é possível com o novo e aprimorado modelo Claude 3.5 Sonnet, que está disponível para todos os usuários. Você pode acessá-lo por meio da API Anthropic, do Amazon Bedrock e do Vertex AI do Google Cloud.

Como funciona o uso do computador?

O uso do computador antrópico executa quatro etapas em segundo plano. Primeiro, ele recebe a solicitação de API do usuário. Ao usar o prompt, Claude seleciona a ferramenta a ser usada. Depois disso, ele faz capturas de tela da área de trabalho e avalia se a tarefa foi concluída. Caso contrário, ele continuará usando as ferramentas até que a meta seja atingida. Vamos explorar isso com mais detalhes. 

1. Solicitação de API

Começaremos usando a API do Python para acessar o modelo Sonnet mais recente do Claude 3.5 e empregaremos duas ferramentas: text_editor e bash. Atualmente, só temos acesso a três ferramentas definidas pela Antropologia:

  • { "type": "computer_20241022", "name": "computer" }
  • { "type": "text_editor_20241022", "name": "str_replace_editor" }
  • { "type": "bash_20241022", "name": "bash" }

O campo "type" é usado para identificar as ferramentas, e o campo "name" é exposto ao modelo. Em seguida, forneceremos a ele o prompt do usuário e o parâmetro de uso do computador.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20241022",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20241022",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20241022",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Download a picture of a sports car to my desktop."}],
    betas=["computer-use-2024-10-22"],
)
print(response)

2. Claude seleciona a ferramenta a ser usada 

O Claude verifica as definições e o acesso à ferramenta para ver se determinadas ferramentas podem ser usadas com a consulta do usuário. Quando a ferramenta é selecionada, o Claude executa uma solicitação de ferramenta.

3. Extrair, avaliar e obter resultados

O uso do computador extrairá a entrada da ferramenta, usará a entrada para executar o processo no computador e, em seguida, retornará o resultado como uma captura de tela. Depois disso, ele continuará a conversa com uma nova mensagem de usuário que contém o resultado da ferramenta. 

4. Chamar o computador para usar ferramentas até que ele tenha concluído a tarefa

O Claude processa e interpreta os resultados da ferramenta para determinar se a tarefa foi concluída ou se são necessárias mais ferramentas. Se você decidir usar outra ferramenta, ele repetirá a etapa três novamente. A repetição das etapas três e quatro sem a entrada do usuário é conhecida como "loop do agente". Esse é um processo repetitivo em que o Claude interage com o ambiente de trabalho usando as ferramentas e avalia os resultados. 

Primeiros passos no uso do computador

O uso do computador está em fase beta e, como tal, apresenta vários riscos. Esses riscos são maiores se o computador tentar acessar a Internet por meio de um navegador. Por isso, usaremos um contêiner do Docker com privilégios mínimos para evitar ataques diretos ao sistema ou acidentes.

Usaremos uma implementação de referência que contém comandos para você iniciar o uso do computador com o Docker. A imagem do Docker contém todos os componentes necessários para que o Claude use um computador. 

Pré-requisito: 

  • Instale a versão mais recente do Docker em seu sistema.
  • Obtenha uma chave de API Anthropic e verifique se você tem créditos suficientes para usar esse recurso. 

Digite o seguinte comando no terminal ou no bash. Substitua %your_api_key% pela chave da API do Anthropic que você pode obter no console

export ANTHROPIC_API_KEY=%your_api_key%
docker run \
    -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
    -v $HOME/.anthropic:/home/computeruse/.anthropic \
    -p 5900:5900 \
    -p 8501:8501 \
    -p 6080:6080 \
    -p 8080:8080 \
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Ele fará o download de todos os pacotes necessários e os executará no contêiner do docker. 

Extraindo a imagem do Docker de uso do computador Anthropic

Quando o contêiner estiver em execução, poderemos acessar o uso do computador Claude digitando o URL local http://localhost:8080 no navegador. 

Usando o uso do computador Anthropic.

Comece a digitar o prompt, e o computador executará todas as etapas necessárias para concluir a tarefa. 

Aprimoramento do desempenho do modelo

Escrever o prompt para uso no computador é completamente diferente de usar o Claude 3.5 Sonnet para bate-papo ou geração de respostas gerais. Você precisa seguir algumas regras simples para obter resultados precisos.

  1. Especifique instruções simples e detalhadas para cada etapa.
  2. Escreva um prompt instruindo o Claude a fazer uma captura de tela após cada etapa e avaliar o resultado correto.
  3. Adicione o processo de reflexão ao prompt. Instrua o Claude a tentar novamente se o resultado desejado não for alcançado.
  4. Para elementos complexos da interface do usuário, peça ao Claude para usar atalhos de teclado em vez do mouse.
  5. Inclua uma captura de tela dos resultados que você deseja obter para orientar o Claude na obtenção de resultados semelhantes.

Aplicativos de uso do computador

O uso do computador tem centenas de casos de uso na vida cotidiana e no local de trabalho. Ele pode automatizar uma variedade de tarefas complexas para você. Por exemplo, você pode pedir a um computador que planeje um encontro com um amigo na Golden Gate Bridge. 

Conforme mostrado no vídeo, ele pode realizar uma pesquisa no Google, abrir mapas para encontrar a distância, verificar a hora do pôr do sol e adicionar o evento ao calendário. Isso é incrível para tarefas cotidianas que normalmente exigiriam horas de pesquisa e organização. A IA pode fazer isso em apenas alguns minutos com o mínimo de supervisão.

Claude | Uso do computador para orquestrar tarefas

Em outro exemplo, Alex está pedindo ao computador para iniciar um navegador Chrome e usar um site chamado claude.ai para criar um site pessoal com um tema dos anos 90. Depois disso, ele pediu para baixar o arquivo, abri-lo no VS Code e executá-lo localmente. Em poucos minutos, ele criou um site adequado.

Claude | Uso do computador para codificação

Limitações de uso do computador

Antes de você começar a usar o computador do Claude para fazer experimentos com IA, esteja ciente de suas limitações e avisos, como, por exemplo:

  1. Latência: A latência do uso do computador pode ser muito lenta em comparação com as ações normais do computador dirigidas por humanos.
  2. Confiabilidade da rolagem: A rolagem não é confiável com a configuração atual. Em vez disso, peça ao Claude que use atalhos de teclado.
  3. Interação com a planilha: Os cliques do mouse para interação com a planilha não são confiáveis. Você pode evitar isso pedindo ao Claude que use as teclas de seta.
  4. Vulnerabilidades: O jailbreak ou a injeção de prompt são problemas comuns de modelos de IA e também existem no uso de computadores.
  5. Ações ilegais: Você não tem permissão para usar o computador para violar leis.
  6. Problemas com plataformas sociais e de comunicação: Claude tem dificuldades para criar contas e postar em plataformas de mídia social.
  7. Precisão da visão computacional: Claude pode confundir e interpretar mal coordenadas específicas ao gerar ações.
  8. Precisão na seleção de ferramentas: Claude pode cometer erros ou ter alucinações ao selecionar ferramentas enquanto gera ações.

Preços de uso do computador

O custo do uso do computador é semelhante ao de fazer chamadas de API para os modelos do Claude. No entanto, há um custo adicional associado ao uso de um prompt especial do sistema, além de tokens de entrada adicionais. Você pode ver os detalhes de preços dos modelos em Preços \ Anthropic.

Uso de token de prompt de sistema especial

O prompt especial do sistema requer 466 tokens adicionais para a seleção automática de ferramentas e 499 tokens para qualquer ferramenta. Esses números se aplicam ao modelo Claude 3.5 Sonnet (novo), cujo preço é de US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

Tokens de entrada adicionais

Para usar as ferramentas definidas pelo Anthropic, são necessários os seguintes tokens de entrada adicionais:

  • computer_20241022: 683 tokens
  • text_editor_20241022: 700 tokens
  • bash_20241022: 245 tokens

Considerações finais

Há inúmeros aplicativos para uso do computador, e as empresas podem automatizar grande parte do trabalho manual para aumentar a produtividade. Ele também pode economizar o tempo do usuário médio de computador em tarefas rotineiras, como pedir um café ou reservar um voo. 

O uso do computador tem o potencial de lidar com todos os tipos de tarefas, e tudo o que você precisa fazer é supervisionar. Você só precisa dar a ele um comando e avaliar seu trabalho. Se não for preciso, você pode pedir que ele itere e melhore. Essa ferramenta tem potencial para mudar o jogo e pode ser mais impactante do que a introdução do modelo modelo o1 da OpenAI.

Você pode aprender sobre o novo recurso do Anthropic e como ele pode interagir e modificar o ambiente de trabalho com a ajuda do Claude AI. Também aprendemos como ele funciona, criamos a imagem do Docker e o usamos localmente, aprendemos sobre seus casos de uso, limitações e preços. Resumindo, tudo o que você precisa fazer agora é experimentá-lo por conta própria para conhecer os incríveis recursos. Se você ainda não conhece o Anthropic e o Claude, confira nossos recursos: 


Photo of Abid Ali Awan
Author
Abid Ali Awan
LinkedIn
Twitter

Sou um cientista de dados certificado que gosta de criar aplicativos de aprendizado de máquina e escrever blogs sobre ciência de dados. No momento, estou me concentrando na criação e edição de conteúdo e no trabalho com modelos de linguagem de grande porte.

Temas

Principais cursos da DataCamp

Certificação disponível

Course

Introdução aos LLMs em Python

4 hr
9K
Aprenda os detalhes básicos dos LLMs e a revolucionária arquitetura de transformadores na qual eles se baseiam!
See DetailsRight Arrow
Start Course
Certificação disponível

Course

Conceitos de LLMOps

3 hr
937
Saiba mais sobre LLMOps, desde a concepção até a implementação, obtenha insights sobre o ciclo de vida e os desafios e saiba como aplicar esses conceitos aos seus aplicativos.
Ver maisRight Arrow