Programa
A OpenAI anunciou recentemente o Operator, um agente de agente de IA projetado para lidar com tarefas baseadas na Web por conta própria. Ele pode lidar com tarefas como reservar uma mesa ou fazer compras on-line, simplificando as interações digitais para as tarefas diárias.
No entanto, acreditamos que seu potencial vai além da conveniência - ele pode capacitar as pessoas que não têm conhecimentos de informática, permitindo que elas concluam tarefas como preencher formulários ou navegar em sites complexos com facilidade.
Além disso, com uma maior integração dos comandos de voz, ele poderia fornecer uma solução mais acessível para pessoas com deficiências, como aquelas com deficiências visuais.
A Operator entra em um campo competitivo que inclui os recursos de uso de computador da Anthropic da Anthropic e o Project Mariner do Google. Uma diferença é que as ferramentas do Anthropic exigem conhecimento de programação (por enquanto), enquanto o Operator permite que os usuários forneçam instruções em linguagem simples, tornando-o mais acessível.
Neste blog, explicaremos o que é o Operator, exploraremos sua tecnologia principal (CUA), descreveremos seus casos de uso e limitações e discutiremos onde ele se encaixa no contexto mais amplo dos agentes de IA.
O que é um operador?
Operator é o primeiro agente de IA da OpenAI, projetado para executar tarefas de forma autônoma na Web. Um agente de IA é um sistema que pode receber instruções, raciocinar sobre elas e executar ações sem supervisão humana constante.
Diferentemente das ferramentas de automação tradicionais que dependem de APIs predefinidas ou de fluxos de trabalho rígidos, o Operator interage diretamente com os sites, imitando ações humanas como clicar, digitar e rolar a tela. Seu principal objetivo é simplificar as tarefas digitais que, de outra forma, poderiam exigir esforço manual ou conhecimento técnico.
Isso o torna adequado para atividades cotidianas, como gerenciamento de reservas ou preenchimento de formulários, bem como para fluxos de trabalho mais complexos e de várias etapas. Aqui está um exemplo de uso do Operator:
O operador usa um navegador virtual para navegar em sites. Esse ambiente virtual permite que ele interaja com interfaces gráficas de usuário (GUIs) como um usuário humano faria. Em vez de exigir que os sites tenham APIs especializadas, o Operator interpreta o layout visual de uma página da Web, clica em botões, digita em campos e rola pelo conteúdo.
O operador depende de instruções em linguagem simples para entender o que os usuários precisam. Depois que a tarefa é definida, ele processa as instruções, divide-as em etapas acionáveis e as executa enquanto fornece feedback ao usuário. O operador também pode solicitar esclarecimentos ou confirmações para ações críticas, como o envio de um formulário ou a conclusão de um pagamento, garantindo maior controle sobre o resultado.
O que é um agente de uso de computador (CUA)?
O CUA (Computer-Using Agent) é a principal tecnologia que alimenta o Operator. Combinando os recursos de visão do GPT-4o com raciocínio avançado por meio de aprendizado por reforçoO CUA é treinado para interagir com interfaces gráficas de usuário - os botões, menus e campos de texto que as pessoas veem em uma tela.
Percepção
O CUA começa processando dados brutos de pixels a partir de capturas de tela. Ele usa essas informações visuais para identificar os principais elementos da interface, como botões, campos de entrada e menus de navegação.
Raciocínio
Depois que os dados visuais são analisados, o CUA aplica o raciocínio de cadeia de pensamento para planejar suas ações. Ao integrar capturas de tela atuais e anteriores, ele avalia suas observações, divide as tarefas em etapas menores e se adapta dinamicamente aos desafios. Por exemplo, se um pop-up aparecer durante uma tarefa (como o anúncio que vimos no exemplo acima), a CUA poderá ajustar sua abordagem e encontrar uma maneira de continuar, da mesma forma que um usuário humano faria.
Ação
O CUA usa entradas virtuais de mouse e teclado para executar ações como clicar, digitar, rolar e enviar formulários. Essa funcionalidade permite que ele execute tarefas de forma autônoma, seja selecionando um item em um menu suspenso ou navegando em um formulário de várias etapas.
Para ações críticas, como efetuar pagamentos ou fazer login em contas, a CUA busca a confirmação do usuário antes de prosseguir, garantindo que os usuários mantenham o controle sobre operações confidenciais.
Referências da CUA
O CUA alcançou o desempenho mais avançado (SOTA) em vários benchmarks:
Tipo de referência | Benchmark | Uso do computador (interface universal) | Agentes de navegação na Web | Humanos | |
---|---|---|---|---|---|
OpenAI CUA | SOTA anterior | SOTA anterior | |||
Uso do computador | OSWorld | 38.1% | 22.0% | 72.4% | |
Uso do navegador | WebArena | 58.1% | 36.2% | 57.1% | 78.2% |
WebVoyager | 87.0% | 56.0% | 87.0% |
Fonte: OpenAI
Vamosdetalhar o que cada um desses três benchmarks faz:
- OSWorld (38,1%): Avalia a capacidade de executar tarefas em sistemas operacionais completos, como Ubuntu, Windows e macOS. Embora a CUA supere os modelos anteriores, sua taxa de sucesso ainda está abaixo da referência humana de 72,4%.
- WebArena (58.1%): Avalia o desempenho na navegação em sites simulados, incluindo plataformas sociais e de comércio eletrônico. Embora supere os modelos anteriores, há espaço para melhorias no tratamento de interações complexas e de várias etapas.
- WebVoyager (87%): Mede a eficácia em sites ativos como Amazon, GitHub e Google Maps. O CUA tem um bom desempenho aqui, pois as tarefas tendem a ser mais simples e mais estruturadas em comparação com o WebArena.
O gráfico abaixo ilustra o desempenho do CUA da OpenAI em comparação com o Claude 3.5 Sonnet no benchmark OSWorld. O eixo x representa o número máximo de etapas permitidas para a conclusão da tarefa, enquanto o eixo y mostra a taxa de sucesso como uma porcentagem. O CUA demonstra um aprimoramento constante com mais etapas permitidas, superando os modelos anteriores de última geração.
Fonte: OpenAI
Como acessar o operador
O Operator está atualmente disponível nos Estados Unidos como parte de uma prévia de pesquisa para usuários Pro do ChatGPT. Para acessá-lo, você precisa de uma assinatura Pro ativa. Você pode visitar operator.chatgpt.com para você começar a usar o Operator.
Por enquanto, o Operator está limitado aos usuários Pro, mas a OpenAI tem planos de expandir o acesso aos usuários Plus nos próximos meses. A estratégia de implementação permite que a OpenAI obtenha feedback e aprimore o sistema antes de oferecê-lo a um público mais amplo.
Embora o Operator esteja focado nos usuários dos EUA durante o lançamento inicial, a OpenAI declarou que a acessibilidade na Europa e em outras regiões levará mais tempo devido a desafios regulatórios. Os usuários dessas regiões precisarão aguardar futuras atualizações enquanto a OpenAI trabalha para lidar com essas complexidades.
No futuro, a OpenAI também planeja disponibilizar a tecnologia subjacente ao Operator, conhecida como CUA, por meio de uma API. Isso permitiria que os desenvolvedores criassem seus próprios agentes com tecnologia de IA para aplicativos personalizados.
Casos de uso do operador
Os exemplos de demonstração do Operator, como reservar uma mesa ou fazer compras on-line, são funcionais, mas, para nós, não parecem particularmente práticos. Em geral, é mais rápido e fácil executar essas tarefas manualmente em vez de gastar tempo monitorando a execução de uma IA.
No entanto, o potencial do Operator fica mais claro quando você pensa além desses casos de uso, concentrando-se na acessibilidade ou no suporte institucional.
Acessibilidade
Uma das áreas mais impactantes em que a Operator poderia se destacar é a acessibilidade. Para pessoas com conhecimentos limitados de informática, como idosos ou iniciantes em tecnologia, o Operator poderia atuar como um guia, ajudando-as a navegar em tarefas on-line complexas sem a necessidade de conhecimento prévio.
Imagine se isso fosse combinado com comandos de voz - os usuários não precisariam nem mesmo digitar um prompt, tornando a ferramenta ainda mais intuitiva.
Da mesma forma, para pessoas com deficiências, como as visuais, o Operator pode ajudá-las a interagir com sites que, de outra forma, poderiam ser inacessíveis, especialmente se combinados com feedback de áudio ou suporte para leitor de tela.
Apoio institucional
O operador tem grande potencial em ambientes governamentais e institucionais. Ele poderia auxiliar os cidadãos no preenchimento de formulários complexos para tarefas como solicitação de vistos, declaração de impostos ou acesso a benefícios sociais. Isso reduziria a dependência de assistência presencial e melhoraria os processos para usuários e instituições.
Na educação, o Operator poderia simplificar os sistemas de inscrição on-line, o envio de bolsas de estudo e as tarefas de pesquisa, permitindo que os alunos ou pessoas com conhecimento digital limitado naveguem por esses processos com mais eficiência.
Pequenas empresas e tarefas profissionais
No local de trabalho, o Operator pode ser valioso para pequenas empresas, automatizando tarefas repetitivas baseadas na Web, como gerenciamento de estoque, processamento de pedidos on-line ou coleta de feedback de clientes. Para os profissionais, ele poderia lidar com fluxos de trabalho tediosos, como a coleta de informações de várias fontes ou o preenchimento de formulários, liberando tempo para trabalhos mais estratégicos.
Saúde e organizações sem fins lucrativos
O setor de saúde e as organizações sem fins lucrativos poderiam se beneficiar significativamente com a Operator. As clínicas podem usá-lo para ajudar os pacientes a preencher formulários de registro on-line ou acessar recursos sem a necessidade de envolvimento extensivo da equipe.
As organizações sem fins lucrativos que operam em regiões com baixa alfabetização digital podem implantar o Operator para ajudar as populações carentes a navegar em sistemas on-line essenciais, garantindo que as barreiras tecnológicas não limitem o acesso a serviços vitais.
Competição de agentes de IA
O Operator da OpenAI entra no espaço dos agentes de IA juntamente com os recursos de uso de computador da Anthropic e o Project Mariner do Google.
Uso do computador do Anthropic
Uso do computador do Anthropic, alimentado por seu Claude 3.5 Sonnet permite que a IA interaja com ambientes de desktop simulando ações humanas como clicar, digitar e navegar. Atualmente, esse recurso requer algum conhecimento técnico para ser configurado e usado de forma eficaz por meio da API, limitando sua acessibilidade para usuários não técnicos.
Em contrapartida, a interface de linguagem simples do Operator elimina a necessidade de conhecimento de programação, tornando-o mais fácil de usar para um público mais amplo. No entanto, é quase certo que o Anthropic trabalhará para simplificar suas ferramentas para competir mais diretamente com o design acessível do Operator.
Projeto Mariner do Google
Projeto Marinerdesenvolvido pela DeepMind do Google, é um agente experimental projetado para navegar e interagir com páginas da Web de forma autônoma. Embora ainda esteja em fase de pesquisa, o Mariner está sendo testado com um pequeno grupo de usuários, e sua integração com o ecossistema do Google sugere que ele pode ser excelente em fluxos de trabalho que envolvam o Gmail, o Google Docs e outros serviços do Google.
Conclusão
O Operator é o primeiro passo da OpenAI no campo competitivo dos agentes de IA, oferecendo uma abordagem exclusiva com sua interface de linguagem simples e design universal baseado em navegador. Embora ferramentas como o uso do computador do Anthropic e o Project Mariner do Google tenham seus próprios pontos fortes, o foco do Operator na acessibilidade o diferencia por enquanto.
Também estamos curiosos sobre a possibilidade de outros participantes, como DeepSeek ou Meta, entrarem na competição. O ano de 2025 pode, de fato, estar à altura de sua expectativa e ser o ano da IA autêntica.
Perguntas frequentes
O OpenAI Operator pode lidar com mais de uma tarefa ao mesmo tempo?
Sim, o Operator foi projetado para gerenciar várias tarefas simultaneamente. Você pode ter conversas separadas para cada tarefa, e o Operator é executado em paralelo. Por exemplo, você pode fazer com que o Operador encomende mantimentos no Instacart e, ao mesmo tempo, faça uma reserva no Booking.com.
O OpenAI Operator é um agente de IA?
Sim, o OpenAI Operator é um agente de IA projetado para executar tarefas de forma autônoma para você. Ele interage com sites navegando, clicando e preenchendo formulários, permitindo que você automatize atividades. Saiba mais sobre agentes de IA em nossa postagem no blog: Entendendo os agentes de IA: O futuro dos sistemas autônomos.
Como o Operator funciona?
Com base no modelo CUA (Computer-Using Agent), o Operator interage com páginas da Web visualizando capturas de tela e executando ações com o mouse e o teclado. Ele pode se autocorrigir ou solicitar ajuda do usuário quando necessário.
Quem pode usar o Operator agora mesmo e como você pode começar?
O Operator está disponível para usuários Pro nos EUA. Se você tiver uma assinatura Pro, poderá acessar operator.chatgpt.com para começar. Tente descrever uma tarefa, e o Operator cuidará dela.
Quais são as limitações atuais do Operator?
Como o Operator ainda é uma prévia de pesquisa, ele pode ter dificuldades com tarefas complexas, como criar apresentações de slides ou gerenciar calendários.
A Operator estará disponível em dispositivos móveis?
Ainda não há confirmação sobre o suporte móvel para o Operator, mas sua capacidade de interagir com interfaces da Web pode torná-lo adaptável a plataformas móveis no futuro, à medida que a tecnologia se desenvolve.
Como o Operator se compara a assistentes de voz como a Siri ou o Google Assistant?
O Operator se concentra em tarefas baseadas na Web e na interação direta com sites, enquanto os assistentes de voz tradicionais geralmente dependem de integrações de aplicativos ou APIs predefinidas. A capacidade do Operator de imitar ações humanas, como clicar e rolar a tela, o diferencia em termos de versatilidade para tarefas on-line complexas.
O Operator pode lidar com sites que usam CAPTCHA ou recursos avançados de segurança?
Atualmente, o operador depende da entrada do usuário para tarefas que envolvem CAPTCHAs ou logins confidenciais. Ele não ignora esses sistemas automaticamente, mas pode navegar pelos fluxos de trabalho assim que essas barreiras forem resolvidas.
