Pular para o conteúdo principal

Operador da OpenAI: Exemplos, casos de uso, concorrência e muito mais

Conheça o OpenAI Operator, um agente de IA que usa o novo modelo CUA (Computer-Using Agent), que pode navegar em sites e executar tarefas de forma autônoma.
Actualizado 24 de jan. de 2025  · 8 min de leitura

A OpenAI anunciou recentemente o Operator, um agente de agente de IA projetado para lidar com tarefas baseadas na Web por conta própria. Ele pode lidar com tarefas como reservar uma mesa ou fazer compras on-line, simplificando as interações digitais para as tarefas diárias.

No entanto, acreditamos que seu potencial vai além da conveniência - ele pode capacitar as pessoas que não têm conhecimentos de informática, permitindo que elas concluam tarefas como preencher formulários ou navegar em sites complexos com facilidade.

Além disso, com uma maior integração dos comandos de voz, ele poderia fornecer uma solução mais acessível para pessoas com deficiências, como aquelas com deficiências visuais.

A Operator entra em um campo competitivo que inclui os recursos de uso de computador da Anthropic da Anthropic e o Project Mariner do Google. Uma diferença é que as ferramentas do Anthropic exigem conhecimento de programação (por enquanto), enquanto o Operator permite que os usuários forneçam instruções em linguagem simples, tornando-o mais acessível.

Neste blog, explicaremos o que é o Operator, exploraremos sua tecnologia principal (CUA), descreveremos seus casos de uso e limitações e discutiremos onde ele se encaixa no contexto mais amplo dos agentes de IA.

O que é um operador?

Operator é o primeiro agente de IA da OpenAI, projetado para executar tarefas de forma autônoma na Web. Um agente de IA é um sistema que pode receber instruções, raciocinar sobre elas e executar ações sem supervisão humana constante.

Diferentemente das ferramentas de automação tradicionais que dependem de APIs predefinidas ou de fluxos de trabalho rígidos, o Operator interage diretamente com os sites, imitando ações humanas como clicar, digitar e rolar a tela. Seu principal objetivo é simplificar as tarefas digitais que, de outra forma, poderiam exigir esforço manual ou conhecimento técnico.

Isso o torna adequado para atividades cotidianas, como gerenciamento de reservas ou preenchimento de formulários, bem como para fluxos de trabalho mais complexos e de várias etapas. Aqui está um exemplo de uso do Operator:

Fonte: OpenAI

O operador usa um navegador virtual para navegar em sites. Esse ambiente virtual permite que ele interaja com interfaces gráficas de usuário (GUIs) como um usuário humano faria. Em vez de exigir que os sites tenham APIs especializadas, o Operator interpreta o layout visual de uma página da Web, clica em botões, digita em campos e rola pelo conteúdo.

O operador depende de instruções em linguagem simples para entender o que os usuários precisam. Depois que a tarefa é definida, ele processa as instruções, divide-as em etapas acionáveis e as executa enquanto fornece feedback ao usuário. O operador também pode solicitar esclarecimentos ou confirmações para ações críticas, como o envio de um formulário ou a conclusão de um pagamento, garantindo maior controle sobre o resultado.

O que é um agente de uso de computador (CUA)?

O CUA (Computer-Using Agent) é a principal tecnologia que alimenta o Operator. Combinando os recursos de visão do GPT-4o com raciocínio avançado por meio de aprendizado por reforçoO CUA é treinado para interagir com interfaces gráficas de usuário - os botões, menus e campos de texto que as pessoas veem em uma tela.

Percepção

O CUA começa processando dados brutos de pixels a partir de capturas de tela. Ele usa essas informações visuais para identificar os principais elementos da interface, como botões, campos de entrada e menus de navegação.

Fonte: OpenAI

Raciocínio

Depois que os dados visuais são analisados, o CUA aplica o raciocínio de cadeia de pensamento para planejar suas ações. Ao integrar capturas de tela atuais e anteriores, ele avalia suas observações, divide as tarefas em etapas menores e se adapta dinamicamente aos desafios. Por exemplo, se um pop-up aparecer durante uma tarefa (como o anúncio que vimos no exemplo acima), a CUA poderá ajustar sua abordagem e encontrar uma maneira de continuar, da mesma forma que um usuário humano faria.

Ação

O CUA usa entradas virtuais de mouse e teclado para executar ações como clicar, digitar, rolar e enviar formulários. Essa funcionalidade permite que ele execute tarefas de forma autônoma, seja selecionando um item em um menu suspenso ou navegando em um formulário de várias etapas.

Para ações críticas, como efetuar pagamentos ou fazer login em contas, a CUA busca a confirmação do usuário antes de prosseguir, garantindo que os usuários mantenham o controle sobre operações confidenciais.

Referências da CUA

O CUA alcançou o desempenho mais avançado (SOTA) em vários benchmarks:

Tipo de referência Benchmark Uso do computador (interface universal) Agentes de navegação na Web Humanos
    OpenAI CUA SOTA anterior SOTA anterior  
Uso do computador OSWorld 38.1% 22.0%   72.4%
Uso do navegador WebArena 58.1% 36.2% 57.1% 78.2%
WebVoyager 87.0% 56.0% 87.0%  

 Fonte: OpenAI

Vamosdetalhar o que cada um desses três benchmarks faz:

  • OSWorld (38,1%): Avalia a capacidade de executar tarefas em sistemas operacionais completos, como Ubuntu, Windows e macOS. Embora a CUA supere os modelos anteriores, sua taxa de sucesso ainda está abaixo da referência humana de 72,4%.
  • WebArena (58.1%): Avalia o desempenho na navegação em sites simulados, incluindo plataformas sociais e de comércio eletrônico. Embora supere os modelos anteriores, há espaço para melhorias no tratamento de interações complexas e de várias etapas.
  • WebVoyager (87%): Mede a eficácia em sites ativos como Amazon, GitHub e Google Maps. O CUA tem um bom desempenho aqui, pois as tarefas tendem a ser mais simples e mais estruturadas em comparação com o WebArena.

O gráfico abaixo ilustra o desempenho do CUA da OpenAI em comparação com o Claude 3.5 Sonnet no benchmark OSWorld. O eixo x representa o número máximo de etapas permitidas para a conclusão da tarefa, enquanto o eixo y mostra a taxa de sucesso como uma porcentagem. O CUA demonstra um aprimoramento constante com mais etapas permitidas, superando os modelos anteriores de última geração.

Gráfico comparando o CUA da OpenAI e o Sonnet do Claude 3.5 no benchmark OSWorld

Fonte: OpenAI

Como acessar o operador

O Operator está atualmente disponível nos Estados Unidos como parte de uma prévia de pesquisa para usuários Pro do ChatGPT. Para acessá-lo, você precisa de uma assinatura Pro ativa. Você pode visitar operator.chatgpt.com para você começar a usar o Operator.

​Por enquanto, o Operator está limitado aos usuários Pro, mas a OpenAI tem planos de expandir o acesso aos usuários Plus nos próximos meses. A estratégia de implementação permite que a OpenAI obtenha feedback e aprimore o sistema antes de oferecê-lo a um público mais amplo.

Embora o Operator esteja focado nos usuários dos EUA durante o lançamento inicial, a OpenAI declarou que a acessibilidade na Europa e em outras regiões levará mais tempo devido a desafios regulatórios. Os usuários dessas regiões precisarão aguardar futuras atualizações enquanto a OpenAI trabalha para lidar com essas complexidades.

Mensagem da interface do usuário mostrando que a operadora não está disponível na Europa

No futuro, a OpenAI também planeja disponibilizar a tecnologia subjacente ao Operator, conhecida como CUA, por meio de uma API. Isso permitiria que os desenvolvedores criassem seus próprios agentes com tecnologia de IA para aplicativos personalizados.

Casos de uso do operador

Os exemplos de demonstração do Operator, como reservar uma mesa ou fazer compras on-line, são funcionais, mas, para nós, não parecem particularmente práticos. Em geral, é mais rápido e fácil executar essas tarefas manualmente em vez de gastar tempo monitorando a execução de uma IA.

No entanto, o potencial do Operator fica mais claro quando você pensa além desses casos de uso, concentrando-se na acessibilidade ou no suporte institucional.

Casos de uso do operador

Acessibilidade

Uma das áreas mais impactantes em que a Operator poderia se destacar é a acessibilidade. Para pessoas com conhecimentos limitados de informática, como idosos ou iniciantes em tecnologia, o Operator poderia atuar como um guia, ajudando-as a navegar em tarefas on-line complexas sem a necessidade de conhecimento prévio.

Imagine se isso fosse combinado com comandos de voz - os usuários não precisariam nem mesmo digitar um prompt, tornando a ferramenta ainda mais intuitiva.

Da mesma forma, para pessoas com deficiências, como as visuais, o Operator pode ajudá-las a interagir com sites que, de outra forma, poderiam ser inacessíveis, especialmente se combinados com feedback de áudio ou suporte para leitor de tela.

Apoio institucional

O operador tem grande potencial em ambientes governamentais e institucionais. Ele poderia auxiliar os cidadãos no preenchimento de formulários complexos para tarefas como solicitação de vistos, declaração de impostos ou acesso a benefícios sociais. Isso reduziria a dependência de assistência presencial e melhoraria os processos para usuários e instituições.

Na educação, o Operator poderia simplificar os sistemas de inscrição on-line, o envio de bolsas de estudo e as tarefas de pesquisa, permitindo que os alunos ou pessoas com conhecimento digital limitado naveguem por esses processos com mais eficiência.

Pequenas empresas e tarefas profissionais

No local de trabalho, o Operator pode ser valioso para pequenas empresas, automatizando tarefas repetitivas baseadas na Web, como gerenciamento de estoque, processamento de pedidos on-line ou coleta de feedback de clientes. Para os profissionais, ele poderia lidar com fluxos de trabalho tediosos, como a coleta de informações de várias fontes ou o preenchimento de formulários, liberando tempo para trabalhos mais estratégicos.

Saúde e organizações sem fins lucrativos

O setor de saúde e as organizações sem fins lucrativos poderiam se beneficiar significativamente com a Operator. As clínicas podem usá-lo para ajudar os pacientes a preencher formulários de registro on-line ou acessar recursos sem a necessidade de envolvimento extensivo da equipe.

As organizações sem fins lucrativos que operam em regiões com baixa alfabetização digital podem implantar o Operator para ajudar as populações carentes a navegar em sistemas on-line essenciais, garantindo que as barreiras tecnológicas não limitem o acesso a serviços vitais.

Competição de agentes de IA

O Operator da OpenAI entra no espaço dos agentes de IA juntamente com os recursos de uso de computador da Anthropic e o Project Mariner do Google.

Uso do computador do Anthropic

Uso do computador do Anthropic, alimentado por seu Claude 3.5 Sonnet permite que a IA interaja com ambientes de desktop simulando ações humanas como clicar, digitar e navegar. Atualmente, esse recurso requer algum conhecimento técnico para ser configurado e usado de forma eficaz por meio da API, limitando sua acessibilidade para usuários não técnicos.

Em contrapartida, a interface de linguagem simples do Operator elimina a necessidade de conhecimento de programação, tornando-o mais fácil de usar para um público mais amplo. No entanto, é quase certo que o Anthropic trabalhará para simplificar suas ferramentas para competir mais diretamente com o design acessível do Operator.

Projeto Mariner do Google

Projeto Marinerdesenvolvido pela DeepMind do Google, é um agente experimental projetado para navegar e interagir com páginas da Web de forma autônoma. Embora ainda esteja em fase de pesquisa, o Mariner está sendo testado com um pequeno grupo de usuários, e sua integração com o ecossistema do Google sugere que ele pode ser excelente em fluxos de trabalho que envolvam o Gmail, o Google Docs e outros serviços do Google.

Conclusão

O Operator é o primeiro passo da OpenAI no campo competitivo dos agentes de IA, oferecendo uma abordagem exclusiva com sua interface de linguagem simples e design universal baseado em navegador. Embora ferramentas como o uso do computador do Anthropic e o Project Mariner do Google tenham seus próprios pontos fortes, o foco do Operator na acessibilidade o diferencia por enquanto.

Também estamos curiosos sobre a possibilidade de outros participantes, como DeepSeek ou Meta, entrarem na competição. O ano de 2025 pode, de fato, estar à altura de sua expectativa e ser o ano da IA autêntica.

Perguntas frequentes

O OpenAI Operator pode lidar com mais de uma tarefa ao mesmo tempo?

Sim, o Operator foi projetado para gerenciar várias tarefas simultaneamente. Você pode ter conversas separadas para cada tarefa, e o Operator é executado em paralelo. Por exemplo, você pode fazer com que o Operador encomende mantimentos no Instacart e, ao mesmo tempo, faça uma reserva no Booking.com.

O OpenAI Operator é um agente de IA?

Sim, o OpenAI Operator é um agente de IA projetado para executar tarefas de forma autônoma para você. Ele interage com sites navegando, clicando e preenchendo formulários, permitindo que você automatize atividades. Saiba mais sobre agentes de IA em nossa postagem no blog: Entendendo os agentes de IA: O futuro dos sistemas autônomos.

Como o Operator funciona?

Com base no modelo CUA (Computer-Using Agent), o Operator interage com páginas da Web visualizando capturas de tela e executando ações com o mouse e o teclado. Ele pode se autocorrigir ou solicitar ajuda do usuário quando necessário.

Quem pode usar o Operator agora mesmo e como você pode começar?

O Operator está disponível para usuários Pro nos EUA. Se você tiver uma assinatura Pro, poderá acessar operator.chatgpt.com para começar. Tente descrever uma tarefa, e o Operator cuidará dela.

Quais são as limitações atuais do Operator?

Como o Operator ainda é uma prévia de pesquisa, ele pode ter dificuldades com tarefas complexas, como criar apresentações de slides ou gerenciar calendários.

A Operator estará disponível em dispositivos móveis?

Ainda não há confirmação sobre o suporte móvel para o Operator, mas sua capacidade de interagir com interfaces da Web pode torná-lo adaptável a plataformas móveis no futuro, à medida que a tecnologia se desenvolve.

Como o Operator se compara a assistentes de voz como a Siri ou o Google Assistant?

O Operator se concentra em tarefas baseadas na Web e na interação direta com sites, enquanto os assistentes de voz tradicionais geralmente dependem de integrações de aplicativos ou APIs predefinidas. A capacidade do Operator de imitar ações humanas, como clicar e rolar a tela, o diferencia em termos de versatilidade para tarefas on-line complexas.

O Operator pode lidar com sites que usam CAPTCHA ou recursos avançados de segurança?

Atualmente, o operador depende da entrada do usuário para tarefas que envolvem CAPTCHAs ou logins confidenciais. Ele não ignora esses sistemas automaticamente, mas pode navegar pelos fluxos de trabalho assim que essas barreiras forem resolvidas.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Você é um especialista em Python, marketing e estratégia de conteúdo, SEO, edição e redação. Técnico - escrevi cursos sobre Python, estatística e probabilidade. Mas também publiquei um romance premiado. Edição de vídeo e gradação de cores no DaVinci.


Josef Waples's photo
Author
Josef Waples
Temas

Aprenda IA com estes cursos!

curso

Artificial Intelligence (AI) Strategy

3 hr
6.1K
Learn how to blend business, data, and AI, and set goals to drive success with an effectively scalable AI Strategy.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.
Richie Cotton's photo

Richie Cotton

8 min

blog

O que é IA? Um guia rápido para iniciantes

Descubra o que realmente é inteligência artificial com exemplos, opiniões de especialistas e todas as ferramentas de que você precisa para aprender mais.
Matt Crabtree's photo

Matt Crabtree

11 min

blog

25 exemplos práticos da transformação da IA nos setores

Desde a reformulação da saúde e do comércio eletrônico até a revolução da agricultura e das finanças, descubra exemplos reais de IA que impulsionam o crescimento, a eficiência e a inovação.

Nahla Davies

16 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.
Kurtis Pykes 's photo

Kurtis Pykes

12 min

tutorial

AI do cursor: Um guia com 10 exemplos práticos

Saiba como instalar o Cursor AI no Windows, macOS e Linux e descubra como usá-lo em 10 casos de uso diferentes.
François Aubry's photo

François Aubry

10 min

Ver maisVer mais