Operador da OpenAI: Exemplos, casos de uso, concorrência e muito mais

Conheça o OpenAI Operator, um agente de IA que usa o novo modelo CUA (Computer-Using Agent), que pode navegar em sites e executar tarefas de forma autônoma.

Atualizado 24 de jan. de 2025 · 8 min lido

A OpenAI anunciou recentemente o Operator, um agente de agente de IA projetado para lidar com tarefas baseadas na Web por conta própria. Ele pode lidar com tarefas como reservar uma mesa ou fazer compras on-line, simplificando as interações digitais para as tarefas diárias.

No entanto, acreditamos que seu potencial vai além da conveniência - ele pode capacitar as pessoas que não têm conhecimentos de informática, permitindo que elas concluam tarefas como preencher formulários ou navegar em sites complexos com facilidade.

Além disso, com uma maior integração dos comandos de voz, ele poderia fornecer uma solução mais acessível para pessoas com deficiências, como aquelas com deficiências visuais.

A Operator entra em um campo competitivo que inclui os recursos de uso de computador da Anthropic da Anthropic e o Project Mariner do Google. Uma diferença é que as ferramentas do Anthropic exigem conhecimento de programação (por enquanto), enquanto o Operator permite que os usuários forneçam instruções em linguagem simples, tornando-o mais acessível.

Neste blog, explicaremos o que é o Operator, exploraremos sua tecnologia principal (CUA), descreveremos seus casos de uso e limitações e discutiremos onde ele se encaixa no contexto mais amplo dos agentes de IA.

O que é um operador?

Operator é o primeiro agente de IA da OpenAI, projetado para executar tarefas de forma autônoma na Web. Um agente de IA é um sistema que pode receber instruções, raciocinar sobre elas e executar ações sem supervisão humana constante.

Diferentemente das ferramentas de automação tradicionais que dependem de APIs predefinidas ou de fluxos de trabalho rígidos, o Operator interage diretamente com os sites, imitando ações humanas como clicar, digitar e rolar a tela. Seu principal objetivo é simplificar as tarefas digitais que, de outra forma, poderiam exigir esforço manual ou conhecimento técnico.

Isso o torna adequado para atividades cotidianas, como gerenciamento de reservas ou preenchimento de formulários, bem como para fluxos de trabalho mais complexos e de várias etapas. Aqui está um exemplo de uso do Operator:

Fonte: OpenAI

O operador usa um navegador virtual para navegar em sites. Esse ambiente virtual permite que ele interaja com interfaces gráficas de usuário (GUIs) como um usuário humano faria. Em vez de exigir que os sites tenham APIs especializadas, o Operator interpreta o layout visual de uma página da Web, clica em botões, digita em campos e rola pelo conteúdo.

O operador depende de instruções em linguagem simples para entender o que os usuários precisam. Depois que a tarefa é definida, ele processa as instruções, divide-as em etapas acionáveis e as executa enquanto fornece feedback ao usuário. O operador também pode solicitar esclarecimentos ou confirmações para ações críticas, como o envio de um formulário ou a conclusão de um pagamento, garantindo maior controle sobre o resultado.

O que é um agente de uso de computador (CUA)?

O CUA (Computer-Using Agent) é a principal tecnologia que alimenta o Operator. Combinando os recursos de visão do GPT-4o com raciocínio avançado por meio de aprendizado por reforçoO CUA é treinado para interagir com interfaces gráficas de usuário - os botões, menus e campos de texto que as pessoas veem em uma tela.

Percepção

O CUA começa processando dados brutos de pixels a partir de capturas de tela. Ele usa essas informações visuais para identificar os principais elementos da interface, como botões, campos de entrada e menus de navegação.

Fonte: OpenAI

Raciocínio

Depois que os dados visuais são analisados, o CUA aplica o raciocínio de cadeia de pensamento para planejar suas ações. Ao integrar capturas de tela atuais e anteriores, ele avalia suas observações, divide as tarefas em etapas menores e se adapta dinamicamente aos desafios. Por exemplo, se um pop-up aparecer durante uma tarefa (como o anúncio que vimos no exemplo acima), a CUA poderá ajustar sua abordagem e encontrar uma maneira de continuar, da mesma forma que um usuário humano faria.

Ação

O CUA usa entradas virtuais de mouse e teclado para executar ações como clicar, digitar, rolar e enviar formulários. Essa funcionalidade permite que ele execute tarefas de forma autônoma, seja selecionando um item em um menu suspenso ou navegando em um formulário de várias etapas.

Para ações críticas, como efetuar pagamentos ou fazer login em contas, a CUA busca a confirmação do usuário antes de prosseguir, garantindo que os usuários mantenham o controle sobre operações confidenciais.

Referências da CUA

O CUA alcançou o desempenho mais avançado (SOTA) em vários benchmarks:

Tipo de referência	Benchmark	Uso do computador (interface universal)		Agentes de navegação na Web	Humanos
		OpenAI CUA	SOTA anterior	SOTA anterior
Uso do computador	OSWorld	38.1%	22.0%		72.4%
Uso do navegador	WebArena	58.1%	36.2%	57.1%	78.2%
Uso do navegador	WebVoyager	87.0%	56.0%	87.0%

Fonte: OpenAI

Vamosdetalhar o que cada um desses três benchmarks faz:

OSWorld (38,1%): Avalia a capacidade de executar tarefas em sistemas operacionais completos, como Ubuntu, Windows e macOS. Embora a CUA supere os modelos anteriores, sua taxa de sucesso ainda está abaixo da referência humana de 72,4%.
WebArena (58.1%): Avalia o desempenho na navegação em sites simulados, incluindo plataformas sociais e de comércio eletrônico. Embora supere os modelos anteriores, há espaço para melhorias no tratamento de interações complexas e de várias etapas.
WebVoyager (87%): Mede a eficácia em sites ativos como Amazon, GitHub e Google Maps. O CUA tem um bom desempenho aqui, pois as tarefas tendem a ser mais simples e mais estruturadas em comparação com o WebArena.

O gráfico abaixo ilustra o desempenho do CUA da OpenAI em comparação com o Claude 3.5 Sonnet no benchmark OSWorld. O eixo x representa o número máximo de etapas permitidas para a conclusão da tarefa, enquanto o eixo y mostra a taxa de sucesso como uma porcentagem. O CUA demonstra um aprimoramento constante com mais etapas permitidas, superando os modelos anteriores de última geração.

Gráfico comparando o CUA da OpenAI e o Sonnet do Claude 3.5 no benchmark OSWorld

Fonte: OpenAI

Como acessar o operador

O Operator está atualmente disponível nos Estados Unidos como parte de uma prévia de pesquisa para usuários Pro do ChatGPT. Para acessá-lo, você precisa de uma assinatura Pro ativa. Você pode visitar operator.chatgpt.com para você começar a usar o Operator.

Por enquanto, o Operator está limitado aos usuários Pro, mas a OpenAI tem planos de expandir o acesso aos usuários Plus nos próximos meses. A estratégia de implementação permite que a OpenAI obtenha feedback e aprimore o sistema antes de oferecê-lo a um público mais amplo.

Embora o Operator esteja focado nos usuários dos EUA durante o lançamento inicial, a OpenAI declarou que a acessibilidade na Europa e em outras regiões levará mais tempo devido a desafios regulatórios. Os usuários dessas regiões precisarão aguardar futuras atualizações enquanto a OpenAI trabalha para lidar com essas complexidades.

Mensagem da interface do usuário mostrando que a operadora não está disponível na Europa

No futuro, a OpenAI também planeja disponibilizar a tecnologia subjacente ao Operator, conhecida como CUA, por meio de uma API. Isso permitiria que os desenvolvedores criassem seus próprios agentes com tecnologia de IA para aplicativos personalizados.

Casos de uso do operador

Os exemplos de demonstração do Operator, como reservar uma mesa ou fazer compras on-line, são funcionais, mas, para nós, não parecem particularmente práticos. Em geral, é mais rápido e fácil executar essas tarefas manualmente em vez de gastar tempo monitorando a execução de uma IA.

No entanto, o potencial do Operator fica mais claro quando você pensa além desses casos de uso, concentrando-se na acessibilidade ou no suporte institucional.

Casos de uso do operador

Acessibilidade

Uma das áreas mais impactantes em que a Operator poderia se destacar é a acessibilidade. Para pessoas com conhecimentos limitados de informática, como idosos ou iniciantes em tecnologia, o Operator poderia atuar como um guia, ajudando-as a navegar em tarefas on-line complexas sem a necessidade de conhecimento prévio.

Imagine se isso fosse combinado com comandos de voz - os usuários não precisariam nem mesmo digitar um prompt, tornando a ferramenta ainda mais intuitiva.

Da mesma forma, para pessoas com deficiências, como as visuais, o Operator pode ajudá-las a interagir com sites que, de outra forma, poderiam ser inacessíveis, especialmente se combinados com feedback de áudio ou suporte para leitor de tela.

Apoio institucional

O operador tem grande potencial em ambientes governamentais e institucionais. Ele poderia auxiliar os cidadãos no preenchimento de formulários complexos para tarefas como solicitação de vistos, declaração de impostos ou acesso a benefícios sociais. Isso reduziria a dependência de assistência presencial e melhoraria os processos para usuários e instituições.

Na educação, o Operator poderia simplificar os sistemas de inscrição on-line, o envio de bolsas de estudo e as tarefas de pesquisa, permitindo que os alunos ou pessoas com conhecimento digital limitado naveguem por esses processos com mais eficiência.

Pequenas empresas e tarefas profissionais

No local de trabalho, o Operator pode ser valioso para pequenas empresas, automatizando tarefas repetitivas baseadas na Web, como gerenciamento de estoque, processamento de pedidos on-line ou coleta de feedback de clientes. Para os profissionais, ele poderia lidar com fluxos de trabalho tediosos, como a coleta de informações de várias fontes ou o preenchimento de formulários, liberando tempo para trabalhos mais estratégicos.

Saúde e organizações sem fins lucrativos

O setor de saúde e as organizações sem fins lucrativos poderiam se beneficiar significativamente com a Operator. As clínicas podem usá-lo para ajudar os pacientes a preencher formulários de registro on-line ou acessar recursos sem a necessidade de envolvimento extensivo da equipe.

As organizações sem fins lucrativos que operam em regiões com baixa alfabetização digital podem implantar o Operator para ajudar as populações carentes a navegar em sistemas on-line essenciais, garantindo que as barreiras tecnológicas não limitem o acesso a serviços vitais.

Competição de agentes de IA

O Operator da OpenAI entra no espaço dos agentes de IA juntamente com os recursos de uso de computador da Anthropic e o Project Mariner do Google.

Uso do computador do Anthropic

Uso do computador do Anthropic, alimentado por seu Claude 3.5 Sonnet permite que a IA interaja com ambientes de desktop simulando ações humanas como clicar, digitar e navegar. Atualmente, esse recurso requer algum conhecimento técnico para ser configurado e usado de forma eficaz por meio da API, limitando sua acessibilidade para usuários não técnicos.

Em contrapartida, a interface de linguagem simples do Operator elimina a necessidade de conhecimento de programação, tornando-o mais fácil de usar para um público mais amplo. No entanto, é quase certo que o Anthropic trabalhará para simplificar suas ferramentas para competir mais diretamente com o design acessível do Operator.

Projeto Mariner do Google

Projeto Marinerdesenvolvido pela DeepMind do Google, é um agente experimental projetado para navegar e interagir com páginas da Web de forma autônoma. Embora ainda esteja em fase de pesquisa, o Mariner está sendo testado com um pequeno grupo de usuários, e sua integração com o ecossistema do Google sugere que ele pode ser excelente em fluxos de trabalho que envolvam o Gmail, o Google Docs e outros serviços do Google.

Conclusão

O Operator é o primeiro passo da OpenAI no campo competitivo dos agentes de IA, oferecendo uma abordagem exclusiva com sua interface de linguagem simples e design universal baseado em navegador. Embora ferramentas como o uso do computador do Anthropic e o Project Mariner do Google tenham seus próprios pontos fortes, o foco do Operator na acessibilidade o diferencia por enquanto.

Também estamos curiosos sobre a possibilidade de outros participantes, como DeepSeek ou Meta, entrarem na competição. O ano de 2025 pode, de fato, estar à altura de sua expectativa e ser o ano da IA autêntica.

O OpenAI Operator pode lidar com mais de uma tarefa ao mesmo tempo?

O OpenAI Operator é um agente de IA?

Como o Operator funciona?

Quem pode usar o Operator agora mesmo e como você pode começar?

Quais são as limitações atuais do Operator?

A Operator estará disponível em dispositivos móveis?

Como o Operator se compara a assistentes de voz como a Siri ou o Google Assistant?

O Operator pode lidar com sites que usam CAPTCHA ou recursos avançados de segurança?

Author

Josef Waples

Tópicos

Inteligência Artificial

Modelos de idiomas grandes

OpenAI

Aprenda IA com estes cursos!

Programa

Fundamentos de IA

0 min

Descubra os fundamentos da IA, mergulhe em modelos como o ChatGPT e decodifique os segredos da IA generativa para que você possa navegar no dinâmico cenário da IA.

Ver detalhes

Iniciar curso

Curso

Estratégia de inteligência artificial (IA)

3 h

13.2K

Saiba como combinar negócios, dados e IA e definir metas para impulsionar o sucesso com uma estratégia de IA efetivamente dimensionável.

Ver detalhes

Iniciar curso

Curso

Intermediate ChatGPT

1 h

21.2K

Learn the architecture behind GPT models and master advanced prompt crafting to unlock ChatGPT's full potential.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.

Richie Cotton

8 min

blog

Tipos de agentes de IA: Compreensão de suas funções, estruturas e aplicações

Saiba mais sobre os principais tipos de agentes de IA, como eles interagem com os ambientes e como são usados em todos os setores. Entenda o reflexo simples, baseado em modelo, baseado em meta, baseado em utilidade, agentes de aprendizagem e muito mais.

Vinod Chugani

14 min

blog

O que é IA? Um guia rápido para iniciantes

Descubra o que realmente é inteligência artificial com exemplos, opiniões de especialistas e todas as ferramentas de que você precisa para aprender mais.

Matt Crabtree

11 min

Tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.

Zoumana Keita

Tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.

Kurtis Pykes

Tutorial

AI do cursor: Um guia com 10 exemplos práticos

Saiba como instalar o Cursor AI no Windows, macOS e Linux e descubra como usá-lo em 10 casos de uso diferentes.

Ver mais Ver mais

O que é um operador?

O que é um agente de uso de computador (CUA)?

Percepção

Raciocínio

Ação

Referências da CUA

Como acessar o operador

Casos de uso do operador

Acessibilidade

Apoio institucional

Pequenas empresas e tarefas profissionais

Saúde e organizações sem fins lucrativos

Competição de agentes de IA

Uso do computador do Anthropic

Projeto Mariner do Google

Conclusão

Perguntas frequentes

Como o Operator funciona?

Quem pode usar o Operator agora mesmo e como você pode começar?

Quais são as limitações atuais do Operator?

A Operator estará disponível em dispositivos móveis?

Como o Operator se compara a assistentes de voz como a Siri ou o Google Assistant?

O Operator pode lidar com sites que usam CAPTCHA ou recursos avançados de segurança?

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Tipos de agentes de IA: Compreensão de suas funções, estruturas e aplicações

O que é IA? Um guia rápido para iniciantes

Tutorial da API de assistentes da OpenAI

Como usar a API de conversão de texto em fala da OpenAI

AI do cursor: Um guia com 10 exemplos práticos

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos de IA

Estratégia de inteligência artificial (IA)

Intermediate ChatGPT

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Tipos de agentes de IA: Compreensão de suas funções, estruturas e aplicações

O que é IA? Um guia rápido para iniciantes

Tutorial da API de assistentes da OpenAI

Como usar a API de conversão de texto em fala da OpenAI

AI do cursor: Um guia com 10 exemplos práticos

Fundamentos de IA