Pular para o conteúdo principal

O Jarvis AI do Google é quase certamente um agente de IA baseado na Web

O Jarvis AI é provavelmente um agente de IA baseado na Web - o Google o lançou involuntariamente como uma extensão do navegador e também o mencionou no I/O 2024 do Google.
Actualizado 18 de nov. de 2024  · 6 min de leitura

Em 6 de novembro de 2024, o Google revelou, de forma aparentemente não intencional, o Jarvis AI ao publicar acidentalmente uma versão inicial desse agente de IA como uma extensão na Google Chrome Web Store. Neste artigo, explorarei o que poderia ser a IA do Jarvis e como ela pode mudar fundamentalmente a forma como navegamos na Web.

O que é a IA do Jarvis?

A única coisa que sabemos sobre o Jarvis AI é que, no início de novembro, uma extensão do Google Chrome chamada Jarvis foi lançada por um curto período. Apesar de sua breve aparição, a descrição da extensão na página da loja se referia a ela como "um companheiro útil que navega na Web para você". Essa descrição está alinhada com a funcionalidade pretendida do Jarvis como um agente de IA projetado para automatizar tarefas baseadas na Web.

Em seu discurso de abertura no início deste anoo Google apresentou agentes de IA inéditos com a capacidade de controlar o navegador para executar uma ampla variedade de tarefas. Especulo que o Jarvis AI possa ser o produto real por trás dessa apresentação.

Sundar Pichai, SEO do Google, falando na palestra do Google 2024 sobre o desenvolvimento de agentes de IA

Em sua apresentação, eles dão um exemplo de devolução de sapatos. Usando agentes de IA, tudo o que precisamos fazer é indicar que queremos devolver os sapatos, e o agente executaria todas as etapas de forma autônoma.

Exemplo de caso de uso para retornos automatizados usando agentes de IA da palestra do Google 2024

Integrado ao navegador e a outros produtos do Google, como o Gmail, o agente pode concluir o processo de devolução seguindo estas etapas:

  1. Procure o recibo na caixa de entrada.
  2. Localize o número do pedido no e-mail.
  3. Preencha o formulário de devolução.
  4. Agende uma coleta.

Exemplo de exemplo de retornos automatizados usando agentes de IA da palestra do Google 2024

Como o Jarvis AI funciona?

O Jarvis AI pode automatizar tarefas diárias baseadas na Web para os usuários, como realizar pesquisas, fazer compras on-line e reservar voos ou reservas.

O Jarvis provavelmente utiliza uma versão especializada da família Gemini do Google de grandes modelos de linguagem. Isso sugere que o Jarvis usa um modelo de "pensamento" ou raciocínio, o que contribui para sua capacidade de lidar com tarefas complexas e fornecer respostas mais personalizadas. Além disso, espera-se que ele se integre profundamente aos serviços existentes do Google, como Gmail, Maps e Search.

Essa integração poderia aprimorar os recursos do Jarvis, fornecendo acesso aos dados do usuário e simplificando vários processos, como a recuperação de recibos do Gmail para devoluções on-line ou o uso de dados de localização do Maps para planejamento de viagens.

Sundar Pichai, SEO do Google, falando na palestra do Google 2024 sobre a integração do Gemini em todos os produtos do Google.

Os modelos Gemini são multimodais e podem processar vários tipos de dados (texto, imagens, vídeo, áudio etc.), encontrando conexões entre eles. É provável que o agente tenha acesso ao conteúdo do navegador, permitindo que ele visualize, interprete e interaja com os elementos exibidos na tela.

Sundar Pichai, SEO do Google, falando na palestra do Google 2024 sobre a multimodalidade do Gemini e sua capacidade de encontrar conexões entre os diferentes tipos de dados.

É importante observar que as informações sobre o funcionamento interno e a dependência de tecnologias específicas são baseadas em especulações.

Jarvis AI vs. Outros agentes de IA

Como já mencionei, acredito que o Jarvis foi projetado para automatizar as tarefas diárias baseadas na Web. O Jarvis se destaca por sua forte integração com o navegador da Web Google Chrome. No entanto, Jarvis não está sozinho nessa área.

Uso do computador do Anthropic

Anthropic, a empresa por trás do Claudetambém fez progressos com seu próprio agente de IA, conhecido como uso do computador. Esse agente é capaz de interagir com vários aplicativos além dos navegadores da Web. O agente da Anthropic entrou em sua fase beta pública em outubro de 2024, demonstrando sua capacidade de mover o cursor, clicar em botões e digitar texto, de forma muito semelhante a um usuário humano.

Apesar das diferenças no estágio de desenvolvimento e no escopo de operação, o uso do computador do Jarvis e do Anthropic tem um objetivo em comum: automatizar tarefas imitando a interação humana com os computadores. Ambos os agentes provavelmente dependem de mecanismos sofisticados de captura e interpretação de tela para entender o contexto das solicitações do usuário e executar as ações apropriadas.

Operador da OpenAI

A OpenAI está pronta para apresentar o "Operator", um agente autônomo de IA projetado para executar tarefas em nome dos usuários, como escrever códigos e reservar viagens. De acordo com a Bloombergo Operator está programado para um lançamento prévio de pesquisa em janeiro de 2025.

Sam Altman sobre agentes de IA

Sam Altman respondendo a um AMA do Reddit

Ferramenta do Meta

A Meta AI Research apresentou o Toolformer, um modelo de linguagem capaz de utilizar de forma autônoma ferramentas externas para aprimorar seu desempenho em várias tarefas. Detalhado no artigo "Toolformer: Language Models Can Teach Themselves to Use Tools", o modelo é treinado para determinar quais APIs chamar, quando chamá-las, quais argumentos passar e como incorporar os resultados em futuras previsões de token.

Essa abordagem autossupervisionada requer apenas algumas demonstrações para cada API, permitindo que o modelo use efetivamente ferramentas como calculadoras, sistemas de resposta a perguntas, mecanismos de pesquisa, sistemas de tradução e calendários.

Desafios dos agentes de IA

Em geral, os agentes de IA apresentam uma série de desafios e considerações, especialmente em relação a privacidadeprecisão e implicações éticas.

Preocupações com a privacidade

Embora pareça atraente automatizar tarefas chatas e demoradas, essa conveniência vem acompanhada de uma sensação de desconforto. Eu quero que o Google ou qualquer outra empresa tenha acesso total ao meu computador? Há algo nessa ideia que me deixa profundamente desconfortável.

As preocupações com a privacidade são de grande importância. O Google precisa garantir aos usuários que seus dados serão tratados de forma segura e responsável. Elas precisarão implementar medidas de segurança robustas e práticas transparentes de manuseio de dados para reduzir os possíveis riscos potenciais de violações ou uso indevido de dados. Estabelecer diretrizes claras sobre acesso, armazenamento e uso de dados e fornecer aos usuários controle granular sobre suas preferências de compartilhamento de dados será fundamental para criar confiança e garantir a adoção do usuário.

Precisão e confiabilidade

O que acontece quando meu agente de IA comete um erro? Quando um chatbot de IA comete um erro, ele pode fornecer informações incorretas, mas nenhuma ação é tomada diretamente. Se eu pedir a um chatbot de IA para me ajudar a planejar uma viagem, ele oferecerá um plano baseado em texto, mas eu ainda serei responsável por fazer reservas, lidar com pagamentos e assim por diante. Há uma camada humana para evitar resultados indesejados. Entretanto, quando os agentes de IA realizam ações no mundo real, essas ações podem ter consequências indesejadas reais.

Quem é responsável quando o agente de IA reserva os voos errados ou devolve os sapatos errados? Imagino que esses agentes avisarão o usuário antes de realizar cada ação, mas não tenho certeza se isso, por si só, é suficiente para evitar erros em cenários mais complexos.

Empresas como o Google devem priorizar processos rigorosos de teste e validação para minimizar essas imprecisões. Será essencial implementar mecanismos para verificação de fatos, cruzamento de informações e fornecer aos usuários avisos claros sobre a possibilidade de erros.

Implicações éticas

As implicações éticas do Jarvis e dos agentes de IA, em geral, vão além da privacidade e da precisão. As empresas também devem considerar o impacto social mais amplo desses agentes, incluindo o possível deslocamento de empregos e a criação de novas dependências nos sistemas de IA.

Conclusão

Tudo o que dissemos sobre a IA do Jarvis é especulativo. Até seu lançamento, não saberemos com certeza o que ele faz. No entanto, uma coisa é certa: Os agentes de IA estão chegando e representam a próxima etapa da revolução da IA. 

Embora eu reconheça que a automação de tarefas seja incrivelmente útil e tenha o potencial de economizar muito tempo, não me sinto à vontade com a ideia de dar o controle do meu computador a uma IA (ou a qualquer outra pessoa).

Nos últimos anos, tem havido muita discussão sobre os possíveis perigos da IA. Acredito que, desde que as IAs sejam limitadas a chatbots e não possam realizar ações no mundo real, os riscos são mínimos. Sim, uma IA pode instruir alguém sobre como fazer algo prejudicial, mas essa pessoa ainda precisa agir de acordo com isso. Se alguém realmente quiser aprender isso, poderá adquirir o conhecimento de qualquer forma, se tiver tempo suficiente. Com os agentes de IA, perdemos essa camada de proteção e isso parece realmente perigoso, pois fornecemos a esses agentes cada vez mais recursos.

Acredito que a mudança para agentes de IA é inevitável, mas deve ser abordada com muita cautela.


Photo of François Aubry
Author
François Aubry
LinkedIn
Ensinar sempre foi minha paixão. Desde meus primeiros dias como estudante, eu buscava ansiosamente oportunidades para dar aulas particulares e ajudar outros alunos. Essa paixão me levou a fazer um doutorado, onde também atuei como assistente de ensino para apoiar meus esforços acadêmicos. Durante esses anos, encontrei imensa satisfação no ambiente tradicional da sala de aula, promovendo conexões e facilitando o aprendizado. Entretanto, com o advento das plataformas de aprendizagem on-line, reconheci o potencial transformador da educação digital. Na verdade, participei ativamente do desenvolvimento de uma dessas plataformas em nossa universidade. Estou profundamente comprometido com a integração dos princípios tradicionais de ensino com metodologias digitais inovadoras. Minha paixão é criar cursos que não sejam apenas envolventes e informativos, mas também acessíveis aos alunos nesta era digital.
Temas

Aprenda IA com estes cursos!

programa

Developing AI Applications null

23hrs hr
Learn to create AI-powered applications with the latest AI developer tools, including the OpenAI API, Hugging Face, and LangChain.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

blog

ChatGPT vs Google Bard: Um guia comparativo para chatbots de IA

Uma introdução amigável para iniciantes aos dois chatbots com tecnologia de IA sobre os quais todos estão falando.

blog

Os 7 principais geradores de vídeo com IA para 2024 com vídeos de exemplo

Descubra os principais geradores de vídeo com IA disponíveis atualmente, incluindo RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo e os altamente esperados Sora e Veo da DeepMind.
Dr Ana Rojo-Echeburúa's photo

Dr Ana Rojo-Echeburúa

9 min

blog

O que é IA? Um guia rápido para iniciantes

Descubra o que realmente é inteligência artificial com exemplos, opiniões de especialistas e todas as ferramentas de que você precisa para aprender mais.
Matt Crabtree's photo

Matt Crabtree

11 min

blog

Tudo o que sabemos sobre o GPT-5

Prever como será a próxima evolução da tecnologia de IA da OpenAI e quais avanços o modelo GPT-5 poderá ter.
Josep Ferrer's photo

Josep Ferrer

10 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.
Kurtis Pykes 's photo

Kurtis Pykes

12 min

See MoreSee More