Google I/O 2025: Os 8 principais anúncios de IA (e minha opinião)

Saiba mais sobre os anúncios de IA mais importantes no Google I/O 2025 - Video 3, Flow, Imagen 4 e muito mais - além das primeiras impressões.

Atualizado 21 de mai. de 2025 · 8 min lido

O primeiro dia do Google I/O 2025 chegou ao fim. Neste artigo, mostrarei a você os anúncios mais importantes para o setor de IA.

Vou me concentrar nas atualizações que estão prontas para uso ou que devem ser lançadas em breve. Ao longo do caminho, compartilharei impressões rápidas e, quando for relevante, colocarei as coisas em contexto com a concorrência.

Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:

Veo 3

O que mais me chamou a atenção no Veo 3 é que ele oferece saída de áudio nativa. Agora você pode gerar vídeos que incluem som diretamente, sem necessidade de etapas adicionais de edição. Vamos ver um exemplo:

Fonte: Google

A saída de áudio nativa é algo que ainda não vi no Runway ou no Sora. Nesse ponto, eu diria que o Veo 3 está um passo à frente.

Embora a demonstração pareça boa, aprendi que os vídeos de demonstração raramente refletem como esses modelos se comportam na prática. Assim que o prompt sai da forma dos dados de treinamento - uma cena desconhecida, um personagem estranho ou uma ideia com muita sutileza -, o modelo tende a entrar em colapso. Estou ansioso para dar uma volta com o Veo 3 para ver como ele se sai.

O acesso ao Veo 3 requer uma assinatura do AI Ultra, que custa US$ 250/mês. Mesmo que você esteja disposto a pagar, a disponibilidade é limitada. No momento, ele só pode ser acessado nos EUA e apenas no novo editor de vídeo com tecnologia de IA do Google, chamado Flow (que abordaremos a seguir).

Se você estiver curioso sobre os detalhes técnicos ou quiser explorar mais exemplos, dê uma olhada na página oficial da Veo aqui.

Fluxo

O Flow é uma ferramenta de filmagem de IA que permite que você gere tomadas individuais usando uma combinação de Veo, Imagen e Gemini.

Uma coisa que considero útil é que você pode criar elementos separados (chamados de "ingredientes") e depois agrupá-los em uma única cena. Isso lhe dá controle modular e pode ser especialmente útil quando você quiser reutilizar os mesmos elementos em vários prompts ou fotos.

Vamos ver um exemplo:

Fonte: Google

Há também ferramentas para controle de câmera e transições no Flow, que ajudam a dar aos clipes uma sensação mais cinematográfica. Esses recursos são úteis, mas não são novos - o Sora e o Runway já oferecem recursos semelhantes, portanto, eu não diria que há algo inovador aqui.

Ainda assim, vale a pena prestar atenção à evolução de ferramentas como essas. O Flow parece a versão inicial de um editor de vídeo que prioriza a IA, e não é difícil imaginar um futuro em que esse tipo de fluxo de trabalho se torne padrão. Da mesma forma que hoje consideramos ferramentas como o Premiere Pro ou o DaVinci Resolve como garantidas, algo como o Flow poderá se tornar a norma em alguns anos.

O Flow atualmente só está disponível nos EUA, e você pode acessá-lo por meio das assinaturas AI Pro e AI Ultra do Google.

Imagem 4

Outro anúncio importante foi o Imagen 4, o mais novo modelo de geração de imagens do Google. Você pode usá-lo diretamente no Gemini ou dentro dele Whiska ferramenta de design do Google.

O Google alega melhorias em todos os aspectos: melhor fotorrealismo, detalhes mais nítidos em close-ups, mais variedade de estilos artísticos. Tudo isso é bom, mas a parte que chamou minha atenção foi a promessa de ortografia e tipografia avançadas. Se você usou algum gerador de imagens recentemente, provavelmente viu que a maioria deles ainda bagunça as palavras ou deforma totalmente as letras.

Vamos ver uma imagem que o Imagen 4 gerou:

Fonte: Google

Neste momento, eu diria que a geração de imagens do GPT-4o é a mais forte do mercado. No entanto, às vezes, você ainda tem dificuldades com o texto e a adesão imediata. Se o Imagen 4 realmente acertar a ortografia e mantiver a intenção do prompt, acho que ele tem a chance de assumir a liderança na geração de imagens.

Gemma 3n

O Gemma 3n é o modelo mais recente e mais capaz do Google no dispositivo. Se você não estiver familiarizado com o termo, um modelo no dispositivo é aquele que é executado diretamente no seu telefone, tablet ou laptop, sem a necessidade de enviar dados para a nuvem. Isso é importante por alguns motivos: menor latência, melhor privacidade e disponibilidade off-line.

Mas, para que isso funcione, o modelo precisa ser pequeno o suficiente para caber em uma memória limitada, mas poderoso o suficiente para lidar com tarefas reais. Esse é o desafio que a Gemma 3n está tentando enfrentar.

Ele foi desenvolvido em uma nova arquitetura compartilhada com o Gemini Nano e, na verdade, o "n" em "3n" significa "nano". Essa arquitetura é otimizada para uso de pouca memória, tempos de resposta rápidos e suporte a vários tipos de entrada, como texto, áudio e imagens.

O Gemma 3n vem em duas variantes, com tamanhos de parâmetro de 5B e 8B. Ambos foram projetados para serem executados de forma eficiente, com requisitos de memória mais próximos dos modelos 2B e 4B, graças a algumas otimizações internas.

O que eu achei realmente impressionante é que ele está quase no mesmo nível da Chatbot Arena que o Claude 3.7 Sonnetum modelo muito maior.

Fonte: Google

Essa versão é voltada principalmente para desenvolvedores, especialmente aqueles que criam aplicativos móveis ou incorporados que podem se beneficiar da IA local. Enquanto nossa equipe da DataCamp trabalha em novos tutoriais sobre o Gemma 3n, recomendo que você comece com estes blogs sobre o Gemma 3:

Difusão de Gêmeos

A tecnologia que mais me desperta curiosidade é a Gemini Difussion.

O Gemini Diffusion é uma nova arquitetura de modelo experimental projetada para melhorar a velocidade e a coerência na geração de textos. Ao contrário dos modelos de linguagem tradicionais que geram tokens um a um em uma sequência fixa, os modelos de difusão funcionam refinando o ruído por meio de várias etapas - um método emprestado da geração de imagens.

Em vez de prever a próxima palavra diretamente, o Gemini Diffusion começa com uma aproximação grosseira e a aprimora iterativamente, o que o torna melhor em tarefas que se beneficiam do refinamento e da correção de erros, como matemática, código e edição.

Fonte: Google

Nos primeiros benchmarks, foi relatado que ele gera tokens até cinco vezes mais rápido do que os modelos autorregressivos padrão, como o Gemini 2.0 Flash-Lite, e oferece desempenho semelhante ou melhor em tarefas de raciocínio estruturado.

No momento, o acesso está limitado a testadores selecionados. Nenhuma data de lançamento pública foi anunciada. Entre na lista de espera em nesta página.

Projeto Mariner

O Project Mariner é a proposta do Google para um agente de IA que pode operar diretamente no navegador. Ele foi projetado para ajudar em tarefas complexas e de várias etapas, como planejamento de viagens, pesquisa de produtos ou resumo de conteúdo denso em várias guias.

Nesse sentido, ele é semelhante ao Manus AI ou ao Operador da OpenAIda OpenAI, que já está disponível no ChatGPT. Vamos ver um exemplo do Mariner em ação:

No momento, o Mariner não está disponível publicamente, mas o Google afirma que um acesso mais amplo está chegando. O acesso do desenvolvedor é esperado em breve por meio da API Gemini.

Veja mais exemplos aqui:

Projeto Astra

O Project Astra é o protótipo do Google DeepMind para um assistente de IA de uso mais geral - algo que não apenas responde a comandos, mas vê, ouve, lembra e reage. Ele foi apresentado pela primeira vez no ano passado como um projeto de pesquisa e, na I/O 2025, pudemos ver melhor o que ele pode fazer.

Vamos ver isso em ação:

Isso ainda não está disponível para o público, mas partes do Astra já estão entrando no Gemini Live, e espera-se uma implementação mais ampla mais tarde. Ainda não se sabe se ele se tornará um produto real ou se permanecerá na fase de pesquisa, mas a direção é clara: isso é o que o Google vê como a base para um assistente de IA universal.

Modo de IA na pesquisa

O AI Mode é a nova experiência de pesquisa do Google que se parece mais com um chatbot do que com um mecanismo de pesquisa. É diferente das visões gerais de IA, que são resumos curtos de IA colocados na parte superior da página de resultados tradicionais do Google que todos nós conhecemos. O Modo IA, por outro lado, assume toda a interface - é uma nova guia em que você pode fazer perguntas complexas e acompanhar a conversa.

Vamos ver um exemplo:

Fonte: Google

A interface se parece muito com o ChatGPT ou o Perplexity. Você digita um prompt e o AI Mode responde com respostas mais longas e estruturadas, incluindo links, citações, gráficos e, às vezes, até mesmo um detalhamento completo da pesquisa. Ele usa uma abordagem de "consulta em leque" para dividir sua pergunta em subtópicos e extrair informações de toda a Web, tudo em uma única passagem.

Um recurso notável é a integração dos recursos agênticos do Project Mariner. Isso pode fazer com que você economize tempo em tarefas como comprar ingressos para eventos, fazer reservas ou encontrar disponibilidade em vários sites.

Está claro que a pesquisa está passando por uma mudança fundamental. Estamos mudando de um modelo baseado em listas de links para um modelo centrado em respostas diretas, resumos e conclusão de tarefas. Isso tem implicações importantes para a forma como as informações são exibidas e consumidas. Os setores de SEO e marketing de conteúdo estão já estão vendo o impacto.

O Modo AI está sendo implementado nos EUA agora, com mais recursos chegando ao Labs nas próximas semanas. Você pode ativar o experimento no Google Labs se quiser testá-lo antes.

Conclusão

Isso resume os anúncios de IA mais importantes do primeiro dia do I/O 2025. Como sempre, há muita ambição em exibição, mas o verdadeiro teste é o desempenho dessas ferramentas nas mãos de usuários e desenvolvedores comuns.

Parte dessa tecnologia ainda é incipiente ou está restrita a assinaturas caras, mas alguns recursos já estão sendo implementados para todos os usuários.

Author

Alex Olteanu

Tópicos

Inteligência Artificial

IA generativa

Aprenda IA com estes cursos!

Programa

Fundamentos da IA

10 h

Descubra os fundamentos da IA, aprenda a usar a IA de forma eficaz no trabalho e mergulhe em modelos como o chatGPT para navegar pelo cenário dinâmico da IA.

Ver detalhes

Iniciar curso

Programa

Llama Fundamentals

4 h

Experimente o Llama 3 para executar inferência em modelos pré-treinados, ajustá-los em conjuntos de dados personalizados e otimizar o desempenho.

Ver detalhes

Iniciar curso

Curso

Working with DeepSeek in Python

3 h

998

Discover what all of the DeepSeek hype was really about! Build applications using DeepSeek's R1 and V3 models.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

Tudo o que sabemos sobre o GPT-5

Saiba como o GPT-5 evoluirá para um sistema unificado com recursos avançados, visando um lançamento no verão de 2025, com base no mais recente roteiro da OpenAI e no histórico do GPT.

Josep Ferrer

8 min

Ver mais Ver mais

Veo 3

Fluxo

Imagem 4

Gemma 3n

Difusão de Gêmeos

Projeto Mariner

Projeto Astra

Modo de IA na pesquisa

Conclusão

Tudo o que sabemos sobre o GPT-5

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Fundamentos da IA

Llama Fundamentals

Working with DeepSeek in Python

Tudo o que sabemos sobre o GPT-5

Fundamentos da IA