Pular para o conteúdo principal

Veo 3 do Google: Um guia com exemplos práticos

Saiba como usar o Veo 3 para criar um anúncio específico, manter a consistência dos personagens em diferentes tomadas e obter controle modular com o recurso Ingredientes.
Atualizado 22 de mai. de 2025  · 12 min lido

O Google acaba de lançar o Veo 3, seu mais recente gerador de vídeo com IA. O que me chamou a atenção logo de cara é que ele oferece saída de áudio nativa. Você pode gerar videoclipes completos com sons de diálogo, efeitos de ambiente e música de fundo. Isso é algo que eu ainda não vi na Runway ou na Sora. Nesse ponto, eu diria que o Veo 3 está um passo à frente.

Já vi muitos vídeos de demonstração de IA para saber que eles costumam exagerar nas vendas. Eles parecem polidos, mas assim que o seu prompt entra em território desconhecido em relação aos dados de treinamento - um cenário estranho, um personagem incomum ou algo com muita sutileza - a maioria dos modelos falha.

Mas dei uma volta com o Veo 3 e posso dizer que ele é muito bom. A seguir, mostrarei a você como funciona e alguns dos clipes que consegui criar. Acho que você ficará impressionado.

Mantemos nossos leitores atualizados sobre as últimas novidades em IA enviando o The Median, nosso boletim informativo gratuito de sexta-feira que detalha as principais histórias da semana. Inscreva-se e fique atento em apenas alguns minutos por semana:

O que é o Veo 3? 

Antes de colocarmos a mão na massa e mostrarmos a você exemplos, vamos entender rapidamente o que é o Veo e o que ele tem de novo.

O Veo 3 é o mais recente modelo de geração de vídeo com IA do Google, anunciado na Google I/O 2025. Ele transforma avisos de texto ou imagem em vídeos de alta definição, agora com integração de áudio nativa. Isso significa que o Veo 3 pode gerar diálogos sincronizados, sons ambientes e música de fundo, produzindo clipes que parecem incrivelmente realistas.

Aqui está um exemplo:

No momento, o Veo 3 está disponível apenas nos EUA e somente por meio de Flowa nova interface de filmagem com tecnologia de IA do Google. Para acessá-lo, você precisará de um plano AI Ultra, que custa US$ 250/mês (cerca de US$ 272 com impostos).

Vamos começar a construir!

Como criar um anúncio

Para o meu primeiro teste, eu queria criar um anúncioúnico no sitepara uma marca fictícia de balas chamada Mintro. A ideia: algo curto, incisivo e memorável. Imaginei um momento constrangedor e relacionável - algo que pudesse funcionar como um rápido "pára-rolagem".

O cenário é o seguinte: dois colegas de trabalho presos em um elevador lotado, frente a frente, o tipo de espaço em que a confiança (e o hálito fresco) é importante. Para quebrar a tensão, um deles solta uma frase que é ao mesmo tempo trágica e hilária:

"Certa vez, espirrei na sala de reunião e cliquei em 'compartilhar tela' ao mesmo tempo. Não há sobreviventes".

Em seguida, o anúncio passava para o logotipo da Mintro, juntamente com o slogan:

"Aprovado para conversa de elevador."

Se você quiser acompanhar o processo, use as instruções visuais desta imagem para criar um vídeo com o Veo 3:

como criar um vídeo com o veo 3

Vamos começar com esse prompt e ver o que você consegue:

Sugestão:

Um elevador corporativo lotado no horário de pico da manhã. Dois colegas bem vestidos estão frente a frente, desconfortavelmente próximos devido ao espaço apertado. Um deles, mantendo a cara séria, inclina-se um pouco e diz: "Uma vez espirrei na sala de todas as mãos e cliquei em 'compartilhar tela' ao mesmo tempo. Não há sobreviventes". O outro tenta reprimir uma risada. O elevador toca e as portas se abrem para um andar de escritório movimentado.

A primeira versão parecia promissora, mas havia algumas coisas que não funcionavam muito bem.

Por um lado, todos no elevador estavam olhando para os personagens principais, o que desviou o foco para o lado errado. Eu queria que as pessoas ao redor ficassem em suas próprias cabeças, como a maioria de nós faz no trajeto matinal. O ideal é que alguém verifique o telefone, outra pessoa pareça perdida em pensamentos, talvez alguém ajuste a bolsa - mas ninguém deve estar observando a interação.

Outra questão: a mulher leva a mão ao nariz, o que subentende sutilmente que o hálito do rapaz tem mau cheiro. Isso desvirtua completamente o objetivo do anúncio - que deveria ser sobre a confiança de ter um hálito fresco. Esse gesto tinha que ser eliminado.

O cenário também pareceu estranho. Por alguma razão, o elevador se abria diretamente em um espaço de escritório, o que não é a forma como os escritórios são dispostos. Os elevadores geralmente se abrem para um corredor ou saguão, e não diretamente para a estação de trabalho de alguém. É um pequeno detalhe, mas fez com que a cena parecesse estranhamente artificial.

Além disso, apareceram legendas no vídeo, que eu não solicitei, e elas estavam muito mal escritas. E, por fim, a paisagem sonora dentro do elevador estava muito morta. Era necessário algo sutil, como música ambiente de elevador em alto-falantes suspensos, para que o ambiente parecesse real.

Com essas observações em mente, fiz cerca de cinco iterações até chegar a uma versão que me pareceu boa. Não é perfeito, mas está muito mais próximo do que eu queria.

Aqui está o prompt revisado que usei:

Sugestão:

Um elevador de escritório muito cheio durante o horário de pico da manhã. As portas estão fechadas no início do vídeo e, quando começam a se abrir lentamente, ouvimos uma música suave de elevador nos alto-falantes do teto e um suave zumbido mecânico. A câmera mantém uma única tomada contínua no nível dos olhos, focada firmemente em dois colegas bem vestidos que estão frente a frente, desconfortavelmente próximos devido ao espaço apertado. Assim que as portas do elevador se abrem pela metade, o homem diz com calma e confiança: "Certa vez, espirrei na sala de reunião e cliquei em 'compartilhar tela' ao mesmo tempo. Não há sobreviventes". A mulher reage com uma risada genuína - divertida, mas nunca exagerada - e nunca fala, recua, toca o rosto ou se afasta. Ao redor deles, os outros passageiros do elevador permanecem relaxados e distantes: um deles folheia o celular, outro olha para a frente em pensamento, alguém mexe na bolsa, mas ninguém olha ou reage aos personagens principais. As portas continuam a se abrir completamente e, no final da cena, os dois colegas saem do elevador enquanto a câmera permanece fixa no lugar. Os personagens nunca olham para a câmera. Não inclua legendas, subtítulos ou texto na tela.

Essa versão conseguiu acertar a maior parte do bloqueio e do tom. Ainda assim, restaram alguns pequenos problemas:

  • As portas do elevador se abriram um pouco rápido demais, o que achei muito chocante.
  • O áudio ainda parecia muito baixo, mesmo com o prompt de música do elevador incluído.

Em minha experiência com IA, leva um minuto para chegar a 90% do caminho e uma hora para acertar os últimos 10% - embora, para ser sincero, você quase nunca consiga exatamente como deseja. Então, levei o rascunho para o DaVinci Resolve e fiz o resto manualmente. Foram necessários cerca de 15 minutos de edição leve - apenas alguns fades, música de fundo e o logotipo final da Mintro com o slogan.

O logotipo em si foi gerado usando o Whisk, a ferramenta de design do Google que é executada no Imagen 4 (você também pode encontrá-lo no Gemini se preferir trabalhar com o aplicativo). A saída era limpa o suficiente para que eu pudesse colocá-la sem precisar ajustá-la.

Com essas edições, o anúncio ficou pronto. É curto, estranho e, com sorte, memorável.

Criando uma cena de várias tomadas com consistência de personagem

Agora, quero mostrar a você como criar uma cena de várias tomadas com consistência de personagem, ou seja, o mesmo personagem mantém o rosto e a aparência de uma tomada para outra. Isso pode parecer básico, mas na geração de vídeos com IA, esse tipo de continuidade ainda é difícil de conseguir.

Só para esclarecer: uma cena é uma unidade de história com continuidade no tempo e no espaço. Ele pode ser composto de uma ou várias fotos, dependendo de como você deseja dividi-lo. Quando você entende essa estrutura, fica mais fácil criar cenas completas e, por fim, uni-las em algo parecido com um curta-metragem.

Para demonstrar, criarei uma história muito rápida inspirada no que é frequentemente creditado como uma das maiores peças de ficção rápida já escritas (supostamente por Hemingway):

À venda: sapatos de bebê, nunca usados.

Esse é o núcleo emocional que quero desenvolver. Imaginei uma micro-narrativa de duas tomadas para dar vida a essa linha:

  • Tiro 1: Uma mulher de 30 e poucos anos abre um armário no corredor cheio de casacos velhos, roupas de cama dobradas e algumas caixas de papelão sem etiqueta. Ela puxa uma das caixas para baixo com cuidado e se ajoelha no chão. Ela abre a caixa e desembrulha cuidadosamente um pequeno item dentro dela: um par de sapatinhos de bebê brancos e imaculados, embrulhados em papel de seda.
  • Tiro 2: Alguns minutos depois, na cozinha. A mulher se senta sozinha à tabela da cozinha, com o telefone na mão. A câmera mantém um ângulo lateral médio-fechado e imóvel. Ela coloca os sapatos de bebê na tabela ao seu lado e começa a digitar uma lista no telefone. Texto na tela do telefone: "À venda: sapatos de bebê, nunca usados."

Desta vez, não vou iterar para obter um resultado polido e cinematográfico. Meu objetivo é simplesmente mostrar o que é possível fazer com essa ferramenta - como estabelecer o tom e manter a aparência do personagem em várias tomadas.

Vamos começar gerando a primeira foto normalmente (como geramos as fotos para o anúncio).

Sugestão:

Interior de uma casa tranquila e habitada no início da manhã. A luz natural passa suavemente pela janela do corredor. Uma mulher de 30 e poucos anos abre um armário no corredor cheio de casacos velhos, roupas de cama dobradas e algumas caixas de papelão sem etiqueta. Ela puxa uma das caixas para baixo com cuidado e se ajoelha no chão. A câmera permanece imóvel em um ângulo médio-largo, no nível dos olhos. Ela abre a caixa e desembrulha cuidadosamente um pequeno item dentro dela: um par de sapatinhos de bebê brancos e imaculados, embrulhados em papel de seda. Ela se senta sobre os calcanhares, segurando os sapatos no colo. Sua expressão é ilegível - não está triste, apenas presente e imóvel. A filmagem é tranquila e sem pressa. Sem música. Enfatize o ambiente natural - sons suaves da casa, o ranger da porta do armário, o farfalhar do papelão e detalhes sutis e distantes, como o tique-taque do relógio ou um pássaro do lado de fora da janela. O momento deve ser silencioso e real. Estilo visual: realismo caloroso e fundamentado com iluminação natural. Evite a estilização excessiva do cinema. Mantenha uma única tomada contínua sem cortes ou zooms. Não inclua nenhum texto ou legenda na tela.

Não é de todo ruim. Gosto do enquadramento, da cor e o som é bom. A atuação não é excelente - não há muita emoção -, mas vamos superar isso.

Digamos que agora você queira passar para a próxima foto na cozinha. Nossa melhor chance de manter a consistência do personagem - manter o mesmo rosto, roupa e aparência geral - é usar o Scene Builder.

Quando você estiver satisfeito com a primeira foto, clique em Adicionar à cena:

Uma linha do tempo será aberta. Clique no sinal de mais e, em seguida, escolha entre:

  • Pular para: Isso acontece e então (a cena pula para)
  • Estender: Isso acontece e depois (foto ampliada)

Neste exemplo, preciso de um corte, portanto, escolherei Jump to e usarei este prompt (consegui isso depois de algumas iterações - esse recurso definitivamente precisa de melhorias):

Sugestão:

Na cozinha, alguns minutos depois. A luz do sol filtra suavemente a tabela e o piso, criando uma atmosfera calma e tranquila. Ambiente doméstico silencioso - o zumbido suave da geladeira, um leve rangido da cadeira, toques suaves na tela do telefone. Sem música ou vozes externas. A mulher se senta sozinha à tabela da cozinha, com o telefone na mão. A câmera mantém um ângulo lateral médio-fechado e imóvel. Ela coloca os sapatos de bebê na tabela ao seu lado e começa a digitar uma lista no telefone. A câmera corta para uma tomada por cima do ombro ou uma inserção apertada mostrando a tela do telefone: "À venda: sapatos de bebê, nunca usados." Ela olha para o texto por um longo momento, com o polegar pairando sobre o botão de publicação. Seus olhos começam a brilhar, mas ela pisca rapidamente. Ela não chora - em vez disso, bloqueia o telefone, coloca-o com a face voltada para baixo e exala, estabilizando-se. Sua expressão é contida e ilegível, mas sua linguagem corporal diz tudo: isso não é fácil. Não inclua nenhuma legenda na tela.

A adesão ao prompt foi baixa - o tom e a composição não correspondiam ao que eu tinha em mente. Dito isso, a consistência do personagem foi decente: mesmo corte de cabelo, estrutura facial semelhante, mas as roupas mudaram.

Também notei alguns artefatos visuais na saída (verifique os sapatos). E, embora eu esperasse um único tiro, recebi três cortes separados em uma única geração. Mais tarde, percebi que havia sugerido involuntariamente um segundo corte no prompt, portanto, essa parte é por minha conta - mas ainda não tenho ideia de onde veio a terceira foto.

Além disso, a exportação do Scene Builder removeu totalmente o áudio. Não tenho certeza se isso é um bug ou apenas uma limitação da configuração atual, mas não parece haver uma correção simples. No entanto, você pode fazer o download de cada foto individualmente, então eu apenas as uni novamente no DaVinci Resolve.

Ainda há muito trabalho a ser feito pelo Google no recurso Scene Builder, mas isso é promissor!

Controle modular com ingredientes para vídeo

Um dos recursos mais experimentais (e divertidos) do Flow é o Ingredients to Video. Ele oferece controle modular: você gera elementos individuais, chamados ingredients, edepois os combina em uma cena.

Você pode criar ingredientes usando a geração de imagens, embora ainda não haja suporte para o upload de imagens. Aqui está um exemplo da equipe do Google:

Para esse teste, eu queria tentar algo um pouco absurdo - um curta engraçado e kafkiano:

Um inseto com rosto humano dirige um SUV. Mas aqui está a reviravolta (como se já não fosse suficiente): o assento do motorista é uma cadeira de rei.

Primeiro, vamos selecionar a opção Ingredients to Video:

ingredientes para o recurso de vídeo no veo 3

Comecei gerando os três ingredientes um a um: a cadeira, o utilitário esportivo e o inseto.

gerar ingredientes no veo 3

Infelizmente, esse recurso funciona atualmente no Veo 2, não no Veo 3. Tecnicamente, você pode selecionar Veo 3 no menu suspenso, mas ele sempre volta automaticamente para Veo 2 durante a geração e mostra esse aviso:

Aviso do veo 3

Como era de se esperar, a qualidade da saída não foi muito boa:

Sugestão:

Um inseto com rosto humano dirige calmamente um SUV, sentado em um trono de rei de grandes dimensões.

Dito isso, dois dos três ingredientes - especialmente o inseto e a cadeira - pareciam surpreendentemente bons. O SUV, nem tanto...

Com os recursos do Veo 3, essa configuração provavelmente teria sido muito mais forte. Por enquanto, esse modo é promissor, mas ainda não chegou lá.

Quadros para vídeo

A ideia por trás do Frames to Video é a seguinte: você fornece ao modelo um primeiro e um último quadro, e ele tenta animar uma transição entre eles (por meio de um movimento de câmera que você pode controlar). Você pode gerar esses quadros a partir de um prompt ou (eventualmente) carregá-los você mesmo - o upload de imagens ainda não está disponível.

quadros para vídeo no veo 3

Assim como o recurso Ingredientes, esse modo tem como padrão automático o Veo 2, que limita significativamente a qualidade. Não consegui gerar nada particularmente útil com ele.

No final, eu o usei para animar uma única cena de um camaleão. Eu defini a mesma imagem como o quadro inicial e final e solicitei um movimento de câmera dolly-in, mas essa parte não foi respeitada na renderização final.

Sugestão:

Um camaleão fica imóvel em um galho, com os olhos examinando lentamente em direções opostas enquanto espera pacientemente por uma presa.

Práticas recomendadas do Veo 3

Ao obter acesso ao Veo 3 pela primeira vez por meio do Flow, você começará com 12.500 créditos. Cada geração de vídeo consome uma parte desse total - 150 créditos por geração com o Veo 3 -, portanto, vale a pena ser estratégico desde o início.

Meu conselho: pense cuidadosamente em seus prompts e gere apenas um resultado de cada vez. Você precisará distribuir esses créditos ao longo do mês, e cada geração leva tempo - geralmente de 2 a 3 minutos ou mais. Isso torna a iteração relativamente lenta, de modo que a tentativa e erro não é barata nem rápida.

Para a criação de avisos, o Google fornece um Guia de prompts para geração de vídeos da Vertex AI que oferece insights sobre como estruturar prompts eficazes para o Veo. Este guia enfatiza a importância de prompts claros e descritivos e fornece exemplos para ajudar você a começar.

Se você estiver procurando orientações adicionais, o Guia de Prompting Alfa da Runway Gen-3 é um recurso valioso. Ele oferece estratégias detalhadas para a criação de prompts que produzem vídeos de alta qualidade, o que também pode ser útil ao trabalhar com o Veo 3.

Conclusão

Eu não ficava tão impressionado com um avanço da IA desde que geração de imagens do GPT-4o.

O Veo 3 oferece algo que parece fundamentalmente novo: vídeo coerente e habilitado para som a partir de avisos de linguagem natural. Só isso já o diferencia de todos os outros que testei.

É claro que ele tem suas falhas - desvio de prompt, falta de acesso total ao Veo 3 em ferramentas importantes, como o Scene Builder, e falhas visuais ocasionais -, mas a experiência principal é genuinamente empolgante.

O que chama a atenção é o quanto você já se sente próximo de um pipeline criativo utilizável. Com um pouco de edição e algumas instruções cuidadosas, você pode passar de uma ideia para um storyboard e para um projeto de curta duração em menos de algumas horas. Acrescente a consistência dos caracteres (mesmo que seja um pouco frágil), o áudio incorporado à saída e o suporte a fluxos de trabalho modulares, e você começará a ver uma ferramenta séria.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Sou editor e redator de blogs, tutoriais e notícias sobre IA, garantindo que tudo se encaixe em uma estratégia de conteúdo sólida e nas práticas recomendadas de SEO. Escrevi cursos de ciência de dados em Python, estatística, probabilidade e visualização de dados. Também publiquei um romance premiado e passo meu tempo livre escrevendo roteiros e dirigindo filmes.

Tópicos

Aprenda IA com estes cursos!

Programa

AI Fundamentals

0 min
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Os 7 principais geradores de vídeo com IA para 2024 com vídeos de exemplo

Descubra os principais geradores de vídeo com IA disponíveis atualmente, incluindo RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo e os altamente esperados Sora e Veo da DeepMind.

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

cursor ai code editor

Tutorial

AI do cursor: Um guia com 10 exemplos práticos

Saiba como instalar o Cursor AI no Windows, macOS e Linux e descubra como usá-lo em 10 casos de uso diferentes.

Tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

Tutorial

Vendo como uma máquina: Guia para iniciantes em análise de imagens em aprendizado de máquina

Descubra como os computadores "veem" e interpretam imagens, as técnicas usadas para manipular imagens e como o aprendizado de máquina mudou o jogo.
Amberle McKee's photo

Amberle McKee

15 min

Tutorial

Uma introdução ao uso do DALL-E 3: Dicas, exemplos e recursos

Descubra como usar o DALL-E 3 para criar imagens. Descubra o que é o DALL-E 3, seus principais recursos e como usar os prompts para obter os melhores resultados.
Kurtis Pykes 's photo

Kurtis Pykes

13 min

Ver maisVer mais