Pular para o conteúdo principal

O que é o Veo 2 do Google? Como acessá-lo, recursos, exemplos

Saiba mais sobre a nova ferramenta de geração de vídeo com IA do Google, o Veo 2, incluindo seus recursos, como usá-lo e como ele se compara ao Sora da OpenAI.
Actualizado 18 de dez. de 2024  · 8 min de leitura

Com o anúncio da OpenAI Sora na semana passada, não é de surpreender que o Google tenha respondido com uma atualização do seu modelo de geração de vídeo, Veo 2.

Neste blog, explorarei os principais recursos do Veo 2, destacarei o que o diferencia, mostrarei seus recursos e explicarei como você pode começar a usá-lo com a ferramenta VideoFX do Google.

O que é o Veo 2?

O Veo 2 é a mais nova e avançada ferramenta de IA do Google para a criação de vídeos. Ele foi projetado para criar vídeos realistas e de alta qualidade, com suporte para resolução de até 4K (embora as saídas atuais estejam limitadas a 720p na ferramenta VideoFX).

O Veo 2 pode ser útil para qualquer pessoa que precise gerar vídeos com IA, incluindo profissionais de marketing, criadores, proprietários de empresas, amadores e, possivelmente, cineastas profissionais.

Veo 2

Fonte: Google DeepMind

Aqui estão alguns dos recursos que você pode esperar do Veo 2:

  • Vídeos realistas: O Veo 2 gera vídeos detalhados com menos erros do que sua versão anterior, produzindo imagens realistas e realistas.
  • Controle avançado: Os usuários podem fornecer instruções específicas, como a seleção de tipos de lentes, ângulos de câmera ou efeitos especiais, para personalizar a saída.
  • Alta resolução: O Veo 2 suporta a geração de vídeo com resolução de até 4K, embora os testes atuais estejam limitados a 720p.
  • Movimento suave: O modelo incorpora uma compreensão da física do mundo real, o que permite criar movimentos naturais e precisos nas cenas.

O Veo 2 pode lidar com instruções simples e complexas enquanto cria vídeos que imitam a física do mundo real e diferentes estilos artísticos.

Você quer começar a usar a IA generativa?

Saiba como trabalhar com LLMs em Python diretamente em seu navegador

Comece Agora

Como começar a usar o Veo 2 no VideoFX

O VideoFX é a plataforma experimental do Google que permite que você experimente o Veo 2.

No VideoFX, o Veo 2 pode criar vídeos com resolução de 720p e até 8 segundos de duração. Embora a ferramenta atualmente tenha esses limites, o Veo 2 pode gerar vídeos em resolução 4K e com vários minutos de duração.

O Veo 2 é executado no VideoFX e você precisa entrar em uma lista de espera

Para começar a usar o Veo 2:

  • Entre na lista de espera: Visite Google Labs e registrar-se. O acesso está sendo implementado gradualmente e, no momento, está limitado a usuários dos EUA com 18 anos ou mais.
  • Escreva sua solicitação: Use a linguagem cinematográfica para orientar o Veo 2. Por exemplo, você pode descrever uma "tomada de ângulo baixo deslizando por uma cena" ou um "close-up de um cientista olhando em um microscópio" para obter imagens de qualidade profissional.
  • Experiência: Brinque com diferentes estilos, gêneros, ângulos de câmera ou efeitos. Você pode até mesmo especificar lentes como uma "lente de 18 mm" para fotos amplas ou efeitos como "profundidade de campo rasa" para desfocar o fundo.

Por enquanto, o acesso é limitado, mas o Google planeja expandir os recursos do Veo 2. Até 2025, ele poderá estar disponível para a criação de vídeos em plataformas como YouTube Shorts e Vertex AI, o que permitirá que ainda mais pessoas o utilizem.

Exemplos de vídeos do Veo 2

Vamos dar uma olhada em alguns exemplos de vídeos que o Veo 2 pode criar a partir de um prompt (esses são exemplos compartilhados pela equipe da DeepMind):

Cientista em um laboratório

Sugestão: Filmagem cinematográfica de uma médica em um traje de proteção amarelo-escuro, iluminada pela forte luz fluorescente de um laboratório. A câmera aproxima lentamente o rosto dela, fazendo uma panorâmica suave para enfatizar a preocupação e a ansiedade gravadas em sua testa. Ela está debruçada sobre uma mesa de laboratório, olhando atentamente para um microscópio, com as mãos enluvadas ajustando cuidadosamente o foco. A paleta de cores suaves da cena, dominada pelo amarelo doentio do traje e pelo aço estéril do laboratório, ressalta a gravidade da situação e o peso do desconhecido que ela está enfrentando. A baixa profundidade de campo foca o medo em seus olhos, refletindo a imensa pressão e responsabilidade que ela carrega.

Descrição do vídeo: Um close-up dramático de uma médica vestindo uma roupa protetora de materiais perigosos, profundamente concentrada enquanto olha para um microscópio. A iluminação e o foco da câmera destacam a seriedade do trabalho dela.

Desenho animado em uma cozinha dos anos 1980

Sugestão: Essa foto média, com uma profundidade de campo rasa, retrata uma linda garota de desenho animado com cabelos castanhos ondulados, sentada em pé em uma cozinha dos anos 1980. Seu cabelo é de comprimento médio e ondulado. Ela tem um nariz pequeno e ligeiramente arrebitado e orelhas pequenas e arredondadas. Ela está muito animada e empolgada ao falar com a câmera.

Descrição do vídeo: Um personagem animado e divertido ganha vida em uma cozinha retrô, cheia de charme e nostalgia colorida. 

Apicultor em uma fazenda

Sugestão: A câmera flutua suavemente por fileiras de colmeias de madeira pintadas em tons pastéis, com abelhas zumbindo dentro e fora do quadro. O movimento se concentra no fazendeiro refinado que está no centro, com seu terno branco imaculado de apicultor brilhando na luz dourada da tarde. Ele levanta um pote de mel, inclinando-o levemente para captar a luz. Atrás dele, girassóis altos balançam ritmicamente na brisa, com suas pétalas brilhando sob a luz quente do sol. A câmera se inclina para cima para revelar uma casa de fazenda retrô com persianas verde-menta, com as paredes salpicadas de sombras de árvores balançando. Fotografada com uma lente de 35 mm em um filme Kodak Portra 400, a luz dourada cria texturas ricas nas luvas do fazendeiro, no pote de marmelada e na madeira desgastada das colmeias.

Descrição do vídeo: Uma cena pacífica mostrando fileiras de colmeias pintadas brilhando ao sol, com um apicultor segurando um pote de mel, capturando a beleza calma da vida rural. 

Flamingos em uma lagoa

Sugestão: Uma foto em ângulo baixo captura um bando de flamingos cor-de-rosa passeando graciosamente em uma lagoa exuberante e tranquila. O rosa vibrante de sua plumagem contrasta lindamente com o verde verdejante da vegetação circundante e com a água azul-turquesa cristalina. A luz do sol brilha na superfície da água, criando reflexos cintilantes que dançam nas penas dos flamingos. Os pescoços elegantes e curvos dos pássaros ficam submersos enquanto eles caminham pela água rasa, e seus movimentos criam ondulações suaves que se espalham pela lagoa. A composição enfatiza a serenidade e a beleza natural da cena, destacando o delicado equilíbrio do ecossistema e a graça inerente dessas magníficas aves. A luz suave e difusa do início da manhã banha toda a cena com um brilho quente e etéreo.

Descrição do vídeo: Uma foto relaxante de flamingos caminhando graciosamente em águas claras, cercados por uma vegetação exuberante e brilhando na suave luz da manhã.

Cubo giratório

Sugestão: Um cubo perfeito gira no centro de um vazio suave e nebuloso. A superfície alterna entre diferentes texturas hiper-reais - mármore liso, camurça aveludada, latão martelado e concreto bruto. Cada material revela detalhes sutis: veios de mármore que se espalham lentamente, fibras de camurça que roçam com o vento, latão que mancha em câmera lenta e concreto que se desintegra para revelar a pedra polida no interior. Termina com um brilho suave ao redor do cubo enquanto ele passa para uma superfície espelhada suave, refletindo o infinito.

Descrição do vídeo: Uma animação abstrata e interessante de um cubo que muda sua superfície para se parecer com mármore, camurça e outras texturas, em uma atmosfera nebulosa.

Cão em uma boia de piscina

Veo 2 vs. Sora vs. Outras competições

O Veo 2 é uma das melhores ferramentas de geração de vídeo disponíveis, com base na avaliação que as pessoas fizeram do seu desempenho em testes que o compararam com outros. 

Ao comparar o Veo 2 com outras ferramentas de vídeo, todos os vídeos foram exibidos em resolução de 720p para manter as coisas justas. A duração do vídeo variava:

  • Veo 2 os vídeos tinham 8 segundos de duração.
  • VideoGen eram um pouco mais longos, com 10 segundos.
  • Os vídeos de outros modelos eram mais curtos, com apenas 5 segundos.

As pessoas que avaliaram os vídeos assistiram à íntegra de cada vídeo para dar seu feedback.

Para testar a qualidade do Veo 2, os participantes assistiram a vídeos criados a partir de 1.003 prompts usando um conjunto de dados chamado MovieGenBench, desenvolvido pela Meta. Aqui estão os resultados:

Benchmarks do Veo 2Os gráficos de barras mostram como o Veo 2 se compara a outras ferramentas de vídeo com IA - Meta Movie Gen, Kling v1.5, Minimax e Sora Turbo - em duas áreas: preferência geral e adesão imediata.

Em primeiro lugar, precisamos considerar esses resultados com cautela, pois o Google os apresenta. Mais pessoas gostaram mais dos vídeos do Veo 2, especialmente em comparação com o Sora Turbo (58,8%) e o Minimax (54,5%).

O Veo 2 também foi o melhor em seguir instruções com precisão, obtendo a maior pontuação contra o Minimax (55,7%) e o Sora Turbo (58,2%). Nos gráficos, as barras verdes mostram onde o Veo 2 teve melhor desempenho, as barras rosa mostram onde outras ferramentas foram preferidas e as seções brancas mostram empates.

No entanto, o Veo 2 não é perfeito. O Veo 2 fez grandes melhorias na criação de vídeos realistas e detalhados, mas ainda tem alguns desafios. Como outras ferramentas de vídeo com IA, ela ainda tem dificuldade em manter a consistência em cenas muito complexas ou vídeos com muitos movimentos rápidos ou detalhados.

Marca d'água SynthID: Geração responsável de vídeos com IA

O Google se concentrou em tornar o Veo 2 seguro e responsável para uso. Para ajudar com isso, cada vídeo criado inclui umamarca d'água SynthID invisível.

A marca d'água é incorporada diretamente nos pixels dos quadros de vídeo e permanece intacta mesmo que o vídeo seja editado (cortado, filtrado, compactado ou reordenado).

Não é possível ver a marca d'água, portanto a qualidade do vídeo permanece a mesma, mas as ferramentas podem detectá-la.

A marca d'água SynthID garante que o conteúdo possa ser identificado como gerado por IA. Isso ajuda a evitar o uso indevido, a desinformação ou a confusão sobre quem criou o vídeo.

Você pode saber mais sobre o SynthID aqui.

No entanto, o Google não compartilhou a origem dos dados de treinamento do Veo 2. Muitos acreditam que o YouTube, de propriedade do Google, pode ser uma fonte.

Conclusão

Como o Google continua a desenvolver e expandir o acesso ao Veo 2, será interessante observar como ele molda o cenário da criação de vídeos. Sua capacidade de produzir vídeos de alta qualidade a partir de instruções detalhadas poderia democratizar a produção de vídeos, mas ainda há preocupações com o uso indevido e a desinformação. Espero que o Google mantenha seu foco em práticas de IA responsáveis à medida que os recursos do Veo 2 aumentam.

Obtenha uma das melhores certificações de IA

Demonstre que você pode usar a IA de forma eficaz e responsável.
Temas

Aprenda IA com estes cursos!

curso

Generative AI for Business

1 hr
9.3K
Learn the role Generative Artificial Intelligence plays today and will play in the future in a business environment.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

blog

Os 7 principais geradores de vídeo com IA para 2024 com vídeos de exemplo

Descubra os principais geradores de vídeo com IA disponíveis atualmente, incluindo RunwayML, Synthesia, Colossyan, Pictory, DeepBrain AI, Invideo e os altamente esperados Sora e Veo da DeepMind.

blog

O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais

Descubra o Sora da OpenAI: uma IA inovadora de texto para vídeo que revolucionará a IA multimodal em 2024. Explore seus recursos, inovações e impacto potencial.

Richie Cotton

8 min

blog

A OpenAI anuncia o GPT-4 Turbo com visão: O que sabemos até o momento

Descubra a atualização mais recente da OpenAI, GPT-4 Turbo com visão, e seus principais recursos, incluindo o corte de conhecimento aprimorado, uma janela de contexto expandida, preço acessível e muito mais.
Richie Cotton's photo

Richie Cotton

7 min

blog

O que é DALL-E?

A IA DALL-E da OpenAI cria imagens a partir de texto, combinando linguagem e recursos visuais. O DALL-E 2 produz imagens de maior resolução e mais realistas.
Abid Ali Awan's photo

Abid Ali Awan

9 min

tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.
Arunn Thevapalan's photo

Arunn Thevapalan

12 min

tutorial

Tutorial da API de assistentes da OpenAI

Uma visão geral abrangente da API Assistants com nosso artigo, que oferece uma análise aprofundada de seus recursos, usos no setor, orientação de configuração e práticas recomendadas para maximizar seu potencial em vários aplicativos de negócios.
Zoumana Keita 's photo

Zoumana Keita

14 min

See MoreSee More