programa
OmniHuman da ByteDance: Um guia com exemplos
A ByteDance, empresa proprietária do TikTok, publicou recentemente seu modelo de geração de vídeo, o OmniHuman. Esse modelo pode transformar uma imagem em um vídeo com gestos de movimento natural e até mesmo fazê-la cantar.
Neste artigo, examinarei o OmniHuman e orientarei você sobre seus recursos, casos de uso, como ele funciona, como ele difere dos modelos existentes e as preocupações éticas que o envolvem.
Aprimoramento de IA para iniciantes
O que é Omnihuman?
O OmniHuman é um modelo de geração de imagem para vídeo que pode gerar vídeos ou animações realistas com base em uma imagem. Tecnicamente, seu nome completo é OmniHuman-1sugerindo que ele faz parte de um projeto de longo prazo com versões futuras em desenvolvimento. Por conveniência, vou me referir a ele como OmniHuman em todo este blog.
A julgar pelos exemplos oferecidos pela equipe de pesquisa por trás do OmniHuman, o modelo é excelente em animar o sujeito de uma forma que parece se mover naturalmente, executar gestos e até mesmo cantar ou tocar instrumentos.
O OmniHuman pode gerar vídeos com diferentes tamanhos de entrada e proporções corporais, oferecendo suporte a vários tipos de tomadas, como close-ups, meio corpo ou corpo inteiro. Ele também pode realizar a sincronização labial com o áudio.
Observe que as imagens de entrada para a maioria dos exemplos de vídeo deste artigo são o primeiro quadro de cada vídeo (mais o áudio). É importante que você tenha isso em mente para ter uma ideia melhor de como é fácil gerar esses vídeos usando o OmniHuman.
OmniHuman Features
Suporte para uma ampla gama de assuntos
O OmniHuman pode lidar com uma gama diversificada de entradas, além de figuras humanas. Isso inclui desenhos animados, objetos artificiais, animais e até mesmo aquelas poses complicadas que podem desafiar as ferramentas tradicionais de criação de vídeo.
O OmniHuman também suporta várias proporções de aspecto, o que às vezes é uma limitação dos modelos de geração de vídeo. O vídeo acima tem uma proporção de retrato (9:16), enquanto o vídeo abaixo tem uma proporção quadrada (1:1).
Falar e cantar
No exemplo abaixo, vemos um Ted Talk realista gerado por IA. Para mim, é incrível pensar que isso foi gerado a partir de uma única imagem. Os movimentos corporais são bastante convincentes e consistentes com a fala.
Neste segundo exemplo, temos um exemplo de um sujeito que canta. Esse exemplo é menos convincente porque o movimento da mão do violão não combina com a música do violão.
Sincronização labial
O próximo exemplo realmente mostra como a OmniHuman é forte quando se trata de sincronização labial. Ao contrário do movimento da mão na guitarra, esse vídeo oferece um desempenho realmente crível, pois a pessoa realmente parece estar cantando, sendo até mesmo consistente com o tom.
Isso também se aplica à fala normal, não apenas ao canto (veja o exemplo abaixo). A principal desvantagem do vídeo abaixo é que posso ver alguns artefatos ao redor do cabelo quando a criança se move. Além disso, a cor dos lábios e a brancura dos dentes não são naturais e não combinam com o tema.
Corpo inteiro, meio corpo e closeups
Os dois exemplos a seguir mostram a capacidade da OmniHuman de gerar vídeos de meio corpo, bem como de close-up. Vamos começar com o exemplo do meio corpo:
E agora, vamos ver um vídeo gerado para você ver de perto:
Animação das mãos
Um dos aspectos com os quais os modelos de geração de vídeo e imagem costumam ter dificuldades são as mãos. Por alguma razão, as mãos geralmente representam um grande desafio para a IA, resultando em dedos extras e falhas. Com base em seus exemplos, a OmniHuman parece lidar muito bem com isso.
Ele também parece ser capaz de lidar com casos em que um objeto está sendo mantido:
Condução de vídeo
Vimos que o OmniHuman oferece suporte à condução de áudio, em que o áudio é usado para orientar a geração de vídeo para corresponder a ele. No entanto, o OmniHuman também suporta entrada de vídeo para condução de vídeo. Dessa forma, ele pode imitar ações específicas de vídeo.
A razão pela qual o OmniHuman pode suportar tanto a condução de áudio (tornando o vídeo consistente com um determinado áudio) quanto a condução de vídeo é a maneira como ele foi treinado, que exploraremos a seguir.
Como acessar o OmniHuman?
No momento da publicação deste artigo, não há informações detalhadas disponíveis sobre como acessar o Omnihuman. Para obter atualizações ou anúncios oficiais sobre o lançamento e os detalhes de acesso, fique de olho nos canais oficiais da ByteDance, como comunicados à imprensa ou seu site corporativo. Além disso, como a ByteDance é proprietária do TikTok, as atualizações também podem aparecer em plataformas associadas à empresa.
Como o OmniHuman funciona?
O OmniHuman tem esse nome devido ao fato de que, ao contrário dos modelos atuais, ele integra vários sinais de condição durante a fase de treinamento, o que eles chamam de treinamento de condições omni. Em termos simples, esses sinais de condição referem-se a diferentes tipos de informações que são usadas para orientar a criação de um vídeo de um ser humano.
Os modelos atuais geralmente dependem de sinais de condicionamento únicos, como áudio ou pose. Por exemplo, os modelos condicionados por áudio concentram-se nas expressões faciais e na sincronização labial, enquanto os modelos condicionados por pose enfatizam as poses de corpo inteiro.
No entanto, nem todos os dados estão perfeitamente alinhados com esses sinais específicos. Como resultado, grandes quantidades de dados potencialmente úteis são descartadas durante os processos de filtragem porque contêm elementos (por exemplo, movimentos corporais não relacionados à fala em modelos orientados por áudio) que não se encaixam no escopo restrito do sinal de condicionamento.
Imagine que você está tentando criar uma animação de uma pessoa, como em um videogame ou em um desenho animado. Para que a animação pareça realista, você precisa saber mais do que apenas a aparência da pessoa em uma única foto. Você também precisa de detalhes sobre como eles se movimentam, o que estão dizendo e até mesmo as poses que podem fazer.
O OmniHuman combina três tipos de condições para aprender a gerar vídeos:
- Texto: Isso significa usar palavras escritas ou descrições para ajudar a orientar a animação. Por exemplo, se o texto diz: "A pessoa está acenando com a mão", a animação usa essa informação para fazer a pessoa acenar.
- Áudio: Trata-se de som, como a voz de alguém ou música de fundo. Se a pessoa na animação estiver dizendo algo, o modelo usará o áudio para garantir que seus lábios se movam corretamente para corresponder às palavras.
- Pose: Isso se refere à posição e ao movimento do corpo da pessoa. Por exemplo, se você quiser animar alguém dançando, as poses fornecem um guia de como os braços e as pernas devem se mover.
A ideia aqui é que, ao combinar esses diferentes sinais, o modelo pode criar vídeos que parecem muito realistas.
Outra vantagem do treinamento em condições omnidirecionais é que o modelo pode reduzir o desperdício de dados em comparação com outros modelos. Outros modelos não são capazes de aproveitar totalmente os dados usados para treiná-los pelos seguintes motivos
- Especificidade dos sinais de condicionamento: Os modelos atuais geralmente dependem de sinais de condicionamento únicos, como áudio ou pose. Por exemplo, os modelos condicionados por áudio concentram-se nas expressões faciais e na sincronização labial, enquanto os modelos condicionados por pose enfatizam as poses de corpo inteiro. No entanto, nem todos os dados estão perfeitamente alinhados com esses sinais específicos. Como resultado, grandes quantidades de dados potencialmente úteis são descartadas durante os processos de filtragem porque contêm elementos (por exemplo, movimentos corporais não relacionados à fala em modelos orientados por áudio) que não se encaixam no escopo restrito do sinal de condicionamento.
- Filtragem e limpeza de dados: Para melhorar a eficiência do treinamento e a precisão do modelo, os métodos existentes aplicam processos rigorosos de filtragem e limpeza de dados. Por exemplo, os modelos condicionados por áudio filtram os dados com base na precisão da sincronização labial, enquanto os modelos condicionados por pose filtram a visibilidade e a estabilidade da pose. Esses processos removem dados que podem conter padrões de movimento úteis e diversos cenários necessários para expandir os recursos do modelo.
- Aplicabilidade limitada: Devido à sua dependência de conjuntos de dados altamente selecionados, esses modelos são aplicáveis apenas a uma gama restrita de cenários, como fundos estáticos voltados para a frente. Isso restringe os recursos de generalização dos modelos em cenários mais diversos do mundo real.
Ao usar o treinamento em condições omnicanal, o modelo OmniHuman pode usar efetivamente conjuntos de dados maiores e mais diversificados, resultando em uma geração de vídeo humano mais realista e flexível em uma ampla gama de condições e estilos.
Dados de treinamento para a OmniHuman
O conjunto de dados selecionado para o treinamento da OmniHuman compreende aproximadamente 18,7 mil horas de dados relacionados a seres humanos, selecionados usando critérios essenciais para a geração de vídeos, como estética, qualidade de imagem e amplitude de movimento.
Desse enorme conjunto de dados, 13% foram destinados ao treinamento com modalidades de áudio e pose com base em condições rigorosas de precisão de sincronização labial e visibilidade de pose. Essa abordagem de duas camadas garante que somente os dados mais relevantes informem a compreensão do modelo de animação humana, permitindo que ele funcione de forma eficaz em vários cenários.
Os modelos tradicionais costumam ser treinados em conjuntos de dados muito menores, geralmente envolvendo centenas de horas ou até menos, com foco restrito em partes específicas do corpo ou tipos de animação (por exemplo, animações faciais ou poses de corpo inteiro) sob restrições rígidas de cena. Isso limitou a generalização e a aplicabilidade desses modelos em diferentes tarefas. Ao evitar a filtragem excessiva e adotar tarefas de condicionamento mais fracas junto com seus respectivos dados, o OmniHuman atenua as limitações impostas pela dependência exclusiva de conjuntos de dados altamente filtrados.
Além disso, diferentemente dos modelos típicos de condição única de ponta a ponta, o OmniHuman emprega sua estratégia de treinamento de condições múltiplas para utilizar o treinamento de dados mistos, superando assim os desafios inerentes observados em outros trabalhos de ponta que se concentraram no uso de vídeos muito especializados para treinar o modelo para gerar tipos específicos de vídeos. Esses modelos não apresentam a versatilidade vista no OmniHuman.
Casos de uso do OmniHuman
Vamos explorar alguns dos casos de uso que o OmniHuman poderia ter. Como em tudo, sempre há um lado bom e um lado ruim.
Casos de uso positivos
Aqui estão alguns exemplos de casos de uso positivos para o OmniHuman:
- Criação de conteúdo e engajamento: Esse tipo de tecnologia tem um enorme valor para o TikTok e outras plataformas de mídia social. Já estou vendo o OmniHuman implementado como um recurso no TikTok.
- Marketing e publicidade: Criando anúncios personalizados e envolventes com personagens realistas.
- Democratização da criação de filmes: A IA facilita muito a criação de vídeos. Isso permitirá que indivíduos criativos que não possuem habilidades técnicas, orçamento ou equipamento deem vida às suas ideias.
- Entretenimento e mídia: Hollywood poderia usar esse tipo de tecnologia para reviver atores falecidos para novos papéis em filmes.
- Trazendo figuras históricas de volta à vida: Um de seus exemplos mostra um vídeo de Einstein fazendo um discurso sobre arte. Mesmo sabendo que não era real, senti algo por ver Einstein ganhar vida. Eu poderia imaginar que isso seria muito interessante se usado em uma palestra sobre a Teoria da Relatividade. Também poderíamos imaginar um museu acrescentando esse tipo de experiência com outras figuras históricas.
Casos de uso negativos
Apesar dos aspectos positivos, o OmniHuman também pode ser uma ferramenta perigosa e pode levar a muitos problemas:
- Desinformação e manipulação política: Fabricação de vídeos de líderes políticos para provocar perturbação governamental ou caos eleitoral.
- Fraude financeira: Criar endossos falsos de celebridades para promover golpes ou investimentos fraudulentos. Recentemente, houve um caso de uma mulher francesa que perdeu cerca de US$ 850.000 por causa de um golpe de celebridade deepfake.
- Invasão de privacidade: Uso não autorizado de imagens pessoais para criar vídeos sem consentimento.
- Roubo de identidade e engenharia social: Fazer-se passar por pessoas para realizar atividades maliciosas ou golpes.
- Danos à reputação e difamação: Produzir vídeos falsos destinados a prejudicar a reputação ou a carreira de pessoas.
- Uso antiético de conteúdo: Usar a tecnologia para colocar a imagem de indivíduos em conteúdo adulto ou outro material questionável sem consentimento.
- Espionagem corporativa e manipulação de mercado: Criação de vídeos de líderes de negócios por práticas antiéticas, como negociação com informações privilegiadas.
Riscos e preocupações éticas da OmniHuman
Sugerimos alguns dos casos de uso negativos que o OmniHuman poderia ter. Acredito que a maior preocupação com o OmniHuman é seu potencial de banalizar a produção de vídeos deepfake que parecem reais, mas são completamente fabricados.
Como mencionamos, isso representa uma ameaça, por exemplo, na política, onde vídeos falsos podem ser usados para divulgar informações falsas sobre políticos ou influenciar a opinião pública durante as eleições. Por exemplo, um deepfake pode mostrar um político dizendo algo que nunca disse, causando confusão e desconfiança entre os eleitores.
No entanto, esse não é um problema específico da OmniHuman, pois isso já está acontecendo. Mas eu me preocupo com o quanto isso poderia piorar se qualquer pessoa pudesse criar um deepfake com o clique de um botão.
Uma pesquisa da Jumeouma empresa de verificação de ID, descobriu que 60% das pessoas encontraram um deepfake no ano passado, indicando que esse tipo de conteúdo está se tornando mais difundido.
A mesma pesquisa revelou que 72% dos entrevistados estavam preocupados em serem enganados por deepfakes diariamente. Isso sugere um nível significativo de preocupação entre o público quanto a ser enganado por conteúdo gerado por IA.
Este relatório da Deloitte mostra que o conteúdo gerado por IA foi vinculado a mais de US$ 12 bilhões em perdas por fraude em 2023, com projeções que sugerem que ele pode chegar a US$ 40 bilhões nos EUA até 2027. Isso ressalta os riscos financeiros associados ao uso da tecnologia deepfake em golpes.
Esses riscos exigem estruturas regulatórias robustas e ferramentas de detecção eficazes para mitigar o possível uso indevido. À medida que o OmniHuman e tecnologias semelhantes evoluem, torna-se cada vez mais essencial equilibrar a inovação com a responsabilidade, garantindo que essas ferramentas poderosas sejam utilizadas de forma consciente.
Conclusão
Supondo que os exemplos fornecidos pela equipe de pesquisa da OmniHuman não tenham sido escolhidos a dedo, essa ferramenta de geração de vídeo tem o potencial de transformar a criação de conteúdo digital em vários setores. Ao integrar vários sinais de condicionamento, como texto, áudio e pose, o OmniHuman gera vídeos altamente realistas e dinâmicos, estabelecendo um novo padrão de autenticidade e versatilidade.
No entanto, embora os recursos do OmniHuman sejam impressionantes, eles também levantam preocupações éticas e sociais significativas. A facilidade com que essa tecnologia pode criar falsificações profundas e realistas aumenta os problemas já existentes sobre desinformação, fraude e invasão de privacidade.
Aprenda IA com estes cursos!
programa
EU AI Act Fundamentals
programa
Llama Fundamentals

blog
O que é o Sora da Open AI? Como funciona, casos de uso, alternativas e muito mais
blog
ChatGPT vs Google Bard: Um guia comparativo para chatbots de IA
tutorial
Tutorial da API de assistentes da OpenAI
tutorial
AI do cursor: Um guia com 10 exemplos práticos

François Aubry
10 min
tutorial
Guia para iniciantes no uso da API do ChatGPT
tutorial