Programa
O que são Deepfakes? Exemplos, aplicativos e desafios éticos
Tenho certeza de que a maioria de nós já se deparou com deepfakes, seja na forma de memes virais ou clipes de notícias habilmente alterados. Quer você goste ou não, eles se tornaram uma parte comum do nosso cenário on-line.
Deepfakes são mídias sintéticas, como vídeos, imagens ou áudio, que são criadas ou modificadas usando inteligência artificial para imitar de forma convincente pessoas ou eventos reais. Com o avanço da IA, distinguir fato de ficção ficará mais difícil, tornando as deepfakes uma ferramenta criativa e uma ameaça à verdade e à privacidade.
Neste artigo, abordarei o assunto:
- O que são deepfakes
- A tecnologia por trás deles
- Possíveis aplicações em diferentes áreas
- Desafios éticos relacionados a deepfakes
- Possíveis maneiras de detectá-los
O que são Deepfakes?
Deepfakes são mídias geradas ou manipuladas artificialmente, criadas usando modelos de aprendizagem profunda para produzir representações altamente realistas, porém sintéticas, de pessoas, objetos ou eventos.
Embora sejam usadas com frequência para imitar rostos, vozes ou ações humanas, as técnicas de deepfake também podem gerar ou alterar objetos, cenas, animais ou até mesmo ambientes inteiros em vídeos e imagens para criar conteúdo realista, mas falso, obscurecendo a linha entre realidade e fabricação em uma ampla gama de contextos.
As origens das deepfakes podem ser rastreadas até grandes descobertas acadêmicas. Em 2014, Ian Goodfellow e seus colegas publicaram um artigo fundamental que apresentou as Redes Adversárias Generativas (GANs). Os GANs, que investigaremos na próxima seção, fornecem a base para a geração de conteúdo sintético.
Um outro marco veio com o Face2Face de 2016 de 2016, de Justus Thies e sua equipe, que se concentrou em técnicas de captura e reconstituição de rostos em tempo real. Um exemplo de seu uso é demonstrado na imagem abaixo, em que uma expressão facial é transferida para o famoso ator e político Arnold Schwarzenegger.
Exemplo da combinação de imagens de origem e destino para transferir expressões faciais usando o Face2Face. Fonte: Papel Face2Face
O fenômeno ganhou ampla atenção do público no final de 2017, quando vídeos manipulados - muitas vezes com trocas de rostos de celebridades, especialmente em conteúdo adulto - começaram a circular no Reddit, o que acabou levando as plataformas de mídia social a proibir o uso prejudicial de técnicas de deepfake.
Um dos exemplos mais reconhecidos surgiu em 2018: um vídeo viral com um presidente Barack Obama alterado digitalmente, criado pelo BuzzFeed em colaboração com Jordan Peele, que destacou o potencial da tecnologia para remodelar o discurso público.
Em 2020, os criadores de South Park, Trey Parker e Matt Stone, criaram outra peça notável de arte deepfake: o piloto da série "Sassy Justice" apresentava personagens fictícios que eram "interpretados" por deepfakes de Donald Trump e Mark Zuckerberg, entre outros.
Como funcionam as deepfakes?
Quando falamos sobre deepfakes, geralmente nos concentramos no produto final. Vamos nos aprofundar um pouco mais e tentar entender como eles são criados - vou garantir que você entenda como isso funciona, mesmo que não tenha formação técnica.
Modelos discriminativos e generativos
Os modelos discriminativos são usados para diferenciar as coisas - por exemplo, se uma imagem é real ou falsa. Eles analisam os dados e tentam prever o rótulo correto (como "real" ou "deepfake"). Exemplos de modelos comuns incluem regressão logísticaárvores de decisão, redes neurais e máquinas de vetores de suporte. Esses modelos são ótimos para tarefas como a detecção de deepfakes, pois são treinados para identificar sinais de que algo foi alterado ou manipulado.
Os modelos generativos, por outro lado, tentam entender como os dados reais funcionam para que possam criar dados novos e semelhantes. Eles aprendem com muitos exemplos reais - como fotos de rostos reais ou clipes de vozes reais - e, em seguida, usam esse conhecimento para gerar mídia falsa, mas com aparência realista. É assim que os deepfakes são feitos.
A principal diferença é a finalidade para a qual eles são usados: os modelos discriminativos detectam e os modelos generativos criam. Na tecnologia deepfake, ambos são importantes: um para criar falsificações convincentes e o outro para capturá-las.
Para saber mais sobre a diferença, confira este blog sobre modelos generativos vs. modelos discriminativos.
Redes adversárias geradoras
GANs são um tipo de IA generativa que treina um modelo generativo e um modelo discriminativo juntos. A relação entre os dois modelos é melhor descrita como uma concorrência amigável: enquanto o gerador cria conteúdo sintético, o discriminador trabalha para distinguir a mídia real da falsa. Essa rivalidade leva o gerador a aprimorar seu trabalho até que seus resultados se tornem quase indistinguíveis da mídia autêntica.
Para deepfakes, a função do modelo generativo é a de um falsificador de arte que pinta obras de arte falsificadas, enquanto o modelo discriminativo representa um crítico de arte que examina cada peça para identificar as falsificações. À medida que acumulam experiência ao serem expostos a mais e mais dados, tanto o falsificador quanto o crítico se tornam melhores em seu trabalho, resultando em reproduções cada vez mais convincentes e avaliações mais precisas.
O processo envolve o treinamento de modelos em conjuntos de dados extensos para capturar os recursos exclusivos de um indivíduo, como o tom de voz e as características faciais. Ao analisar esses dados, o sistema cria gradualmente uma representação precisa do alvo, que é usada para imitá-lo de forma convincente.
Técnicas de deepfake
As técnicas comuns de troca de faces geralmente envolvem autoencoders e redes neurais convolucionais. Essas ferramentas são treinadas em várias imagens ou quadros de vídeo de uma pessoa para aprender como é o rosto dela - seu formato, expressões e principais recursos. A IA transforma essas informações em um formato que ela pode entender, como se fosse um resumo digital do rosto da pessoa.
Em seguida, ele usa esse resumo para copiar expressões faciais de uma pessoa e aplicá-las a outra, fazendo com que a troca de rosto pareça realista.
Para a sincronização labial, as redes neurais analisam não apenas os movimentos da boca, mas também as entradas de áudio para alinhar a saída de vídeo com precisão às palavras faladas.
Eles são treinados usando conjuntos de dados rotulados, em que cada quadro de vídeo é emparelhado com um rótulo de áudio que indica o fonema falado exato, permitindo que o modelo aprenda a relação precisa entre o som e a articulação visual.
Ao analisar simultaneamente esses pares de dados e rótulos, a rede aprende a gerar saídas de vídeo em que os movimentos da boca refletem a relação aprendida.
Por fim, a clonagem de voz pode ser obtida por meio do treinamento de modelos de síntese de fala usando conjuntos de dados de áudio extensos emparelhados com as transcrições correspondentes. Esses conjuntos de dados capturam as características exclusivas da voz de um indivíduo (como tom, timbre e cadência) em um formato estruturado que os modelos podem analisar.
Ao aprender com esses dados e pares de rótulos, os modelos geram uma fala sintética que replica de perto as qualidades vocais naturais do alvo, imitando sua voz de forma convincente.
Aplicativos Deepfakes
Tenho certeza de que a maioria de nós já viu vídeos sintéticos com atores famosos ou figuras públicas em cenários bem-humorados. Mas os deepfakes podem servir a muitos outros propósitos, incluindo fins educacionais ou para melhorar a acessibilidade.
Entretenimento
Os deepfakes oferecem aos cineastas ferramentas inovadoras, permitindo que eles façam com que os atores pareçam mais jovens ou criem versões dubladas de filmes que se aproximem das performances originais.
Um exemplo notável do primeiro é "The Irishman" (2019), de Martin Scorsese, no qual Robert De Niro, Al Pacino e Joe Pesci aparecem décadas mais jovens em cenas de flashback. Dessa forma, a história pôde fluir naturalmente sem a necessidade de vários artistas interpretarem seus jovens eus. Veja uma explicação desse processo neste vídeo.
Os deepfakes também revolucionam a criação de personagens digitais, gerando avatares realistas para videogames e realidade virtual. A capacidade de projetar personagens realistas que interagem naturalmente com os usuários em ambientes digitais imersivos abre caminho para experiências de entretenimento mais interativas e personalizadas. Por exemplo, o MetaHuman Creator da Epic Games permite que os desenvolvedores criem avatares fotorrealistas que se movem e respondem de forma convincente em tempo real.
O potencial dos deepfakes para produzir conteúdo satírico também é enorme. Embora as imitações tradicionais façam parte do repertório de um comediante há muito tempo, os deepfakes introduzem um novo nível de detalhes e realismo nas imitações. Artistas como Snicklink e Kyle Dunnigan já estão explorando essa abordagem inovadora, ampliando os limites da sátira digital.
Educação e acessibilidade
Um uso recente da tecnologia deepfake foi feito pela BBC Maestro, que lançou um curso de redação com uma Agatha Christie recriada (quase 50 anos após sua morte).
Usando visuais gerados por IA e modelagem de voz com base em suas cartas, entrevistas e manuscritos, o curso oferece uma versão de Christie dando aulas com suas próprias palavras. É um exemplo claro de como a mídia generativa pode ser usada para trazer figuras históricas para ambientes educacionais contemporâneos.
Os deepfakes também prometem melhorar a acessibilidade, especialmente para pessoas com problemas de fala. O desenvolvimento de vozes sintéticas que capturam as características vocais de uma pessoa a partir de gravações pode permitir uma comunicação mais natural.
Um exemplo digno de nota é o "Projeto Revoice" que ajuda pessoas com doença do neurônio motor (que geralmente resulta na perda da fala) a preservar e recriar sua voz natural, capturando gravações de voz desde o início.
Desafios éticos e sociais das deepfakes
Qualquer discussão sobre deepfakes seria incompleta sem abordar os desafios que elas representam. Entre as preocupações mais urgentes estão as seguintes:
- Erosão da confiança
- Atividade fraudulenta
- Violações de privacidade
Os deepfakes têm o potencial de corroer a confiança do público, tornando cada vez mais difícil distinguir entre conteúdo real e manipulado. Quando informações falsas se espalham, elas podem moldar a opinião pública, prejudicar a reputação ou criar confusão em situações críticas.
Nos piores casos, os deepfakes podem ser usados como arma para desestabilizar sociedades por agentes mal-intencionados, alimentando divisões políticas ou até mesmo influenciando eleições por meio da disseminação de declarações fabricadas ou ações atribuídas a figuras públicas.
A capacidade de se passar por alguém de forma convincente por meio da tecnologia deepfake abre portas para atividades fraudulentas, como golpes financeiros ou roubo de identidade. Os criminosos cibernéticos podem usar vozes clonadas para enganar as pessoas e fazê-las transferir dinheiro ou conceder acesso a dados confidenciais. Isso gera preocupações para setores como o bancário e o de segurança cibernética, em que os métodos tradicionais de verificação podem não ser mais suficientes.
Uma das aplicações mais perturbadoras de deepfakes é a criação de conteúdo não consensual, geralmente usado para explorar ou intimidar indivíduos. As vítimas podem se ver inseridas em mídias fabricadas que prejudicam sua reputação ou invadem sua privacidade. Isso destaca uma questão ética importante, pois o uso indevido de imagens pessoais sem consentimento pode ter consequências psicológicas e profissionais de longo prazo para as pessoas afetadas.
Apesar dos riscos crescentes, as leis e regulamentações que envolvem a criação e a distribuição de deepfake permanecem obscuras em muitos países. Embora algumas jurisdições tenham introduzido legislação específica, a aplicação continua difícil devido ao rápido avanço da tecnologia. A falta de uma estrutura jurídica clara dificulta a responsabilização dos agressores e levanta questões sobre como equilibrar a liberdade de expressão com a necessidade de evitar danos.
Como detectar deepfakes
Como vimos, detectar o conteúdo original do conteúdo manipulado está se tornando uma habilidade crucial na era da IA. Vamos dar uma olhada em diferentes abordagens para diferenciá-los.
Observação humana
Embora esteja se tornando cada vez mais difícil de reconhecer, há sinais reveladores de manipulação que o olho humano pode detectar com mais ou menos facilidade. A maioria de nós já deve ter ouvido falar de imagens geradas por IA em que os humanos de repente tinham quatro ou seis dedos, mas outros sinais são mais sutis do que isso.
Nas fotos, uma dica de manipulação é o desfoque não natural ou a pixelização inconsistente ao longo das bordas de rostos ou objetos. Isso significa que o modelo não distinguiu com precisão qual pixel pertence ao rosto e qual pertence ao plano de fundo, deixando uma costura mais ou menos óbvia.
Outra pista pode ser a iluminação ou as sombras que não combinam com o ambiente ao redor, fazendo com que a imagem pareça artificialmente composta.
Imagem gerada por IA que ilustra uma incompatibilidade entre a fonte de luz e as sombras.
Nos vídeos, os problemas de iluminação podem chamar a atenção ainda mais facilmente se a direção da fonte de luz mudar abruptamente entre os quadros. Também podemos identificar padrões incomuns de piscar de olhos ou expressões faciais rígidas que parecem incompatíveis com o contexto ao redor, resultando em uma sensação sutil de "estranheza". Em alguns casos, as bordas ao redor da cabeça ou do cabelo tremem, revelando que o vídeo pode ter sido manipulado.
Métodos técnicos
A detecção de deepfakes geralmente requer uma combinação de métodos de detecção orientados por IA que analisam inconsistências em recursos faciais, movimentos e outros artefatos. Alguns exemplos de software especializado na detecção de conteúdo de mídia manipulado incluem:
- GoogleSynthID
- Truepic
- DuckDuckGoose
- Intel FakeCatcher
- Defensor da realidade
- Sensibilidade AI
- Deepware Scanner
Cada ferramenta tem uma abordagem exclusiva voltada para seu respectivo caso de uso principal. Embora todas as outras ferramentas mencionadas se concentrem na validação de conteúdo já criado, o Google SynthID e o Truepic podem ser considerados medidas preventivas para identificar conteúdo gerado por IA.
O Google SynthID incorpora marcas d'água digitais imperceptíveis marcas d'água diretamente nas imagens geradas por IA para marcar sua origem, enquanto o Truepic usa hashing criptográfico e verificação baseada em blockchain para autenticar a mídia no momento da captura.
O DuckDuckGoose, que analisa principalmente incostistências faciais, e o Intel FakeCatcher, cujo ponto forte está na detecção de sinais biológicos, como padrões de fluxo sanguíneo, ambos voltados para aplicações forenses e de pesquisa.
A diferença entre o Reality Defender, o Sensity AI e o Deepware Scanner, que usam modelos de aprendizagem profunda para diferenciar entre conteúdo real e falso, está no grupo-alvo: enquanto os dois primeiros oferecem integração com ferramentas de segurança corporativa e são adequados para missões de detecção corporativa em larga escala, o Deepware Scanner é uma ferramenta mais leve voltada para o consumidor, para usuários casuais.
Conclusão
As deepfakes representam um avanço tecnológico e um desafio ético significativo. Embora abram possibilidades interessantes em entretenimento, educação e acessibilidade, seu uso indevido pode levar a desinformação, fraude e violações de privacidade.
No futuro, podemos esperar que as deepfakes se tornem ainda mais realistas, especialmente em aplicativos de realidade virtual, enquanto as ferramentas de detecção tentarão acompanhar o ritmo das técnicas de manipulação cada vez mais sofisticadas.
Se você quiser saber mais sobre os aspectos teóricos e tecnológicos dos deepfakes, o DataCamp oferece os recursos a seguir:

Depois de construir uma base sólida em economia, direito e contabilidade em meus estudos duplos na administração financeira regional, entrei em contato com a estatística pela primeira vez em meus estudos de ciências sociais e no trabalho como tutor. Ao realizar análises empíricas quantitativas, descobri uma paixão que me levou a continuar minha jornada no belo campo da ciência de dados e a aprender ferramentas de análise como R, SQL e Python. Atualmente, estou aprimorando minhas habilidades práticas na Deutsche Telekom, onde posso receber muita experiência prática na codificação de caminhos de dados para importar, processar e analisar dados usando Python.
Aprenda IA com estes cursos!
Curso
IA generativa para empresas
Curso
Entendendo a Lei de IA da UE
blog
Os 7 principais geradores de vídeo com IA para 2024 com vídeos de exemplo
blog
IA na educação: Benefícios, desafios e considerações éticas
blog
IA na área farmacêutica: benefícios, desafios e percepções

blog
O que é um modelo generativo?

blog
O que é IA? Um guia rápido para iniciantes
Tutorial