Cursus
OmniHuman de ByteDance : Un guide avec des exemples
ByteDance, la société propriétaire de TikTok, a récemment publié son modèle de génération de vidéos, OmniHuman. Ce modèle peut transformer une image en vidéo avec des gestes naturels et même la faire chanter.
Dans cet article, j'examinerai OmniHuman et vous guiderai à travers ses caractéristiques, ses cas d'utilisation, son fonctionnement, ses différences par rapport aux modèles existants et les préoccupations éthiques qui l'entourent.
L'amélioration de l'IA pour les débutants
Qu'est-ce que l'omnihumain ?
OmniHuman est un modèle de génération d'image à vidéo qui permet de générer des vidéos ou des animations réalistes à partir d'une image. Techniquement, son nom complet est OmniHuman-1ce qui suggère qu'il fait partie d'un projet à long terme et que de futures versions sont en cours de développement. Par commodité, je l'appellerai OmniHuman tout au long de ce blog.
À en juger par les exemples proposés par l'équipe de recherche à l'origine d'OmniHuman, le modèle excelle à animer le sujet de manière à ce qu'il semble bouger naturellement, faire des gestes, voire chanter ou jouer d'un instrument.
OmniHuman peut générer des vidéos avec différentes tailles d'entrée et proportions corporelles, prenant en charge différents types de prises de vue, comme les gros plans, les demi-corps ou les corps entiers. Il peut également effectuer une synchronisation labiale avec l'audio.
Notez que les images d'entrée pour la plupart des exemples vidéo de cet article sont la première image de chaque vidéo (plus le son). Il est important de garder cela à l'esprit pour avoir une meilleure idée de la facilité avec laquelle ces vidéos peuvent être générées à l'aide d'OmniHuman.
Caractéristiques de l'OmniHuman
Soutien à un large éventail de sujets
OmniHuman peut traiter une gamme variée d'entrées au-delà des seules figures humaines. Cela inclut les dessins animés, les objets artificiels, les animaux et même les poses délicates qui peuvent mettre à l'épreuve les outils de création vidéo traditionnels.
OmniHuman prend également en charge plusieurs rapports d'aspect, ce qui constitue parfois une limitation des modèles de génération vidéo. La vidéo ci-dessus a un format portrait (9:16), tandis que la vidéo ci-dessous a un format carré (1:1).
Parler et chanter
Dans l'exemple ci-dessous, nous voyons un discours Ted réaliste généré par l'IA. Pour moi, il est insensé de penser que cela a été généré à partir d'une seule image. Les mouvements du corps sont assez convaincants et cohérents avec le discours.
Dans ce deuxième exemple, nous avons un exemple de sujet chantant. Cet exemple est moins convaincant car le mouvement de la main de la guitare ne correspond pas à la chanson.
Synchronisation des lèvres
L'exemple suivant montre vraiment à quel point OmniHuman est fort lorsqu'il s'agit de synchronisation labiale. Contrairement au mouvement de la main de la guitare, cette vidéo offre une performance vraiment crédible, car la personne semble vraiment chanter, et même être cohérente avec la hauteur de la voix.
C'est également le cas pour la parole normale, et pas seulement pour le chant (voir l'exemple ci-dessous). Le principal inconvénient de la vidéo ci-dessous est que je peux voir quelques artefacts autour des cheveux lorsque l'enfant bouge. De même, la couleur des lèvres et la blancheur des dents sont très peu naturelles et ne correspondent pas au sujet.
Corps entier, demi-corps et gros plans
Les deux exemples suivants illustrent la capacité d'OmniHuman à générer des vidéos à mi-corps ainsi que des vidéos en gros plan. Commençons par l'exemple du demi-corps :
Et maintenant, voyons une vidéo générée pour un gros plan :
Animer les mains
Les modèles de génération de vidéos et d'images ont souvent du mal à prendre en compte les mains. Pour une raison ou une autre, les mains représentent souvent un grand défi pour l'IA, ce qui se traduit par des doigts supplémentaires et des problèmes. D'après ses exemples, OmniHuman semble traiter ces problèmes de manière satisfaisante.
Il semble qu'il soit également en mesure de traiter les cas où un objet est retenu :
Conduite vidéo
Nous avons vu qu'OmniHuman prend en charge l'audio driving, c'est-à-dire que l'audio est utilisé pour guider la génération vidéo afin qu'elle corresponde à l'audio. Cependant, OmniHuman prend également en charge l'entrée vidéo pour la conduite vidéo. Il peut ainsi imiter des actions vidéo spécifiques.
La raison pour laquelle OmniHuman peut prendre en charge à la fois l'entraînement audio (rendre la vidéo cohérente avec un son donné) et l'entraînement vidéo est la manière dont il a été formé, que nous allons explorer par la suite.
Comment accéder à OmniHuman ?
Au moment de la publication de cet article, aucune information détaillée sur l'accès à Omnihuman n'est disponible. Pour des mises à jour officielles ou des annonces sur la sortie et les détails d'accès, gardez un œil sur les canaux officiels de ByteDance, tels que les communiqués de presse ou le site web de l'entreprise. En outre, comme ByteDance possède TikTok, les mises à jour peuvent également apparaître sur les plateformes associées à l'entreprise.
Comment fonctionne OmniHuman ?
OmniHuman tire son nom du fait que, contrairement aux modèles actuels, il intègre des signaux de conditions multiples pendant la phase d'entraînement, ce qu'ils appellent l'entraînement omni-conditions. En termes simples, ces signaux de condition se réfèrent à différents types d'informations qui sont utilisés pour guider la création d'une vidéo d'un être humain.
Les modèles actuels s'appuient souvent sur des signaux de conditionnement uniques, comme l'audio ou la pose. Par exemple, les modèles conditionnés par l'audio se concentrent sur les expressions faciales et la synchronisation des lèvres, tandis que les modèles conditionnés par la pose mettent l'accent sur les poses du corps entier.
Cependant, toutes les données ne sont pas parfaitement alignées sur ces signaux spécifiques. Par conséquent, de grandes quantités de données potentiellement utiles sont rejetées au cours des processus de filtrage parce qu'elles contiennent des éléments (par exemple, des mouvements corporels sans rapport avec la parole dans les modèles audio) qui ne correspondent pas au champ d'application étroit du signal de conditionnement.
Imaginez que vous essayez de créer une animation d'une personne, comme dans un jeu vidéo ou un dessin animé. Pour que l'animation soit réaliste, il ne suffit pas de savoir à quoi ressemble la personne sur une simple photo. Vous avez également besoin de détails sur la façon dont ils se déplacent, sur ce qu'ils disent et même sur les poses qu'ils peuvent prendre.
OmniHuman combine trois types de conditions pour apprendre à générer des vidéos :
- Texte : Il s'agit d'utiliser des mots ou des descriptions écrites pour guider l'animation. Par exemple, si le texte dit "La personne fait un signe de la main", l'animation utilise cette information pour que la personne fasse un signe de la main.
- Audio : Il s'agit d'un son, comme la voix d'une personne ou une musique de fond. Si la personne dans l'animation dit quelque chose, le modèle utilise l'audio pour s'assurer que ses lèvres bougent correctement pour correspondre aux mots.
- Posez : Il s'agit de la position et du mouvement du corps de la personne. Par exemple, si vous souhaitez animer une personne en train de danser, les poses fournissent un guide sur la façon dont les bras et les jambes doivent bouger.
L'idée est qu'en combinant ces différents signaux, le modèle peut créer des vidéos très réalistes.
Un autre avantage de la formation omni-conditions est que le modèle peut réduire le gaspillage de données par rapport à d'autres modèles. D'autres modèles ne sont pas en mesure de tirer pleinement parti des données utilisées pour les former pour les raisons suivantes :
- Spécificité des signaux de conditionnement : Les modèles actuels s'appuient souvent sur des signaux de conditionnement uniques, comme l'audio ou la pose. Par exemple, les modèles conditionnés par l'audio se concentrent sur les expressions faciales et la synchronisation des lèvres, tandis que les modèles conditionnés par la pose mettent l'accent sur les poses du corps entier. Cependant, toutes les données ne sont pas parfaitement alignées sur ces signaux spécifiques. Par conséquent, de grandes quantités de données potentiellement utiles sont rejetées au cours des processus de filtrage parce qu'elles contiennent des éléments (par exemple, des mouvements corporels sans rapport avec la parole dans les modèles audio) qui ne correspondent pas au champ d'application étroit du signal de conditionnement.
- Filtrage et nettoyage des données : Pour améliorer l'efficacité de la formation et la précision des modèles, les méthodes existantes appliquent des processus rigoureux de filtrage et de nettoyage des données. Par exemple, les modèles conditionnés par l'audio filtrent les données en fonction de la précision de la synchronisation des lèvres, tandis que les modèles conditionnés par la pose filtrent en fonction de la visibilité et de la stabilité de la pose. Ces processus éliminent les données qui pourraient contenir des modèles de mouvement utiles et divers scénarios nécessaires à l'extension des capacités du modèle.
- Applicabilité limitée : En raison de leur dépendance à l'égard d'ensembles de données hautement conservés, ces modèles ne sont applicables qu'à une gamme étroite de scénarios, tels que les arrière-plans statiques et orientés vers l'avant. Cela limite les capacités de généralisation des modèles dans des scénarios plus diversifiés du monde réel.
En utilisant l'entraînement multi-conditions, le modèle OmniHuman peut utiliser efficacement des ensembles de données plus vastes et plus diversifiés, ce qui permet de générer des vidéos humaines plus réalistes et plus souples dans un large éventail de conditions et de styles.
Données d'entraînement pour OmniHuman
L'ensemble de données constitué pour la formation d'OmniHuman comprend environ 18,7 000 heures de données humaines, sélectionnées à l'aide de critères essentiels pour la génération de vidéos, tels que l'esthétique, la qualité de l'image et l'amplitude du mouvement.
Sur cet énorme ensemble de données, 13 % ont été réservés à la formation avec des modalités audio et de pose, sur la base de conditions strictes de précision de la synchronisation labiale et de visibilité de la pose. Cette double approche garantit que seules les données les plus pertinentes permettent au modèle de comprendre l'animation humaine, ce qui lui permet d'être efficace dans divers scénarios.
Les modèles traditionnels ont souvent été formés sur des ensembles de données beaucoup plus petits, impliquant généralement des centaines d'heures, voire moins, et se concentrant étroitement sur des parties du corps ou des types d'animation spécifiques (par exemple, des animations faciales ou des poses du corps entier) dans le cadre de contraintes de scène rigides. Cela a limité la généralisation et l'applicabilité de ces modèles à différentes tâches. En évitant un filtrage excessif et en adoptant des tâches de conditionnement plus faibles ainsi que leurs données respectives, OmniHuman atténue les limites imposées par la dépendance exclusive à l'égard d'ensembles de données hautement filtrés.
En outre, contrairement aux modèles typiques de bout en bout à condition unique, OmniHuman utilise sa stratégie de formation omni-conditions pour utiliser la formation de données mixtes, surmontant ainsi les défis inhérents observés dans d'autres travaux de pointe qui se sont concentrés sur l'utilisation de vidéos très spécialisées pour former le modèle à générer des types de vidéos spécifiques. Ces modèles ne présentent pas la polyvalence de OmniHuman.
Cas d'utilisation d'OmniHuman
Examinons quelques-uns des cas d'utilisation possibles d'OmniHuman. Comme pour toute chose, il y a toujours un bon et un mauvais côté.
Cas d'utilisation positifs
Voici quelques exemples de cas d'utilisation positive d'OmniHuman :
- Création de contenu et engagement : Ce type de technologie présente un intérêt considérable pour TikTok et d'autres plateformes de médias sociaux. Je vois déjà OmniHuman mis en œuvre comme une fonctionnalité dans TikTok.
- Marketing et publicité : Créer des publicités personnalisées et immersives avec des personnages réalistes.
- Démocratisation de la création cinématographique : L'IA facilite grandement la création de vidéos. Cela permettra aux personnes créatives qui ne disposent pas des compétences techniques, du budget ou de l'équipement nécessaires de donner vie à leurs idées.
- Divertissement et médias : Hollywood pourrait utiliser ce type de technologie pour redonner vie à des acteurs décédés afin qu'ils jouent de nouveaux rôles dans des films.
- Redonner vie à des personnages historiques : L'un de leurs exemples montre une vidéo d'Einstein prononçant un discours sur l'art. Même si je savais que ce n'était pas réel, j'ai ressenti quelque chose en voyant Einstein prendre vie. Je pense que ce livre pourrait être très intéressant s'il était utilisé dans le cadre d'un cours sur la théorie de la relativité. On pourrait également imaginer qu'un musée ajoute ce type d'expérience avec d'autres personnages historiques.
Cas d'utilisation négatifs
Malgré les aspects positifs, l'OmniHuman peut également être un outil dangereux et entraîner de nombreux problèmes :
- Désinformation et manipulation politique : Fabriquer des vidéos de dirigeants politiques pour provoquer des perturbations gouvernementales ou un chaos électoral.
- Fraude financière : Créer de fausses approbations de célébrités pour promouvoir des escroqueries ou des investissements frauduleux. Il y a eu récemment le cas d'une femme française qui a perdu environ 850 000 dollars à cause d'une fausse escroquerie à la célébrité.
- Atteinte à la vie privée : Utilisation non autorisée d'images personnelles pour créer des vidéos sans consentement.
- Usurpation d'identité et ingénierie sociale : usurper l'identité d'une personne pour mener des activités malveillantes ou des escroqueries.
- Atteinte à la réputation et diffamation : Produire de fausses vidéos destinées à nuire à la réputation ou à la carrière d'une personne.
- Utilisation non éthique du contenu : L'utilisation de la technologie pour placer l'image de personnes dans des contenus pour adultes ou d'autres contenus répréhensibles sans leur consentement.
- Espionnage d'entreprise et manipulation des marchés : Créer des vidéos de chefs d'entreprise pour des pratiques contraires à l'éthique comme le délit d'initié.
Risques et préoccupations éthiques de l'OmniHuman
Nous avons suggéré certains des cas d'utilisation négatifs que l'OmniHuman pourrait avoir. Je pense que la plus grande inquiétude que suscite OmniHuman est sa capacité à banaliser la production de vidéos "deepfake" qui semblent réelles mais qui sont complètement fabriquées.
Comme nous l'avons mentionné, cela constitue une menace, par exemple dans le domaine politique, où de fausses vidéos peuvent être utilisées pour diffuser de fausses informations sur des hommes politiques ou influencer l'opinion publique pendant les élections. Par exemple, un deepfake peut montrer un homme politique disant quelque chose qu'il n'a jamais dit, ce qui crée de la confusion et de la méfiance parmi les électeurs.
Toutefois, il ne s'agit pas d'un problème spécifique à OmniHuman, car ces problèmes se posent déjà. Mais je m'inquiète de l'aggravation de la situation si n'importe qui pouvait créer un "deepfake" en cliquant sur un bouton.
Une enquête réalisée par Jumeoune société spécialisée dans la vérification d'identité, a révélé que 60 % des personnes ont été confrontées à un deepfake au cours de l'année écoulée, ce qui indique que ce type de contenu est de plus en plus répandu.
La même enquête a révélé que 72 % des personnes interrogées craignaient d'être dupées quotidiennement par des "deepfakes". Cela montre que le public est très préoccupé par la possibilité d'être trompé par des contenus générés par l'IA.
Ce rapport de Deloitte montre que le contenu généré par l'IA était lié à plus de 12 milliards de dollars de pertes dues à la fraude en 2023, avec des projections suggérant qu'il pourrait atteindre 40 milliards de dollars aux États-Unis d'ici 2027. Cela souligne les risques financiers associés à l'utilisation de la technologie deepfake dans les escroqueries.
Ces risques exigent des cadres réglementaires solides et des outils de détection efficaces pour limiter les abus potentiels. À mesure que l'OmniHuman et les technologies similaires évoluent, il devient de plus en plus essentiel d'équilibrer l'innovation et la responsabilité, en veillant à ce que ces outils puissants soient utilisés de manière consciencieuse.
Conclusion
En supposant que les exemples fournis par l'équipe de recherche d'OmniHuman n'aient pas été choisis à la légère, cet outil de génération de vidéos a le potentiel de transformer la création de contenu numérique dans divers secteurs d'activité. En intégrant de multiples signaux de conditionnement - tels que le texte, l'audio et la pose - OmniHuman génère des vidéos extrêmement réalistes et dynamiques, établissant une nouvelle norme en matière d'authenticité et de polyvalence.
Cependant, si les capacités de l'OmniHuman sont impressionnantes, elles soulèvent également d'importantes questions éthiques et sociétales. La facilité avec laquelle cette technologie permet de créer des contrefaçons profondes et réalistes alimente les problèmes déjà existants en matière de désinformation, de fraude et d'atteinte à la vie privée.
Apprenez l'IA avec ces cours !
Cursus
Principes de la loi européenne sur l'IA
Cursus