Lernpfad
ByteDance's OmniHuman: Ein Leitfaden mit Beispielen
ByteDance, das Unternehmen, dem TikTok gehört, hat vor kurzem sein Modell zur Videogenerierung, OmniHuman, veröffentlicht . Dieses Modell kann ein Bild in ein Video mit natürlichen Bewegungsgesten verwandeln und es sogar zum Singen bringen.
In diesem Artikel werde ich OmniHuman unter die Lupe nehmen und dich durch seine Funktionen, Anwendungsfälle, seine Funktionsweise, die Unterschiede zu bestehenden Modellen und die ethischen Bedenken, die es mit sich bringt, führen.
KI-Upskilling für Einsteiger
Was ist Omnihuman?
OmniHuman ist ein Bild-zu-Video-Generierungsmodell, das realistische Videos oder Animationen auf der Grundlage eines Bildes erzeugen kann. Technisch gesehen lautet sein vollständiger Name OmniHuman-1was darauf hindeutet, dass er Teil eines längerfristigen Projekts ist, für das noch weitere Versionen entwickelt werden. Der Einfachheit halber bezeichne ich es in diesem Blog als OmniHuman.
Nach den Beispielen zu urteilen, die das Forschungsteam hinter OmniHuman anbietet, zeichnet sich das Modell dadurch aus, dass es das Subjekt so animiert, dass es sich natürlich bewegt, Gesten ausführt und sogar singt oder Instrumente spielt.
OmniHuman kann Videos mit unterschiedlichen Eingangsgrößen und Körperproportionen erstellen und unterstützt so verschiedene Arten von Aufnahmen, wie z. B. Nahaufnahmen, Halb- oder Ganzkörperaufnahmen. Es kann auch eine Lippensynchronisation mit Audio durchführen.
Beachte, dass die Eingabebilder für die meisten Videobeispiele in diesem Artikel das erste Bild des jeweiligen Videos (plus den Ton) sind. Das ist wichtig zu wissen, um eine bessere Vorstellung davon zu bekommen, wie einfach es ist, diese Videos mit OmniHuman zu erstellen.
OmniHuman Merkmale
Unterstützung für eine breite Palette von Themen
OmniHuman kann eine Vielzahl von Eingaben verarbeiten, die über menschliche Figuren hinausgehen. Dazu gehören Cartoons, künstliche Objekte, Tiere und sogar knifflige Posen, die eine Herausforderung für herkömmliche Videoerstellungswerkzeuge darstellen.
OmniHuman unterstützt auch mehrere Seitenverhältnisse, was bei Modellen zur Videogenerierung manchmal eine Einschränkung ist. Das Video oben hat ein Hochformat (9:16), während das Video unten ein quadratisches Seitenverhältnis (1:1) hat.
Reden und Singen
Im folgenden Beispiel sehen wir einen realistischen, von der KI generierten Ted Talk. Für mich ist es unglaublich, dass dies aus einem einzigen Bild entstanden ist. Die Körperbewegungen sind sehr überzeugend und stimmen mit der Sprache überein.
In diesem zweiten Beispiel haben wir ein Beispiel für ein singendes Subjekt. Dieses Beispiel ist weniger überzeugend, weil die Bewegung der Gitarrenhand nicht zu dem Gitarrenlied passt.
Lippensynchronisation
Das nächste Beispiel zeigt, wie stark OmniHuman bei der Lippensynchronisation ist. Im Gegensatz zur Gitarrenhandbewegung wirkt dieses Video wirklich glaubhaft, da die Person wirklich zu singen scheint und sogar die Tonhöhe stimmt.
Das gilt auch für normales Sprechen, nicht nur für das Singen (siehe Beispiel unten). Der größte Nachteil des Videos unten ist, dass ich einige Artefakte um die Haare herum sehen kann, wenn sich das Kind bewegt. Auch die Farbe der Lippen und das Weiß der Zähne sind sehr unnatürlich und passen nicht zum Motiv.
Ganzkörper-, Halbkörper- und Nahaufnahmen
Die nächsten beiden Beispiele zeigen die Fähigkeit von OmniHuman, sowohl Halbkörper- als auch Nahaufnahmen zu erstellen. Beginnen wir mit dem Beispiel des Halbkörpers:
Und jetzt lass uns ein Video sehen, das für eine Nahaufnahme erstellt wurde:
Hände animieren
Eines der Dinge, mit denen Video- und Bilderzeugungsmodelle oft zu kämpfen haben, sind die Hände. Aus irgendeinem Grund stellen die Hände oft eine große Herausforderung für die KI dar, was zu zusätzlichen Fingern und Fehlern führt. Aus den Beispielen geht hervor, dass OmniHuman diese Probleme gut in den Griff bekommt.
Es scheint auch mit Fällen umgehen zu können, in denen ein Objekt gehalten wird:
Video fahren
Wir haben gesehen, dass OmniHuman Audio-Driving unterstützt, bei dem Audio verwendet wird, um die Videogenerierung darauf abzustimmen. OmniHuman unterstützt aber auch den Videoeingang für Videofahrten. Auf diese Weise kann es bestimmte Videoaktionen nachahmen.
Der Grund dafür, dass OmniHuman sowohl Audio- als auch Video-Driving unterstützen kann, ist die Art und Weise, wie es trainiert wurde, was wir als Nächstes untersuchen werden.
Wie erhalte ich Zugang zu OmniHuman?
Zum Zeitpunkt der Veröffentlichung dieses Artikels sind noch keine detaillierten Informationen über den Zugang zu Omnihuman verfügbar. Für offizielle Updates oder Ankündigungen zur Veröffentlichung und zu den Zugangsdaten, behalte die offiziellen Kanäle von ByteDance im Auge, wie z.B. Pressemitteilungen oder die Unternehmenswebsite. Da ByteDance Eigentümer von TikTok ist, können Updates auch auf Plattformen erscheinen, die mit dem Unternehmen verbunden sind.
Wie funktioniert OmniHuman?
OmniHuman verdankt seinen Namen der Tatsache, dass es im Gegensatz zu aktuellen Modellen mehrere Zustandssignale während der Trainingsphase integriert, was sie als Omni-Conditions-Trainingbezeichnen . Einfach ausgedrückt, beziehen sich diese Bedingungssignale auf verschiedene Arten von Informationen, die zur Erstellung eines Videos von einem Menschen verwendet werden.
Aktuelle Modelle basieren oft auf einzelnen Konditionierungssignalen, wie Audio oder Pose. Audiokonditionierte Modelle konzentrieren sich zum Beispiel auf Gesichtsausdrücke und Lippensynchronisation, während posenkonditionierte Modelle den Schwerpunkt auf Ganzkörperposen legen.
Allerdings sind nicht alle Daten perfekt auf diese spezifischen Signale abgestimmt. Das führt dazu, dass große Mengen an potenziell nützlichen Daten bei der Filterung verworfen werden, weil sie Elemente enthalten (z. B. Körperbewegungen, die bei audiobasierten Modellen nichts mit Sprache zu tun haben), die nicht in den engen Rahmen des Konditionierungssignals passen.
Stell dir vor, du versuchst, eine Animation von einer Person zu erstellen, wie in einem Videospiel oder einem Zeichentrickfilm. Damit die Animation realistisch aussieht, musst du mehr wissen als nur, wie die Person auf einem einzigen Bild aussieht. Du brauchst auch Details darüber, wie sie sich bewegen, was sie sagen und sogar die Posen, die sie einnehmen könnten.
OmniHuman kombiniert drei Arten von Bedingungen, um zu lernen, Videos zu erstellen:
- Text: Das bedeutet, dass du geschriebene Wörter oder Beschreibungen benutzt, um die Animation zu steuern. Wenn der Text zum Beispiel sagt: "Die Person winkt mit der Hand", nutzt die Animation diese Information, um die Person winken zu lassen.
- Audio: Das sind Geräusche, wie die Stimme einer Person oder Hintergrundmusik. Wenn die Person in der Animation etwas sagt, verwendet das Modell das Audio, um sicherzustellen, dass sich die Lippen richtig bewegen, damit die Worte passen.
- Pose: Dies bezieht sich auf die Position und Bewegung des Körpers der Person. Wenn du zum Beispiel eine tanzende Person animieren willst, geben dir die Posen vor, wie sich ihre Arme und Beine bewegen sollen.
Die Idee dahinter ist, dass das Modell durch die Kombination dieser verschiedenen Signale Videos erstellen kann, die sehr realistisch aussehen.
Ein weiterer Vorteil des Omni-Conditions-Trainings ist, dass das Modell im Vergleich zu anderen Modellen die Datenverschwendung reduzieren kann. Andere Modelle sind aus den folgenden Gründen nicht in der Lage, die Daten, mit denen sie trainiert wurden, vollständig zu nutzen:
- Spezifität der Konditionierungssignale: Aktuelle Modelle basieren oft auf einzelnen Konditionierungssignalen, wie Audio oder Pose. Audiokonditionierte Modelle konzentrieren sich zum Beispiel auf Gesichtsausdrücke und Lippensynchronisation, während posenkonditionierte Modelle den Schwerpunkt auf Ganzkörperposen legen. Allerdings sind nicht alle Daten perfekt auf diese spezifischen Signale abgestimmt. Das führt dazu, dass große Mengen an potenziell nützlichen Daten bei der Filterung verworfen werden, weil sie Elemente enthalten (z. B. Körperbewegungen, die bei audiobasierten Modellen nichts mit Sprache zu tun haben), die nicht in den engen Rahmen des Konditionierungssignals passen.
- Filtern und Bereinigen von Daten: Um die Trainingseffizienz und die Modellgenauigkeit zu verbessern, wenden bestehende Methoden strenge Datenfilterungs- und Bereinigungsprozesse an. Audiokonditionierte Modelle filtern die Daten zum Beispiel nach der Genauigkeit der Lippensynchronisation, während posenkonditionierte Modelle nach Sichtbarkeit und Stabilität der Pose filtern. Diese Prozesse entfernen Daten, die nützliche Bewegungsmuster und verschiedene Szenarien enthalten könnten, die für die Erweiterung der Fähigkeiten des Modells benötigt werden.
- Eingeschränkte Anwendbarkeit: Da diese Modelle auf stark kuratierten Datensätzen beruhen, sind sie nur für eine begrenzte Anzahl von Szenarien anwendbar, z. B. für nach vorne gerichtete, statische Hintergründe. Dies schränkt die Verallgemeinerungsfähigkeit der Modelle in vielfältigeren, realen Szenarien ein.
Durch die Verwendung des Omni-Conditions-Trainings kann das OmniHuman-Modell größere und vielfältigere Datensätze effektiv nutzen, was zu einer realistischeren und flexibleren Erzeugung menschlicher Videos unter einer Vielzahl von Bedingungen und Stilen führt.
Trainingsdaten für OmniHuman
Der Datensatz, der für das Training von OmniHuman kuratiert wurde, umfasst etwa 18,7.000 Stunden menschenbezogener Daten, die anhand von Kriterien ausgewählt wurden, die für die Videoerstellung wichtig sind, wie Ästhetik, Bildqualität und Bewegungsamplitude.
Von diesem riesigen Datensatz wurden 13% für das Training mit Audio- und Pose-Modalitäten ausgewählt, wobei strenge Bedingungen für die Lippensynchronität und die Sichtbarkeit der Pose gelten. Dieser zweischichtige Ansatz stellt sicher, dass nur die relevantesten Daten in das Modell einfließen, damit es in verschiedenen Szenarien effektiv arbeiten kann.
Herkömmliche Modelle wurden oft mit viel kleineren Datensätzen trainiert, die in der Regel Hunderte von Stunden oder noch weniger umfassen und sich auf bestimmte Körperteile oder Animationsarten (z. B. Gesichtsanimationen oder Ganzkörperposen) unter starren Szenenvorgaben konzentrieren. Dies schränkte die Verallgemeinerbarkeit und Anwendbarkeit dieser Modelle für verschiedene Aufgaben ein. Durch die Vermeidung übermäßiger Filterung und die Einbeziehung schwächerer Konditionierungsaufgaben zusammen mit den entsprechenden Daten mildert OmniHuman die Einschränkungen, die sich aus der ausschließlichen Abhängigkeit von stark gefilterten Datensätzen ergeben.
Im Gegensatz zu typischen End-to-End-Modellen mit nur einer Bedingung nutzt OmniHuman seine Trainingsstrategie mit mehreren Bedingungen, um mit gemischten Daten zu trainieren, und überwindet so die Herausforderungen anderer führender Arbeiten, die sich darauf konzentrierten, das Modell mit sehr speziellen Videos zu trainieren, um bestimmte Arten von Videos zu erzeugen. Diese Modelle haben nicht die Vielseitigkeit von OmniHuman.
Anwendungsfälle von OmniHuman
Sehen wir uns ein paar Anwendungsfälle an, die OmniHuman haben könnte. Wie bei allem, gibt es immer eine gute und eine schlechte Seite.
Positive Anwendungsfälle
Hier sind ein paar Beispiele für positive Anwendungsfälle von OmniHuman:
- Erstellung von Inhalten und Engagement: Diese Art von Technologie hat einen enormen Wert für TikTok und andere Social-Media-Plattformen. Ich kann mir schon vorstellen, dass OmniHuman als Funktion in TikTok implementiert wird.
- Marketing und Werbung: Personalisierte und eindringliche Werbung mit lebensechten Charakteren erstellen.
- Demokratisierung des Filmschaffens: KI macht die Videoerstellung viel einfacher. So können auch kreative Menschen, die nicht über die technischen Fähigkeiten, das Budget oder die Ausrüstung verfügen, ihre Ideen verwirklichen.
- Unterhaltung und Medien: Hollywood könnte diese Art von Technologie nutzen, um verstorbene Schauspieler/innen für neue Rollen in Filmen wiederzubeleben.
- Historische Figuren wieder zum Leben erwecken: Eines ihrer Beispiele zeigt ein Video von Einstein, der eine Rede über Kunst hält. Obwohl ich wusste, dass es nicht echt war, fühlte ich etwas, weil ich sah, wie Einstein zum Leben erwachte. Ich könnte mir vorstellen, dass dies in einer Vorlesung über die Relativitätstheorie sehr interessant sein könnte. Wir könnten uns auch vorstellen, dass ein Museum diese Art von Erlebnis mit anderen historischen Persönlichkeiten verbindet.
Negative Anwendungsfälle
Trotz der positiven Aspekte kann OmniHuman auch ein gefährliches Werkzeug sein und zu vielen Problemen führen:
- Fehlinformationen und politische Manipulation: Fälschung von Videos politischer Führer, um die Regierung zu stören oder ein Wahlchaos zu verursachen.
- Finanzieller Betrug: Fälschungen von Prominenten, um für Betrug oder betrügerische Investitionen zu werben. Vor kurzem gab es einen den Fall einer Französin die rund 850.000 Dollar durch einen Betrug mit gefälschten Prominenten verloren hat.
- Eindringen in die Privatsphäre: Unerlaubte Verwendung von persönlichen Bildern zur Erstellung von Videos ohne Zustimmung.
- Identitätsdiebstahl und Social Engineering: Sich als Personen ausgeben, um bösartige Aktivitäten oder Betrügereien durchzuführen.
- Rufschädigung und Verleumdung: Die Produktion von gefälschten Videos, die dem Ruf oder der Karriere von Personen schaden sollen.
- Unethische Nutzung von Inhalten: Die Verwendung der Technologie, um das Abbild von Personen ohne Zustimmung in nicht jugendfreien Inhalten oder anderen anstößigen Materialien zu platzieren.
- Unternehmensspionage und Marktmanipulation: Die Erstellung von Videos von Wirtschaftsführern wegen unethischer Praktiken wie Insiderhandel.
Risiken und ethische Bedenken von OmniHuman
Wir haben einige negative Anwendungsfälle vorgeschlagen, die OmniHuman haben könnte. Ich glaube, die größte Sorge bei OmniHuman ist, dass es die Produktion von Deepfake-Videos trivialisieren könnte, die echt aussehen, aber komplett gefälscht sind.
Wie wir bereits erwähnt haben, stellt dies eine Bedrohung dar, zum Beispiel in der Politik, wo gefälschte Videos genutzt werden können, um falsche Informationen über Politiker zu verbreiten oder die öffentliche Meinung bei Wahlen zu beeinflussen. Ein Deepfake könnte zum Beispiel einen Politiker zeigen, der etwas sagt, was er nie gesagt hat, was zu Verwirrung und Misstrauen bei den Wählern führt.
Das ist jedoch kein spezifisches Problem von OmniHuman, denn diese Probleme gibt es bereits. Aber ich mache mir Sorgen darüber, wie viel schlimmer es werden würde, wenn jeder mit einem Klick einen Deepfake damit erstellen könnte.
Eine Umfrage von Jumeoeinem Unternehmen für ID-Verifizierung, ergab, dass 60 % der Menschen im letzten Jahr auf einen Deepfake gestoßen sind, was darauf hindeutet, dass solche Inhalte immer weiter verbreitet sind.
Dieselbe Umfrage ergab, dass 72% der Befragten sich Sorgen machen, täglich von Deepfakes getäuscht zu werden. Das deutet darauf hin, dass die Öffentlichkeit sehr besorgt ist, von KI-generierten Inhalten getäuscht zu werden.
Dieser Bericht von Deloitte zeigt, dass KI-generierte Inhalte im Jahr 2023 mit Betrugsverlusten in Höhe von mehr als 12 Mrd. US-Dollar in Verbindung gebracht wurden, und Prognosen gehen davon aus, dass sie bis 2027 in den USA 40 Mrd. US-Dollar erreichen könnten. Dies unterstreicht die finanziellen Risiken, die mit dem Einsatz der Deepfake-Technologie in Betrugsfällen verbunden sind.
Diese Risiken erfordern einen robusten Rechtsrahmen und wirksame Aufdeckungsinstrumente, um potenziellen Missbrauch einzudämmen. Mit der Weiterentwicklung von OmniHuman und ähnlichen Technologien wird es immer wichtiger, ein Gleichgewicht zwischen Innovation und Verantwortung zu finden und sicherzustellen, dass diese mächtigen Werkzeuge gewissenhaft eingesetzt werden.
Fazit
Wenn man davon ausgeht, dass die Beispiele, die das OmniHuman-Forschungsteam geliefert hat, nicht zufällig ausgewählt wurden, hat dieses Tool zur Videogenerierung das Potenzial, die Erstellung digitaler Inhalte in verschiedenen Branchen zu verändern. Durch die Integration verschiedener Konditionierungssignale - wie Text, Audio und Pose - erzeugt OmniHuman äußerst realistische und dynamische Videos und setzt damit einen neuen Standard für Authentizität und Vielseitigkeit.
Die Fähigkeiten von OmniHuman sind zwar beeindruckend, werfen aber auch erhebliche ethische und gesellschaftliche Bedenken auf. Die Leichtigkeit, mit der diese Technologie realistische Fälschungen erstellen kann, verschärft die bereits bestehenden Probleme in Bezug auf Fehlinformationen, Betrug und Verletzung der Privatsphäre.
Lerne KI mit diesen Kursen!
Lernpfad
Grundlagen des EU-KI-Gesetzes
Lernpfad
Lama-Grundlagen
Der Blog
Top 30 Generative KI Interview Fragen und Antworten für 2024

Hesam Sheikh Hassani
15 Min.
Der Blog
Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Nisha Arya Ahmed
20 Min.

Der Blog
Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn
Der Blog
Q2 2023 DataCamp Donates Digest
Der Blog