programa
ByteDance's OmniHuman: Una guía con ejemplos
ByteDance, la empresa propietaria de TikTok, ha publicado recientemente su modelo de generación de vídeo, OmniHuman. Este modelo puede convertir una imagen en un vídeo con gestos de movimiento natural e incluso hacerla cantar.
En este artículo, examinaré OmniHuman y te guiaré a través de sus características, casos de uso, cómo funciona, en qué se diferencia de los modelos existentes y las preocupaciones éticas que lo rodean.
Perfeccionamiento en IA para principiantes
¿Qué es el Omnihombre?
OmniHuman es un modelo de generación de imagen a vídeo que puede generar vídeos o animaciones realistas a partir de una imagen. Técnicamente, su nombre completo es OmniHumano-1lo que sugiere que forma parte de un proyecto a más largo plazo con futuras versiones en desarrollo. Por comodidad, me referiré a ella como OmniHumano a lo largo de este blog.
A juzgar por los ejemplos ofrecidos por el equipo de investigación que está detrás de OmniHuman, el modelo destaca por animar al sujeto de forma que parezca moverse con naturalidad, realizar gestos e incluso cantar o tocar instrumentos.
OmniHuman puede generar vídeos con diferentes tamaños de entrada y proporciones corporales, admitiendo varios tipos de planos, como primeros planos, medio cuerpo o cuerpo entero. También puede realizar sincronización labial con audio.
Ten en cuenta que las imágenes de entrada para la mayoría de los ejemplos de vídeo de este artículo son el primer fotograma de cada vídeo (más el audio). Es importante tener esto en cuenta para hacerse una mejor idea de lo fácil que es generar estos vídeos con OmniHuman.
Características de OmniHuman
Apoyo a una amplia gama de asignaturas
OmniHuman puede manejar una amplia gama de entradas, más allá de las meras figuras humanas. Esto incluye dibujos animados, objetos artificiales, animales e incluso esas poses difíciles que pueden desafiar a las herramientas tradicionales de creación de vídeo.
OmniHuman también admite múltiples relaciones de aspecto, lo que a veces es una limitación de los modelos de generación de vídeo. El vídeo de arriba tiene una relación de aspecto vertical (9:16), mientras que el de abajo tiene una relación de aspecto cuadrada (1:1).
Hablar y cantar
En el ejemplo siguiente, vemos una charla Ted realista generada por IA. Para mí, es descabellado pensar que esto se generó a partir de una sola imagen. Los movimientos corporales son bastante convincentes y coherentes con el discurso.
En este segundo ejemplo, tenemos un sujeto que canta. Este ejemplo es menos convincente porque el movimiento de la mano de la guitarra no coincide con la canción de guitarra.
Sincronización labial
El siguiente ejemplo muestra realmente lo fuerte que es OmniHuman cuando se trata de sincronización labial. A diferencia del movimiento de la mano de la guitarra, este vídeo ofrece una actuación realmente creíble, ya que la persona parece estar cantando de verdad, incluso siendo coherente con el tono.
Esto también ocurre con el habla normal, no sólo con el canto (véase el ejemplo siguiente). El principal inconveniente del vídeo de abajo es que puedo ver algunos artefactos alrededor del pelo cuando el niño se mueve. Además, el color de los labios y la blancura de los dientes son muy poco naturales y no concuerdan con el sujeto.
Cuerpo entero, medio cuerpo y primeros planos
Los dos ejemplos siguientes muestran la capacidad de OmniHuman para generar vídeos de medio cuerpo y de primer plano. Empecemos con el ejemplo de medio cuerpo:
Y ahora, veamos un vídeo generado para un primer plano:
Manos animadas
Una de las cosas con las que suelen tener problemas los modelos de generación de vídeo e imágenes son las manos. Por alguna razón, las manos suelen suponer un gran reto para la IA, lo que da lugar a dedos de más y fallos. Por sus ejemplos, OmniHuman parece tratarlos bastante bien.
Parece que también puede manejar casos en los que se retiene un objeto:
Conducción en vídeo
Hemos visto que OmniHuman admite la conducción de audio, en la que el audio se utiliza para guiar la generación de vídeo para que coincida con él. Sin embargo, OmniHuman también admite la entrada de vídeo para la conducción por vídeo. De este modo, puede imitar acciones de vídeo específicas.
La razón por la que OmniHuman puede soportar tanto la conducción de audio (hacer que el vídeo sea coherente con un audio dado) como la conducción de vídeo es la forma en que fue entrenado, que exploraremos a continuación.
¿Cómo acceder a OmniHuman?
En el momento de publicar este artículo, no se dispone de información detallada sobre el acceso a Omnihuman. Para actualizaciones o anuncios oficiales sobre el lanzamiento y los detalles de acceso, permanece atento a los canales oficiales de ByteDance, como los comunicados de prensa o su sitio web corporativo. Además, como ByteDance es propietaria de TikTok, las actualizaciones también podrían aparecer en plataformas asociadas a la empresa.
¿Cómo funciona OmniHuman?
OmniHuman recibe su nombre del hecho de que, contrariamente a los modelos actuales, integra múltiples señales de condiciones durante la fase de entrenamiento, lo que denominan entrenamiento omni-condicional. En términos sencillos, estas señales de estado se refieren a distintos tipos de información que se utilizan para guiar la creación de un vídeo de un ser humano.
Los modelos actuales suelen basarse en señales condicionantes únicas, como el audio o la pose. Por ejemplo, los modelos condicionados por el audio se centran en las expresiones faciales y la sincronización labial, mientras que los condicionados por la pose hacen hincapié en las poses de cuerpo entero.
Sin embargo, no todos los datos están perfectamente alineados con estas señales específicas. Como resultado, grandes cantidades de datos potencialmente útiles se descartan durante los procesos de filtrado porque contienen elementos (por ejemplo, movimientos corporales no relacionados con el habla en los modelos basados en audio) que no encajan en el estrecho ámbito de la señal condicionante.
Imagina que intentas crear una animación de una persona, como en un videojuego o en un dibujo animado. Para que la animación parezca realista, necesitas saber algo más que el aspecto de la persona en una sola foto. También necesitas detalles sobre cómo se mueven, lo que dicen e incluso las poses que pueden adoptar.
OmniHuman combina tres tipos de condiciones para aprender a generar vídeos:
- Texto: Esto significa utilizar palabras escritas o descripciones para ayudar a guiar la animación. Por ejemplo, si el texto dice: "La persona está agitando la mano", la animación utiliza esta información para hacer que la persona agite la mano.
- Audio: Esto es sonido, como la voz de alguien o música de fondo. Si la persona de la animación está diciendo algo, el modelo utiliza el audio para asegurarse de que sus labios se mueven correctamente para coincidir con las palabras.
- Posa: Se refiere a la posición y el movimiento del cuerpo de la persona. Por ejemplo, si quieres animar a alguien bailando, las poses proporcionan una guía de cómo deben moverse sus brazos y piernas.
La idea es que, combinando estas señales diferentes, el modelo pueda crear vídeos con un aspecto muy realista.
Otra ventaja del entrenamiento omnicanal es que el modelo puede reducir el desperdicio de datos en comparación con otros modelos. Otros modelos no son capaces de aprovechar plenamente los datos que se utilizan para entrenarlos por las siguientes razones:
- Especificidad de las señales condicionantes: Los modelos actuales suelen basarse en señales condicionantes únicas, como el audio o la pose. Por ejemplo, los modelos condicionados por el audio se centran en las expresiones faciales y la sincronización labial, mientras que los condicionados por la pose hacen hincapié en las poses de cuerpo entero. Sin embargo, no todos los datos están perfectamente alineados con estas señales específicas. Como resultado, grandes cantidades de datos potencialmente útiles se descartan durante los procesos de filtrado porque contienen elementos (por ejemplo, movimientos corporales no relacionados con el habla en los modelos basados en audio) que no encajan en el estrecho ámbito de la señal condicionante.
- Filtrado y limpieza de datos: Para mejorar la eficacia del entrenamiento y la precisión del modelo, los métodos existentes aplican rigurosos procesos de filtrado y limpieza de datos. Por ejemplo, los modelos condicionados por el audio filtran los datos en función de la precisión de la sincronización labial, mientras que los modelos condicionados por la pose filtran en función de la visibilidad y la estabilidad de la pose. Estos procesos eliminan datos que podrían contener patrones de movimiento útiles y diversos escenarios necesarios para ampliar las capacidades del modelo.
- Aplicabilidad limitada: Debido a su dependencia de conjuntos de datos muy curados, estos modelos sólo son aplicables a un estrecho abanico de escenarios, como los fondos estáticos de frente. Esto restringe la capacidad de generalización de los modelos en escenarios más diversos del mundo real.
Al utilizar el entrenamiento en omnicondiciones, el modelo OmniHuman puede utilizar eficazmente conjuntos de datos más amplios y diversos, lo que da como resultado una generación de vídeo humano más realista y flexible en una amplia gama de condiciones y estilos.
Datos de entrenamiento para OmniHuman
El conjunto de datos curado para entrenar a OmniHuman comprende aproximadamente 18,7K horas de datos relacionados con humanos, seleccionados utilizando criterios esenciales para la generación de vídeos, como la estética, la calidad de la imagen y la amplitud del movimiento.
De este enorme conjunto de datos, el 13% se destinó al entrenamiento con las modalidades de audio y pose, basándose en estrictas condiciones de precisión de la sincronización labial y visibilidad de la pose. Este enfoque de doble capa garantiza que sólo los datos más relevantes informan la comprensión del modelo de animación humana, permitiéndole actuar con eficacia en diversos escenarios.
Los modelos tradicionales se han entrenado a menudo en conjuntos de datos mucho más pequeños, que suelen implicar cientos de horas o incluso menos, centrándose estrictamente en partes concretas del cuerpo o en tipos de animación (por ejemplo, animaciones faciales o poses de cuerpo entero) bajo restricciones rígidas de la escena. Esto limitó la generalizabilidad y aplicabilidad de estos modelos en diferentes tareas. Al evitar el filtrado excesivo y adoptar tareas de condicionamiento más débiles junto con sus datos respectivos, OmniHuman mitiga las limitaciones impuestas por la dependencia exclusiva de conjuntos de datos muy filtrados.
Además, a diferencia de los modelos típicos de una sola condición, OmniHuman emplea su estrategia de entrenamiento de omni-condiciones para utilizar el entrenamiento de datos mixtos, superando así los retos inherentes observados en otros trabajos punteros que se centraban en utilizar vídeos muy especializados para entrenar al modelo a generar tipos específicos de vídeos. Estos modelos no presentan la versatilidad de OmniHumano.
Casos de uso de OmniHuman
Exploremos algunos de los casos de uso que podría tener OmniHuman. Como en todo, siempre hay un lado bueno y uno malo.
Casos de uso positivos
He aquí algunos ejemplos de casos de uso positivo de OmniHuman:
- Creación de contenidos y compromiso: Este tipo de tecnología tiene un enorme valor para TikTok y otras plataformas de medios sociales. Ya puedo ver OmniHuman implementado como una función en TikTok.
- Marketing y publicidad: Crear anuncios personalizados e inmersivos con personajes realistas.
- Democratización de la creación cinematográfica: La IA facilita mucho la creación de vídeos. Esto permitirá a las personas creativas que carecen de conocimientos técnicos, presupuesto o equipo dar vida a sus ideas.
- Entretenimiento y medios de comunicación: Hollywood podría utilizar este tipo de tecnología para revivir a actores fallecidos para nuevos papeles en películas.
- Devuelve la vida a los personajes históricos: Uno de sus ejemplos muestra un vídeo de Einstein pronunciando un discurso sobre el arte. Aunque sabía que no era real, sentí algo al ver a Einstein cobrar vida. Podría ser muy atractivo si se utilizara en una clase sobre la Teoría de la Relatividad. También podríamos imaginar un museo que añadiera este tipo de experiencia con otras figuras históricas.
Casos de uso negativos
A pesar de los aspectos positivos, OmniHuman también puede ser una herramienta peligrosa y puede acarrear muchos problemas:
- Desinformación y manipulación política: Fabricar vídeos de dirigentes políticos para provocar la desorganización gubernamental o el caos electoral.
- Fraude financiero: Crear apoyos falsos de famosos para promocionar estafas o inversiones fraudulentas. Recientemente ha habido el caso de una mujer francesa que perdió unos 850.000 dólares a causa de una estafa de famosos "deepfake".
- Invasión de la intimidad: Uso no autorizado de imágenes personales para crear vídeos sin consentimiento.
- Robo de identidad e ingeniería social: Hacerse pasar por otras personas para realizar actividades maliciosas o estafas.
- Daños a la reputación y difamación: Producir vídeos falsos destinados a dañar la reputación o la carrera de las personas.
- Uso poco ético de los contenidos: Utilizar la tecnología para colocar imágenes de personas en contenido para adultos u otro material censurable sin consentimiento.
- Espionaje empresarial y manipulación del mercado: Creación de vídeos de líderes empresariales por prácticas poco éticas, como el uso de información privilegiada.
Riesgos y problemas éticos de OmniHuman
Sugerimos algunos de los casos de uso negativos que podría tener OmniHuman. Creo que lo que más preocupa de OmniHuman es su potencial para trivializar la producción de vídeos deepfake que parecen reales pero son completamente inventados.
Como hemos mencionado, esto supone una amenaza, por ejemplo, en política, donde los vídeos falsos pueden utilizarse para difundir información falsa sobre los políticos o influir en la opinión pública durante las elecciones. Por ejemplo, un deepfake podría mostrar a un político diciendo algo que nunca dijo, lo que provocaría confusión y desconfianza entre los votantes.
Sin embargo, no se trata de un problema específico de OmniHuman, pues ya se están produciendo. Pero me preocupa lo mucho que empeoraría si cualquiera pudiera crear un deepfake con sólo pulsar un botón utilizándolo.
Una encuesta de Jumeouna empresa de verificación de identidad, descubrió que el 60% de las personas se encontraron con un deepfake el año pasado, lo que indica que este tipo de contenido está cada vez más extendido.
La misma encuesta reveló que al 72% de los encuestados les preocupaba ser engañados a diario por deepfakes. Esto sugiere un nivel significativo de preocupación entre el público por ser engañado por contenidos generados por IA.
Este informe de Deloitte muestra que el contenido generado por IA estuvo relacionado con más de 12.000 millones de dólares en pérdidas por fraude en 2023, y las proyecciones sugieren que podría alcanzar los 40.000 millones de dólares en EE.UU. en 2027. Esto subraya los riesgos financieros asociados al uso de la tecnología deepfake en las estafas.
Estos riesgos exigen marcos normativos sólidos y herramientas de detección eficaces para mitigar los posibles usos indebidos. A medida que evolucionan las tecnologías OmniHuman y similares, se hace cada vez más crítico equilibrar la innovación con la responsabilidad, garantizando que herramientas tan poderosas se utilicen a conciencia.
Conclusión
Suponiendo que los ejemplos proporcionados por el equipo de investigación de OmniHuman no hayan sido escogidos al azar, esta herramienta de generación de vídeo tiene el potencial de transformar la creación de contenidos digitales en diversos sectores. Al integrar múltiples señales condicionantes -como texto, audio y pose- OmniHuman genera vídeos muy realistas y dinámicos, estableciendo un nuevo estándar de autenticidad y versatilidad.
Sin embargo, aunque las capacidades de OmniHuman son impresionantes, también plantean importantes problemas éticos y sociales. La facilidad con la que esta tecnología puede crear falsificaciones profundas realistas añade leña al fuego a los problemas ya existentes en torno a la desinformación, el fraude y la invasión de la privacidad.
Aprende IA con estos cursos
programa
EU AI Act Fundamentals
programa
Llama Fundamentals

blog
Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)
blog
¿Qué es Sora de OpenAI? Cómo funciona, Ejemplos, Características
tutorial
Tutorial de la API de OpenAI Assistants
tutorial
Guía para principiantes de la API de OpenAI: Tutorial práctico y prácticas recomendadas
tutorial
Cursor AI: Una guía con 10 ejemplos prácticos

François Aubry
10 min
tutorial