ByteDance, la empresa matriz de TikTok, ha presentado OmniHuman-1, un nuevo modelo de inteligencia synthetic (IA) capaz de generar movies hiperrealistas y de cuerpo completo a partir de una sola imagen. Este algoritmo puede replicar los gestos, los movimientos caporales y la voz de una persona utilizando una fotografía y un contenido multimedia de referencia.
OmniHuman-1 está basado en un transformador y diversos modelos de difusión, los cuales están diseñados para agregar sonido a una imagen y difuminar ambos elementos hasta alcanzar una apariencia natural. Esta arquitectura permite a la IA analizar múltiples elementos a lo largo del tiempo y procesar tanto detalles específicos como el contexto common.
OmniHuman-1 fue entrenado con más de 19,000 horas de video mediante una técnica denominada “entrenamiento mixto de condicionamiento de movimiento multimodal”, caracterizada por combinar materiales de distinta calidad y nivel de detalle. Los ingenieros de ByteDance aseguran que este enfoque resuelve la escasez de datos y permite al modelo beneficiarse de toda la información disponible para mejorar su rendimiento. “OmniHuman-1 supera significativamente los métodos existentes, generando movies humanos extremadamente realistas basados en entradas de señales débiles, especialmente audio. Admite entradas de imágenes de cualquier relación de aspecto, ya sean retratos, imágenes de medio cuerpo o de cuerpo completo, lo que brinda resultados más realistas y de alta calidad en varios escenarios”, explican.
Las funciones de la nueva IA permiten generar un video de una persona que se mueve, habla y gesticula a partir de una pista de audio y una sola fotografía con cualquier relación de aspecto y proporción corporal (retrato, medio cuerpo, cuerpo completo). Los desarrolladores destacan que los resultados que entrega el sistema son hiperrealistas, ya que OmniHuman-1 puede replicar aspectos esenciales como el movimiento pure del individuo, la iluminación de la escena y los detalles de las texturas presentes en las imágenes.