Presentan Vidu, primer modelo chino de IA de texto a vídeo a nivel de Sora

Por DIARIO DEL PUEBLO digital | el 28 de abril de 2024 | 14:30

Lanzamiento de Vidu, nuevo modelo chino de IA de texto a video, durante el Foro Zhongguancun 2024, 27 de abril del 2024. (Foto: Cortesía del Foro Zhongguancun)

Lanzamiento de Vidu, nuevo modelo chino de IA de texto a video, durante el Foro Zhongguancun 2024, 27 de abril del 2024. (Foto: Cortesía del Foro Zhongguancun)

La empresa tecnológica china ShengShu-AI y la Universidad de Tsinghua presentaron este sábado el modelo de inteligencia artificial (IA) de texto a video, del que se afirma que es el primero en China que está a nivel de Sora. Vidu es otra manifestación del rápido desarrollo de China en el campo emergente de la IA crítica.

Lanzado en el Foro Zhongguancun, que se celebra en Beijing, Vidu puede generar un videoclip de 1080P y 16 segundos con un solo clic. Se basa en una arquitectura de modelo de transformación visual de desarrollo propio llamada Universal Vision Transformer (U-ViT) que integra dos modelos de IA de texto a video de Diffusion y Transformer.

El modelo de texto a video de IA se produjo casi dos meses después de que Sora, del estadounidense OpenAI, se anunciara con gran fanfarria por todo el mundo.

"Después del lanzamiento de Sora, descubrimos que se alineaba estrechamente con nuestra hoja de ruta técnica, lo que nos motivó aún más a avanzar en nuestra investigación con determinación", indicó en el foro Zhu Jun, vicedecano del Instituto de Inteligencia Artificial de la Universidad de Tsinghua y científico jefe de ShengShu-AI.

La tecnología central de U-ViT fue propuesta por primera vez en septiembre de 2022 por el equipo de investigación de Vidu, antes que la arquitectura modelo de Sora de DiT - Diversity in Transformation, que es la primera arquitectura de modelo de transformación visual del mundo que combina las ventajas de Diffusion y Transformer.

Durante una demostración en vivo ocurrida este sábado, Vidu pudo simular el mundo físico real y generar escenas con detalles complejos en línea con las leyes físicas reales, como efectos razonables de luz y sombra y expresiones faciales delicadas. También puede generar tomas dinámicas complejas, en lugar de fijas.

Vidu también tiene un gran conocimiento de las singularidades chinas y puede generar imágenes de caracteres chinos únicos como pandas y loong.

(Web editor: Zhao Jian, 周雨)