Desarrollador chino lanza modelo multimodal que unifica video, imagen y texto

Por Xinhua | el 22 de octubre de 2024 | 08:31

La Academia de Inteligencia Artificial de Beijing (BAAI, por sus siglas en inglés) lanzó hoy lunes Emu3, un modelo de mundo multimodal que combina la comprensión y generación de modalidades de texto, imagen y video con la predicción del siguiente token.

Emu3 valida con éxito que la predicción del siguiente token puede servir como un poderoso paradigma para modelos multimodales, escalando más allá de los modelos de lenguaje y brindando un rendimiento de vanguardia en tareas multimodales, dijo Wang Zhongyuan, director de la BAAI, en un comunicado de prensa.

"Al tokenizar imágenes, texto y videos en un espacio discreto, entrenamos un solo transformador desde cero en una mezcla de secuencias multimodales", explicó Wang, y agregó que Emu3 elimina por completo la necesidad de enfoques de difusión o composición.

Emu3 supera a varios modelos de tareas específicas bien establecidos, tanto en tareas de generación como de percepción, según la BAAI, que ha abierto el código de las tecnologías y modelos clave de Emu3 a la comunidad tecnológica internacional.

Profesionales de la tecnología han dicho que ha surgido una nueva oportunidad para explorar la multimodalidad a través de una arquitectura unificada, eliminando la necesidad de combinar modelos de difusión complejos con grandes modelos de lenguaje.

"En el futuro, el modelo de mundo multimodal promoverá aplicaciones de escenarios como cerebros robóticos, conducción autónoma, diálogo multimodal e inferencia", dijo Wang.

(Web editor: 周雨, Zhao Jian)