Un nuevo sistema de IA amplía los límites de tiempo del vídeo generativo
Tabla de contenido
En la actualidad, casi cualquiera puede crear imágenes realistas con solo unos clics gracias a la Inteligencia Artificial. Sin embargo, generar vídeos es una tarea mucho más compleja. Los modelos de IA existentes sólo son capaces de producir vídeos que funcionan durante menos de 30 segundos antes de degradarse en la aleatoriedad, con formas, colores y lógica incoherentes. El problema se denomina deriva, y los especialistas informáticos llevan años trabajando en él. En la EPFL, investigadores del laboratorio de Inteligencia Visual para el Transporte (VITA) adoptaron un enfoque novedoso: trabajar con los errores en lugar de eludirlos o ignorarlos, y han desarrollado un método de generación de vídeo que, en esencia, elimina la deriva. Su método se basa en reciclar los errores en el modelo de IA para que este aprenda de sus propios errores.
Enseñar a las máquinas a hacer cosas mal #
La deriva provoca que los videos se vuelvan cada vez más irreales a medida que avanzan. Esto ocurre porque los programas de video generativo suelen usar la imagen recién creada como punto de partida para el siguiente. Esto significa que cualquier error en esa imagen (por ejemplo, una cara borrosa o un objeto ligeramente deformado) se magnificará en la siguiente, y el error solo empeorará a medida que la secuencia continúa. “El problema es que los modelos se entrenan sólo con conjuntos de datos perfectos, pero cuando se usan en situaciones reales, necesitan saber cómo gestionar la entrada que contiene sus propios errores”, afirmó el profesor Alexandre Alahi, director del Laboratorio VITA.
El nuevo método inventado en la EPFL se denomina reentrenamiento por reciclaje de errores y ha logrado eliminar la deriva. Los investigadores empiezan con un modelo que genera un vídeo y luego miden los errores en ese vídeo (es decir, la diferencia entre las imágenes producidas y las que deberían haberse producido) según diversas métricas. Estos errores se almacenan en la memoria. La siguiente vez que se entrena el modelo, los errores se reintroducen intencionalmente en el sistema para que el modelo se vea obligado a operar en condiciones reales. Como resultado, el modelo aprende gradualmente a retomar el rumbo después de ver datos imperfectos, volviendo a imágenes nítidas y con una secuencia lógica para los humanos, incluso si la imagen inicial estaba deformada. Tras este entrenamiento, el modelo se vuelve más robusto y aprende a estabilizar los videos tras la producción de imágenes defectuosas. Para Wuyang Li, investigador postdoctoral del laboratorio, «a diferencia de los humanos, la IA generativa rara vez sabe cómo recuperarse de sus errores, lo que provoca desviaciones. Por eso, enseñamos a los modelos a hacerlo y a mantenerse estables a pesar de las imperfecciones».
SVI, disponible en código abierto, ha sido probado comparando numerosos vídeos producidos por él mismo con las mismas secuencias generadas por otro sistema de IA. Será presentado presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje de 2026 (ICLR 2026) en abril. Expertos de diversos campos, como la producción audiovisual, la animación y los videojuegos, se han interesado en la tecnología. «Tenemos cifras concretas que avalan la eficacia de nuestro sistema de IA», afirmó Li. “Nuestro trabajo fue presentado por uno de los YouTubers más importantes de la comunidad de IA y recibió más de 150 000 visualizaciones y más de 6000 votos positivos en pocas semanas. Además, nuestro repositorio de código abierto ha obtenido más de 1900 estrellas en GitHub, un sitio de alojamiento de código, lo que demuestra su impacto en la comunidad”. Asimismo, el nuevo método ayudará a los investigadores del Laboratorio VITA a diseñar sistemas autónomos más seguros, más eficaces y capaces de interactuar fluidamente con los humanos.
IA multimodal que combina vídeo, imágenes y sonido #
Los expertos de VITA Lab también utilizaron su enfoque de reciclaje de errores para desarrollar otro método, llamado LayerSync, que también presentarán en ICLR. Con este método, el modelo de IA recicla no solo sus errores visibles, sino también su lógica interna. «Algunas partes del modelo comprenden mejor el significado de las imágenes», afirmó Alahi. **“LayerSync permite que estas partes más ’expertas’ guíen a las demás durante el entrenamiento del modelo, como si este se corrigiera a sí mismo. Como resultado, el modelo aprende más rápido porque utiliza sus propias señales para supervisar el proceso, sin necesidad de datos adicionales ni modelos externos. Esto genera contenido de mejor calidad, ya sea para vídeo, imágenes o sonido.
Cita #
- El artículo New AI system pushes the time limits of generative video, con la firma de Cécilia Carron fue publicado en el sitio web de la Escuela Politécnica Federal de Lausana
- Aquí, en PlaPampa, aportamos la traducción de estos artículos para que personas interesadas en estas temáticas que sólo hablan español-castellano, puedan acceder a ellas. Es nuestra humilde donación, si se nos permite considerar así esta tarea. Como no hay fines de lucro en nuestra actitud, agradecemos a los autores de las investigaciones el permitirnos divulgarlas.