META AI

Inteligencia Artificial

Meta sube la apuesta de la IA artista con un modelo que genera vídeos

Make-A-Video, capaz de crear imágenes en movimiento a partir de un texto, supone un gran avance en la IA generativa, pero plantea algunas complicadas cuestiones éticas

por Melissa Heikkilä | traducido por Ana Milutinovic
04 Octubre, 2022

Meta presentó la semana pasada un sistema de inteligencia artificial (IA) que genera vídeos cortos basándose en indicaciones de texto.

Make-A-Video permite escribir una serie de palabras, como "Un perro vestido con un traje de superhéroe con una capa roja volando por el cielo", y luego genera un clip de cinco segundos que, aun siendo bastante preciso, tiene la estética de un vídeo casero.

Aunque el efecto es bastante simple, el sistema ofrece una primera muestra de lo que viene en inteligencia artificial generativa y era evidente que era el siguiente paso que podían dar los sistemas de IA de generación de imágenes a partir de texto, que tanto entusiasmo han producido este año.

El anuncio de Make-A-Video, que aún no está disponible para todo el público, realizado por Meta incitará, con probabilidad, que otros laboratorios de IA lancen sus propias versiones. Pero también plantea algunas grandes cuestiones éticas.

En el mes pasado, el laboratorio de IA OpenAI puso a disposición de todo el mundo su último sistema de IA de creación de imagen a partir de texto, DALL-E, y la start-up Stability.AI lanzó, por su parte, Stable Diffusion, de código abierto.

Pero la IA de creación de vídeo a partir de texto todavía presenta enormes desafíos. Por un lado, estos modelos necesitan una gran cantidad de potencia computacional. Generan un gasto aún mayor que el de los grandes modelos de IA de creación de imagen a partir de texto, que usan millones de imágenes para entrenarse, porque crear un solo vídeo corto requiere cientos de imágenes. Eso significa que en realidad solo las grandes empresas de tecnología se pueden permitir construir estos sistemas en el futuro previsible. Al mismo tiempo, estos nuevos modelos son más complicados de entrenar, ya que los conjuntos de datos agregados que se precisan (vídeos de alta calidad combinados con descripciones de texto) no existen en la escala necesaria.

Para solucionar este problema, Meta combinó tres conjuntos de datos de imágenes y vídeos de código abierto para entrenar su modelo. Primero, los datos estandarizados a partir de imágenes basadas en el texto y de imágenes fijas etiquetadas ayudaron a la IA a aprender el nombre de los objetos y su aspecto. Después, una base de datos de vídeos lo ayudó a aprender cómo se supone que esos objetos se mueven en el mundo. La combinación de ambos enfoques ayuda a que Make-A-Video pueda generar vídeos a partir de imágenes dentro de la escala requerida. Este enfoque ha sido recientemente descrito en un artículo no revisado por pares.

El científico investigador de visión artificial del Instituto Allen de Inteligencia Artificial Tanmay Gupta cree que los resultados de Meta son prometedores. Los vídeos compartidos muestran que el modelo puede capturar formas 3D a medida que gira la cámara. El modelo también tiene cierta noción de profundidad y comprensión de la iluminación. Gupta indica que algunos detalles y movimientos están hechos correctamente y son convincentes.

Vídeo: Una pareja joven caminando bajo una fuerte lluvia. Autor: META AI

Sin embargo, "hay mucho espacio para que la comunidad de investigación lo mejore, especialmente si estos sistemas se van a utilizar para la edición de vídeos y la creación de contenido profesional", añade Gupta. En concreto, todavía resulta difícil modelar las interacciones complejas entre distintos objetos.

En el vídeo generado por el mensaje "El pincel de un artista pintando sobre un lienzo", el pincel se mueve sobre el lienzo, pero los trazos en el lienzo no son realistas. "Me encantaría ver que estos modelos lograran generar una secuencia de interacciones, como 'El hombre coge un libro de la estantería, se pone las gafas y se sienta a leerlo mientras toma café'", señala Gupta.

Vídeo: "El pincel de un artista pintando sobre un lienzo" / Autor: META AI

Por su parte, Meta promete que esta tecnología servirá para "abrir nuevas oportunidades para los creadores y artistas". Pero a medida que la tecnología se desarrolle, también lo hará el temor de que se aproveche como una poderosa herramienta para crear y difundir desinformación y deepfakes. Puede que sea aún más difícil diferenciar entre el contenido real y falso online.

El modelo de Meta aumenta las apuestas para la IA generativa tanto técnica como creativamente, pero también "en cuanto los daños específicos que se podrían causar a través del vídeo generado en vez de las imágenes fijas", opina Henry Ajder, experto en contenido multimedia virtual.

"Al menos hoy en día, la creación de contenido inexacto en el que la gente pueda creer requiere un poco de esfuerzo", resalta Gupta. "En el futuro, podría ser posible crear contenido engañoso con unas pocas indicaciones".

Los investigadores que crearon Make-A-Video filtraron y dejaron fuera las imágenes y palabras ofensivas, pero con los conjuntos de datos que constan de millones de palabras e imágenes, es casi imposible eliminar por completo el contenido sesgado y dañino.

Un portavoz de Meta explica que aún no están poniendo el modelo a disposición del público y que "como parte de esta investigación, seguiremos explorando formas de perfeccionar y mitigar el posible peligro".

Inteligencia Artificial

Meta sube la apuesta de la IA artista con un modelo que genera vídeos

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025