Comprender no sólo qué objetos hay en una imagen en movimiento sino qué está sucediendo y aplicar ese conocimiento a otros contenidos similares sería un gran avance para la tecnología, con múltiples aplicaciones prácticas como la conducción autónoma y el cuidado de las personas mayores
La capacidad de un ordenador de reconocer un gato o un pato dentro de una imagen fija es bastante impresionante. Pero la inteligencia artificial (IA) debe abordar un reto aún más complicado: entender cuándo el gato está montado sobre una Roomba y persiguiendo al pato alrededor de una cocina, como se ve en este vídeo.
Esta semana, el Instituto Tecnológico de Massachusetts (MIT, EEUU) e IBM han publicado un gran conjunto de datos de videoclips minuciosamente etiquetados con detalles de la acción que se está llevando a cabo. El conjunto de datos, llamado Moments in Time, incluye fragmentos de tres segundos de todo tipo de cosas, desde la pesca hasta el break dance.
"En el mundo muchas cosas cambian de un segundo a otro", señala la investigadora principal del MIT involucrada en el proyecto Aude Oliva. La responsable añade: "Si quieres entender por qué algo está sucediendo, el movimiento te proporciona mucha información que no puedes captar en un solo fotograma".
El auge actual de la inteligencia artificial (IA) se debe, en parte, al logro de haber podido enseñar a los ordenadores a reconocer los contenidos de imágenes estáticas a través de redes neuronales profundas entrenadas con grandes conjuntos de datos (ver Que los ordenadores reconozcan los objetos mejor que tú es cuestión de tiempo). Los sistemas de IA que actualmente interpretan contenido en vídeo, incluidos los sistemas de algunos coches autónomos, a menudo se basan en identificar objetos en imágenes estáticas en lugar de interpretar acciones (ver Esta imagen vale más que mil palabras para analizar los riesgos de la conducción autónoma). El lunes, Google lanzó una herramienta capaz de reconocer los objetos en imágenes de vídeo como parte de su servicio Cloud Platform, que ya incluye herramientas de inteligencia artificial para procesar imágenes, audio y texto.
Vídeo: Esto muestra las áreas de los fotogramas de vídeo en las que se está centrando una red neuronal para reconocer el evento en el vídeo.
El siguiente reto podría consistir en que las máquinas no sólo entiendan los elementos que aparecen en un vídeo sino también qué está sucediendo. Eso podría tener algunos beneficios prácticos, que tal vez conduzcan a nuevas y potentes formas de buscar, anotar y minar secuencias de vídeo. También promete dotar a los robots y coches autónomos una mejor comprensión de cómo se desarrolla el mundo a su alrededor.
El proyecto MIT-IBM no es el único. Ya hay varios conjuntos de datos de video diseñados para estimular los progresos del entrenamiento de las máquinas para comprender las acciones en el mundo físico. El año pasado, por ejemplo, Google lanzó un conjunto de ocho millones de vídeos de YouTube etiquetados llamados YouTube-8M. Y Facebook está desarrollando un conjunto de datos etiquedados de acciones de vídeo llamado Scenes, Actions and Objects (escenas, acciones y objetos).
La profesora adjunta de la Universidad de Princeton (EEUU) Olga Russakovsky, especializada en visión artificial, explica que generar datos de vídeo útiles es más complicado que con imágenes físicas debido a las mayores necesidades de almacenamiento y procesamiento computacional. La experta añade: "Me emociona poder jugar con esta nueva información. Creo que la duración de tres segundos es excelente: proporciona un contexto temporal a la vez que mantiene bajos los requisitos de almacenamiento y computación".
Otros están adoptando un enfoque más creativo. Twenty Billion Neurons, una start-up con sedes en Toronto (Canadá) y Berlín (Alemania), ha creado un conjunto de datos personalizado mediante crowdsourcing con voluntarios que han recibido ingresos para ejecutar tareas sencillas. El cofundador de la compañía Roland Memisevic añade que también usa una red neuronal diseñada específicamente para procesar datos de visión.
El responsable detalla: "Las redes entrenadas con otros conjuntos de datos pueden indicar si el vídeo muestra un partido de fútbol o una fiesta. Las nuestras son capaces de identificar si alguien acaba de entrar en la habitación".
El investigador de IBM Danny Gutfreund, que colaboró en el proyecto, dice que reconocer acciones con eficacia requerirá que las máquinas aprendan a distinguir cosas como una persona que realiza una acción, y sean capaces de aplicar ese conocimiento para identificar, por ejemplo, a un animal que realiza la misma acción. El progreso en esta área, conocido como aprendizaje de transferencia, será importante para el futuro de la inteligencia artificial. El responsable detalla: "Veamos cómo las máquinas pueden hacer este aprendizaje de transferencia, esta analogía, que nosotros hacemos muy bien".
Y añade que la tecnología podría tener varias aplicaciones prácticas. Según Gutfreund, "podría utilizarse para el cuidado de personas mayores, y para indicar si alguien se ha caído o si ha tomado su medicamento. También podrían integrarse en dispositivos de ayuda para las personas ciegas".