Un tipo de software ofrece un comentario constante para facilitar las búsquedas y el análisis de las imágenes de vídeo.
Un prototipo de sistema de visión por ordenador es capaz de generar una descripción de texto en directo de las imágenes procedentes de una cámara de vigilancia. Aunque aún no está listo para su uso comercial, el sistema demuestra que el software podría facilitar las búsquedas y el análisis de vídeos y grupos de imágenes. Ha sido desarrollado por un equipo de investigadores de la Universidad de California en Los Ángeles, en colaboración con la empresa ObjectVideo de Reston, Virginia.
"Podemos observar, gracias a la existencia de YouTube y todas las otras fuentes de vídeo que nos rodean, que poder hacer búsquedas de vídeos se ha convertido en un problema importante", afirma Song-Chun Zhu, investigador principal y profesor de estadística y ciencias informáticas en UCLA.
"Casi todas las búsqueda de imágenes o vídeos aún se hacen utilizando el texto que los rodea", señala. Zhu y sus colegas de UCLA, Benjamin Yao y Gong Haifeng, han desarrollado un nuevo sistema, llamado I2t (Imagen a Texto), destinado a cambiar todo esto.
Consiste en una serie de algoritmos de visión por ordenador colocados en un sistema capaz de tomar imágenes o fotogramas de vídeo como entrada, y dar como resultado unos resúmenes de lo que las imágenes representan. "Después se pueden hacer búsquedas mediante simples búsquedas de texto, por lo que se trata de un sistema muy afín al ser humano", afirma Zhu.
El equipo utilizó el software para vigilar imágenes en colaboración con Mun Wai Lee de ObjectVideo, con el objetivo de demostrar la potencia de I2t. Sistemas como éste podrían ayudar a gestionar el cada vez mayor número de cámaras de vigilancia—en las calles y en los equipos militares, por ejemplo—haciendo que el número de personas que trabajen con las cámaras siga siendo el mismo, asegura Zhu.
La primera parte de I2t es un analizador de imagen que las descompone—lo que significa que extrae el fondo, y objetos como vehículos, árboles y personas. Algunos objetos se pueden descomponer aún más; por ejemplo, las extremidades de una persona o las ruedas de un coche se pueden separar del objeto al que pertenecen.
A continuación, se determina el sentido de esa colección de formas obtenida. "Este paso de representación del conocimiento es la parte más importante del sistema", afirma Zhu, y explica que dicho conocimiento proviene de la inteligencia humana. En 2005, Zhu creó el Instituto Lotus Hill, sin fines de lucro, en Ezhou, China, y gracias a ciertos apoyos del gobierno chino, contrató a unos 20 graduados de escuelas de bellas artes locales para trabajar a tiempo completo haciendo anotaciones en una biblioteca de imágenes y así ayudar a los sistemas de visión por ordenador. El resultado es una base de datos de más de dos millones de imágenes con objetos que han sido previamente identificados y clasificados en más de 500 categorías.
Para garantizar que los trabajadores anotan las imágenes de forma estándar, el software les guía mientras trabajan. Se utilizan versiones de los algoritmos que, en última instancia, usarán los datos finales para escoger objetos clave y que una persona los clasifique, y sugiere su clasificación en base a datos anteriores. Los objetos dentro de imágenes se clasifican en una jerarquía de categorías basadas en la base de datos WordNet de Princeton, que organiza las palabras en inglés en grupos según sus significados. "Una vez que se ha analizado la imagen utilizando ese sistema, que también incluye el significado, la trascripción al lenguaje natural no resulta demasiado complicada", afirma Zhu, que ha hecho que algunos de los datos estén disponibles de forma gratuita para otros investigadores. "Se trata de datos de alta calidad y esperamos que cada vez más gente los utilice," afirma.
El sistema de procesamiento de vídeo también utiliza algoritmos capaces de describir el movimiento de objetos en imágenes sucesivas. Genera frases como "boat1 sigue a boat2 entre 35:56 y 37:23" o "boat3 se acerca al marcador marítimo en 40:01." "A veces es capaz de identificar objetos que abandonen y vuelvan a entrar en la escena", señala Zhu, "y decir, por ejemplo, que probablemente se trate del mismo coche." También es posible definir "líneas de viaje" virtuales para facilitar la descripción de ciertos eventos, como por ejemplo un coche en marcha que se detenga en una señal de stop (ver video).
Aunque el sistema significa un paso hacia lo que Zhu califica como una "grandiosa visión dentro de las ciencias informáticas", I2t todavía no está listo para su comercialización. El procesamiento de imágenes de vigilancia es relativamente fácil para el software puesto que la cámara—y por tanto el fondo en una escena—está estática; I2t está lejos de ser capaz de reconocer la variedad de objetos o situaciones que podría identificar un humano. Si se usara con imágenes al azar o vídeos de internet, por ejemplo, I2t tendría problemas para conseguir tan buenos resultados.
Mejorar los conocimientos del sistema acerca de cómo identificar los objetos y escenas podría conseguirse mediante el aumento del número de imágenes incluidas en el conjunto de formación del Instituto Lotus Hill, señala Zhu.
El sistema I2t usado con el prototipo de vigilancia resulta muy potente, afirma Zu Kim, investigador de la Universidad de California, en Berkeley, y encargado de investigar el uso de la visión artificial para ayudar a la vigilancia del tráfico y la localización de vehículos. "Es un trabajo muy bien hecho", señala, incluso si no logra igualar en absoluto el rendimiento humano.
Kim explica la relevancia que un mejor análisis de imágenes tiene en relación con cualquier trabajo de inteligencia artificial. "Existen muchas posibilidades para un buen analizador de imagen—por ejemplo, permitir que una persona ciega comprenda una imagen en internet".
Kim también ve otros usos para la generación de texto a partir de un vídeo, señalando que podría incorporarse a un sintetizador de voz. "Podría ser útil si alguien estuviese conduciendo y necesitase saber lo que ve una cámara de vigilancia". Sin embargo los seres humanos son criaturas visuales, añade, y en muchas situaciones surgiría la preferencia por decidir ellos mismos qué pasa en una imagen o un vídeo.