Una herramienta de búsqueda de vídeo en línea escanea los vídeos en busca de palabras escritas.
Una nueva herramienta de búsqueda de vídeo en línea lanzada esta semana hace que sea más fácil buscar el contenido de videoconferencias al transcribir de forma automática las palabras utilizadas en las ayudas visuales del profesor.
TalkMiner fue creada por investigadores del Laboratorio Fuji Xerox en Palo Alto (FXPAL, por sus siglas en inglés), en California, para ayudar a los estudiantes y profesionales a explorar los cada vez más amplios archivos en línea de videoconferencias y presentaciones. "TalkMiner proporciona una buena oportunidad de encontrar algo que no se menciona en el título o en el resumen, sino que está enterrado en el interior del video", destaca Larry Rowe, presidente de FXPAL.
Las videoconferencias se están convirtiendo en una herramienta de estudio cada vez más popular, y más y más universidades están empezando a proporcionarlas, señala Rowe. Sin embargo, si somos un estudiante tratando de estudiar parte de una conferencia para un examen parcial o un profesional en busca de algo específico en una conferencia en línea de TED, el proceso no es rápido. Incluso si conocemos la fecha en que se dio una lección, no hay forma de buscar un contenido concreto sin visualizar el vídeo entero, continúa Rowe.
TalkMiner soluciona este problema buscando en los vídeos las diapositivas de presentación de los ponentes. La herramienta analiza el vídeo una vez por segundo en busca de signos identificadores de una diapositiva, tales como su forma y naturaleza estática, captura la imagen de la diapositiva y compensa cualquier ángulo sesgado y utiliza el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) para detectar las palabras en las diapositivas. Seguidamente, estas palabras son indexadas en el motor de búsqueda de TalkMiner, que actualmente pone a disposición de los usuarios 15.000 vídeos de instituciones como la Universidad de Stanford, la Universidad de California en Berkeley y TED.
"Tanto el OCR como la indexación de búsquedas ya se habían hecho anteriormente", explica Rowe. Lo que es nuevo es la extracción automática del contenido de las diapositivas de un vídeo.
"A menudo, la calidad de producción del vídeo es muy pobre", señala Rowe. "Así que tenemos que identificar las diapositivas y limpiarlas." Las diapositivas pueden aparecer en cualquier parte de la imagen, o, a veces, no aparecer en absoluto. Además, "si se ha grabado con varias cámaras, es posible que en el vídeo se vaya cambiando entre una imagen a pantalla completa de una diapositiva y [una imagen de] el orador."
La ausencia de un formato estándar para la grabación de conferencias no ayuda. "Se trata de un entorno muy descontrolado", comenta John Adcock, quien también trabajó en el proyecto. El reto, afirma Adcock, fue crear un sistema que funcionara independientemente de cómo fuera grabada la conferencia.
Aunque en su forma actual TalkMiner es una herramienta específica para una aplicación, en última instancia, la herramienta podría ampliar la gama de situaciones en las que se puede utilizar el OCR, destaca Adrian Ulges, investigador sobre análisis multimedia y minería de datos en el Centro Alemán para la Investigación sobre Inteligencia Artificial en Kaiserslautern. Street View, de Google, podría utilizar TalkMiner para capturar información adicional sobre lugares geográficos determinados, tales como horarios de apertura u ofertas especiales, indica Ulges, o podría mejorar la exactitud de algunas aplicaciones móviles como Word Lens, que traduce el texto visto a través de la cámara de un teléfono.
"El OCR todavía no se considera un problema resuelto, a pesar de que las tasas de reconocimiento son bastante decentes," señala Ulges. Las diferentes condiciones de iluminación, la falta de contraste, las diapositivas en diferentes colores, e incluso los diferentes tipos de letra pueden afectar al OCR.
Sin embargo, incluso cuando el OCR no permite reconocer nada de texto, TalkMiner aún puede tener una utilidad. Adcock explica: "Una gran cantidad de presentaciones de TED no utilizan texto en sus diapositivas," pero la simple captura de imágenes estáticas de lo que sea que se muestra en el vídeo es suficiente para crear un índice visual.
Originalmente, los investigadores trataron de indexar los vídeos basándose en lo que el ponente decía, detectando las palabras clave en la pista de audio. Sin embargo, el software de reconocimiento de voz no era lo suficientemente fiable para obtener resultados exactos, comenta Rowe. Con el planteamiento actual, los usuarios no tienen que centrarse en copiar el contenido de las diapositivas, por lo que pueden prestar más atención a lo que explica el ponente, destaca el presidente de FXPAL. Y, sí, en teoría, los estudiantes perezosos podrían llegar a ser excesivamente dependientes de TalkMiner y perder alguna parte de información vital. "Sin embargo, yo veo esto como una herramienta de aprendizaje más, y de la misma forma que [todas] las herramientas, puede ser mal utilizada."