Un equipo de investigación ha creado la mayor base de datos asociada a información visual para las personas invidentes. Sus creadores la han hecho pública para retar a los expertos de visión artificial a que la usen para desarrollar mejores tecnologías de asistencia
Una de las cosas que más les cuesta a los ordenadores es "contestar preguntas visuales", es decir, responder una cuestión sobre una imagen. No se trata de un simple problema teórico: la habilidad de las máquinas para entender lo que ven podría ser crucial para desarrollar tecnologías de apoyo para los invidentes.
Existen apps con las que las personas ciegas pueden hacer una foto y grabar una pregunta de voz como "¿de qué color es esta camisa?" y "¿cuándo caduca esta leche?", y luego pedir a voluntarios que les den la respuesta. Pero las imágenes no suelen quedar centradas, están mal enfocadas o carecen de la información necesaria para responder a la pregunta. No hay que olvidar que los fotógrafos no pueden ver.
Los sistemas de visión artificial podrían ayudar, por ejemplo, a filtrar las imágenes inadecuadas y sugerir al usuario que saque otra foto. Pero de momento las máquinas son incapaces de hacer este tipo de cosas. Una de las razones por las que no pueden es que no hay ningún conjunto importante de datos con imágenes del mundo real para entrenar a las máquinas.
Esto podría cambiar gracias al trabajo de la investigadora de la Universidad de Texas en Austin (EE.UU.) Danna Gurari y algunos compañeros. El equipo publicó una base de datos con 31.000 imágenes junto con preguntas y sus respuestas. Después, lanzó un desafío a la comunidad de la visión artificial: utilizar su conjunto de datos para programar a las máquinas y lograr que se conviertan en asistentes útiles frente a este tipo de problemas del mundo real.
El conjunto de datos proviene de VizWiz, una aplicación de ayuda para las personas ciegas. La app fue desarrollada por el investigador de la Universidad Carnegie Mellon en Pittsburgh (EE. UU.) Jeff Bigham, que también forma parte de esta investigación, y algunos compañeros.
Al utilizar la aplicación, una persona ciega puede hacer una fotografía, grabar una pregunta y después enviar tanto la foto como el mensaje de voz a un equipo de voluntarios para que responda lo mejor que pueda. Pero la app tiene algunos defectos. Por ejemplo, los voluntarios no están siempre disponibles y las imágenes no siempre tienen la calidad suficiente como para poder dar una respuesta.
Con el objetivo de mejorar la aplicación, Gurari y su equipo analizaron más de 70.000 fotos recopiladas por VizWiz de usuarios que dieron su consentimiento para compartirlas. El equipo eliminó todas las fotos que contenían información personal, como datos de tarjetas de crédito, direcciones y desnudos. Esta criba dejó al conjunto con unas 31.000 imágenes y sus respectivas grabaciones.
Más tarde, el equipo presentó las imágenes y las preguntas a los trabajadores de Mechanical Turk, la plataforma de trabajo colabotarivo de Amazon, y les pidió que respondieran con una breve oración. El equipo reunió 10 respuestas para cada una de las imágenes para garantizar su precisión.
Estas 31.000 imágenes, preguntas y respuestas conforman la nueva base de datos de VizWiz. El equipo de Gurari ya las ha puesto a disposición del público. También las ha sometido a un análisis preliminar que proporciona información única sobre los desafíos que la visión artificial tiene por delante para convertirse en un asistente eficaz.
Las preguntas suelen ser sencillas, pero no siempre. Muchas se pueden resumir como "¿qué es esto?". Sin embargo, los usuarios solo hacen preguntas que puedan responderse con un sí o un no el 2 % de las veces, y la cifra es aún más baja para las preguntas que pueden responderse con un número.
También hay otros resultados inesperados. Resulta que, aunque la mayoría de las preguntas comienzan con la palabra "qué", casi una cuarta parte arranca la frase con una palabra mucho más inusual. Seguramente esto sucede durante el proceso de grabación, cuando el comienzo de la pregunta se corta. Aun así, normalmente debería ser posible responderlas. Preguntas como "vender o consumir antes de x fecha impresa en este cartón de leche" o "¿el horno está configurado para?", son fáciles de responder si se acompañan de una imagen con la información correcta.
El equipo también analizó las imágenes. Más del 25% de las fotos resultaron no ser adecuadas para obtener una respuesta porque no se veían bien o no contenían información relevante. Ser capaz de detectar este problema de forma rápida y precisa sería un buen comienzo para un algoritmo de visión artificial.
Y ahí está el desafío para la comunidad que trabaja en esto. En su trabajo, el equipo afirma: "Presentamos este conjunto de datos para alentar a una comunidad más grande a desarrollar algoritmos más generalizados para ayudar a las personas ciegas. Además, mejorar los algoritmos en VizWiz puede educar a más gente sobre las necesidades tecnológicas de las personas ciegas y al mismo tiempo ofrecer una nueva y emocionante oportunidad para que los investigadores desarrollen tecnologías de apoyo que eliminen sus barreras de accesibilidad".
Sin duda, es un gran objetivo.
Ref: arxiv.org/abs/1802.08218: VizWiz Grand Challenge: Answering Visual Questions from Blind People.