Un prototipo de software puede proporcionar alertas iniciales sobre brotes de enfermedades o violencia mediante la detección de pistas en las noticias.
Un grupo de investigadores ha creado un software que predice cuándo y dónde pueden ocurrir brotes de enfermedades en base a dos décadas de artículos del New York Times y otros datos en línea. La investigación ha sido llevada a cabo por Microsoft y el Instituto Technion-Israel de Tecnología.
El sistema podría algún día ayudar a organizaciones de ayuda y otros colectivos a ser más proactivos en la lucha contra brotes de enfermedades u otros problemas, señala Eric Horvitz, distinguido científico y codirector del Centro de Investigaciones de Microsoft. "Realmente veo todo esto como un presagio de lo que está por venir", afirma. "En última instancia, este tipo de trabajo comenzará a tener una influencia en el día a día de la gente". Horvitz realizó la investigación en colaboración con Kira Radinsky, investigadora doctorada en el Instituto Technion-Israel.
El sistema proporcionó resultados sorprendentes cuando se probó con datos históricos. Por ejemplo, los informes de las sequías en Angola en 2006 provocaron una advertencia sobre posibles brotes de cólera en el país, ya que otros eventos anteriores habían enseñado al sistema que los brotes de cólera son más probables en los años posteriores a sequías. Una segunda advertencia sobre el cólera en Angola fue provocada por noticias sobre grandes tormentas en África a principios de 2007. Menos de una semana después, aparecieron informes de que el cólera se había establecido. En pruebas similares con previsiones de enfermedades, violencia y un número significativo de muertes, los avisos del sistema fueron correctos entre el 70 y el 90 por ciento de las veces.
Horvitz asegura que el rendimiento es lo suficientemente bueno para sugerir que una versión más refinada podría ser utilizada en entornos reales, para por ejemplo ayudar a expertos en agencias gubernamentales dedicados a la planificación y preparación de ayuda y respuesta humanitaria. "Hemos realizado algunos contactos y tenemos pensado hacer un trabajo de seguimiento con esas personas", señala Horvitz.
El sistema fue construido utilizando 22 años de archivos del New York Times, de 1986 a 2007, aunque también tomó datos de Internet para aprender acerca de los hechos que conducen a las noticias más importantes.
"DBpedia es una fuente que nos pareció útil, ya que se trata de una forma estructurada de información dentro de Wikipedia construida utilizando crowdsourcing", señala Radinsky. "Podemos entender, o ver, la ubicación de los lugares en los reportajes de noticias, cuánto dinero gana la gente del lugar, e incluso información acerca de la política". Otras fuentes incluyen WordNet, que ayuda al programa a entender el significado de las palabras, y OpenCyc, una base de datos de conocimientos comunes.
Toda esta información ofrece un valioso contexto que no está disponible en un artículo de prensa, y que es necesaria para averiguar normas generales sobre qué eventos preceden a otros. Por ejemplo, el sistema podría inferir conexiones entre acontecimientos en Ruanda y ciudades angoleñas basándose en el hecho de que ambos se encuentran en África y tienen PIB similares, además de otros factores. Este enfoque hizo que el software llegara a la conclusión de que, a la hora de predecir los brotes de cólera, debía considerar la ubicación de un país o ciudad, la proporción de tierra cubierta por agua, la densidad de población, el PIB y si había habido una sequía el año anterior.
Horvitz y Radinsky no son los primeros en considerar el uso de noticias en línea y otros datos para predecir acontecimientos futuros, aunque señalan que hacen uso de más fuentes de datos (más de 90 en total), lo cual permite que su sistema tenga un uso más general.
Ya existe un pequeño mercado para las herramientas de predicción. Por ejemplo, una start-up llamada Recorded Future hace predicciones sobre eventos futuros recogidas de declaraciones en línea y otras fuentes que hagan referencia al futuro, y entre sus clientes se encuentran varias agencias de inteligencia del Gobierno de EE.UU.. Christopher Ahlberg, director general y cofundador de la compañía, asegura que la nueva investigación es un "buen trabajo" que muestra cómo se pueden hacer predicciones con datos firmes, pero también señala que convertir el sistema prototipo en un producto requerirá un mayor desarrollo.
Microsoft no tiene planes para comercializar la investigación de Horvitz y Radinsky aún, pero el proyecto continuará, señala Horvitz, que quiere utilizar más archivos de periódicos, así como libros digitalizados.
Han cambiado muchas en el mundo en las últimas décadas, pero la naturaleza humana y muchos aspectos del medio ambiente se han mantenido iguales, indica Horvitz. Por tanto, el software podría ser capaz de aprender patrones a partir de datos incluso de gran antigüedad que puedan sugerir lo que está por suceder. "Personalmente estoy interesado en obtener datos más antiguos", asegura.