
El Big Data podría despejar la niebla de la guerra.
Año Honrado
2015
Región
Global
Problema:
Determinar la cantidad de personas muertas en las guerras es extremadamente difícil: el caos, la mala comunicación y la propaganda pueden distorsionar enormemente las cifras.
Solución:
Rebecca Steorts, profesora asistente de estadísticas en la Universidad de Duke, está utilizando técnicas avanzadas de análisis de datos para ayudar a las organizaciones de derechos humanos a obtener recuentos definitivos de víctimas.
Desde que comenzó la guerra civil siria en 2011, seis organizaciones privadas han estado construyendo bases de datos con los totales de muertes. También hay un recuento «oficial» gubernamental. Pero compilar todas estas bases de datos en un solo documento maestro es una pesadilla de datos debido a duplicados, nombres mal escritos, fechas incorrectas e incluso géneros erróneos. Una estimación mostró que ejecutar un algoritmo básico de comparación en las listas combinadas tomaría 57 días. En 2013, Steorts se dio cuenta de que, al combinar un enfoque estadístico bayesiano con una técnica de aprendizaje automático llamada «bloqueo», podía fusionar confiablemente las bases de datos y hacerlo en menos de un día.
El bloqueo funciona colocando los elementos que son similares entre sí —por ejemplo, nombres similares o fechas aproximadas de muerte— en el mismo grupo para su comparación. (Una analogía simple: si intentaras compilar un conjunto completo de cartas a partir de dos mazos incompletos, primero las separarías por palos y luego descartarías los duplicados). Solo después de haber formado los diversos bloques, el software de Steorts realiza el trabajo intensivo de vincular los registros individuales.
El Human Rights Data Analysis Group, una organización sin fines de lucro que publica un recuento de muertes de Siria cada año, está probando el método de Steorts para ver si puede incorporarse a la estimación que liberarán en 2016.