Investigadores usan registros móviles para construir un modelo de movilidad de las regiones en torno a las ciudades de Los Ángeles y Nueva York con nuevas garantías de privacidad.
Imagen: Un uso de los modelos de movilidad basados en datos móviles es comprender los movimientos entre ciudades o regionales, como los traslados por trabajo o los patrones de movimiento hacia y desde los monumentos. Aquí se muestra la densidad de llamadas en un sábado de verano en Central Park de Nueva York, donde el rojo representa el uso más intenso.
Investigadores de AT&T y las universidades de Rutgers, Princeton, y Loyola (EE.UU.) han encontrado una forma de minar datos móviles sin revelar tu identidad, abriendo una posibilidad para evitar los obstáculos relacionados con la privacidad que hasta la fecha han confinado el trabajo de minado de datos móviles a los laboratorios de investigación.
Trabajando con miles de millones de puntos de datos de localización de llamadas móviles y mensajes de texto de AT&T en el entorno de las ciudades de Los Ángeles y Nueva York en Estados Unidos, han construido un "modelo de movilidad" de las dos regiones que agrega los datos, produce "registros de llamadas sintéticos" representativos y oculta mediante la matemática cualquier dato que sirva para identificar a las personas.
El modelo puede hacer cosas como predecir rápidamente cómo afectaría un nuevo desarrollo o determinada política de transporte al transporte en general, o podría ser una nueva herramienta para planificar a nivel local, donde se dispone de pocos datos de movilidad, explica Margaret Martonosi, informática de Princeton que está trabajando en el modelo. Ahora mismo, los planificadores confían en general en sensores de carreteras y en los datos del número limitado de personas que permite que se capture su posición GPS.
Vincent Blondel, informático de la Universidad Católica de Lovaina (Bélgica), y uno de los líderes en el campo de la investigación de registros de datos de llamadas y temas de privacidad, afirma que el trabajo es impresionante. "Es un trabajo excelente que ayudará a explorar formas de hacer el mejor uso posible de datos importantes al mismo tiempo que se protege la privacidad", afirma.
Hasta el teléfono más sencillo deja extensos rastros digitales -denominados registros de detalle de llamada o CDR en sus siglas en inglés- que los operadores móviles conservan. Estos registros, que indican la hora en que se hizo una llamada o se envió un mensaje de texto y la identidad y localización de la antena involucrada, dan la localización aproximada del dueño del teléfono. A lo largo del tiempo se pueden usar para desarrollar un rastro preciso de los movimientos del usuario.
De forma agregada -pero hasta ahora casi solo de forma teórica- estos datos se podrían usar para llevar a cabo investigaciones en epidemiología o para desenredar el tráfico al proporcionar una imagen sin precedentes de todos los patrones de movimiento humanos (ver "Cómo consiguen ingresos los operadores inalámbricos gracias a tus movimientos"). También pueden servir para guiar proyectos de desarrollo en las zonas más pobres del mundo (ver "Big Data con teléfonos baratos").
Pero el mayor obstáculo para la investigación con CDRs es garantizar sistemas para la protección de la intimidad. Incluso aunque los registros se limpien de nombres y números, la identidad de una persona se suele poder revelar por otros medios. Por ejemplo, una única llamada a las 4:12 a.m. lanzada desde una torre de antena se puede conectar con un tuit público hecho a las 4:12 a.m. que incluya la localización e identidad del tuitero. Existen riesgos parecidos en el caso de datos que pertenecen a personas que viven en zonas remotas o que tienen patrones de transporte de casa al trabajo poco frecuentes.
Este nuevo método empieza por agregar rastros de movimientos humanos reales y después identifica localizaciones comunes que podrían indicar casa, trabajo o escuela. Posteriormente, crea una serie de modelos de transporte. Estos modelos generan rutas de la gente que los investigadores denominan "sintéticas" porque son representativas solo de los datos agregados y no de personas específicas.
Pero la clave es la tercera parte. Incluso los registros supuestamente sintéticos pueden coincidir mucho con registros reales (sobre todo cuando la muestra de datos agregados subyacentes es pequeña). Así que un algoritmo, usando una técnica emergente conocida como privacidad diferencial, calcula exactamente cómo de alto es ese riesgo y cómo reducirlo alterando los datos. "En algunos puntos se introduce ruido en el modelo para reducir la probabilidad de identificar a los individuos", explica Martonosi.
Inyectar ruido incluye alterar de forma deliberada las localizaciones agregadas de casa y trabajo para reducir la dependencia de los datos de un único individuo. De forma parecida, las horas de llamada agregadas se cambian para enmascarar cualquier contribución individual. Hechas en conjunto, estas modificaciones de los datos impedirían cualquier esfuerzo por unir bases de datos.
Parte de este nuevo trabajo de modelado de movilidad se presentó por primera vez en una conferencia el año pasado, pero nuevos detalles y la variante de la privacidad diferencial se presentaron hace unos días en una conferencia en el Instituto de Tecnología de Massachusetts (MIT en sus siglas en inglés, EE.UU.) En la misma conferencia, investigadores de IBM mostraron cómo los registros de llamadas pueden servir para optimizar las rutas de transporte público (ver "Rutas de bus africanas rediseñadas a partir de datos de teléfonos móviles").
Martonosi afirma que la presentación pública de los modelos de movilidad que ella y sus compañeros han creado del área urbana de Nueva York y Los Ángeles no tendrá lugar antes de que otras publicaciones terminen el trabajo y demuestren el método de privacidad, puesto que los modelos tiran indirectamente de datos de usuarios.
Mientras tanto, los métodos que ella y sus compañeros usaron para construir el modelo sí se han publicado. Así pues, según Martonosi, otros grupos podrían construir modelos parecidos para otras áreas urbanas si tienen sus propios registros de llamadas de datos para trabajar. AT&T ha colaborado con la investigación, que se llevó a cabo en las instalaciones de la empresa telefónica partiendo de tres meses de datos de clientes de 300.000 de sus clientes en Nueva York y otros tantos en Los Ángeles. AT&T no ha querido hacer declaraciones para este artículo.
En medio del interés creciente por los datos móviles, el método del grupo está despertando un interés considerable. William Hoffman, director de los proyectos de desarrollo basados en datos del Foro Económico Mundial, afirma que el método parece prometedor. "Me ha parecido que el concepto es bastante interesante como forma de 'reducción de riesgo' de la capacidad de los investigadores para explorar los datos", afirma. "Es uno de los múltiples pasos que pueden tomar los dueños de los datos para conseguir el equilibrio entre poder usar datos y proteger al individuo".
Una cuestión clave es si un sistema de registros de datos sintéticos podría servir para que los operadores se saltaran el delicado tema de obtener el consentimiento del usuario. "Ese es uno de los grandes temas que he visto en la conferencia del MIT", afirma Hoffman, Y la respuesta podría depender de cómo se usara o vendieran los datos.
Nicolas Decordes, vicepresidente de Orange, afirma que el equipo de I+D de la empresa ha dicho que las técnicas "son factibles y podrían ser útiles" para crear modelos de transporte. Sin embargo, como el método no usa datos en tiempo real, es mejor para planificar y no sirve para guiar la respuesta a eventos.
El proceso de obtener y usar datos móviles ya es en sí bastante delicado. Cuando Orange liberó datos de Costa de Marfil a investigadores el año pasado, un proceso supervisado por Decordes, se escogió ese país en concreto porque su Ministerio de Tecnología y Comunicación no había firmado un marco regulador que restringiera dicho uso, en contraste con otros países africanos vecinos. Aún así, Orange exigió a los investigadores que firmaran acuerdos que les prohibían intentar identificar a individuos concretos.
Linus Bengtsson, epidemiólogo en el Instituto Karolinska de Suecia y fundador de Flowminder, que proporciona datos de movilidad a ONGs y agencias humanitarias, afirma que por muy avanzadas que sean los sistemas de protección de la intimidad, la comunidad investigadora siempre necesitará códigos de conducta para proteger la intimidad. "Investigadores en muchos campos analizan series de datos con los que alguien -lo suficientemente decidido- podría identificar a personas concretas", afirma. "Creo que crear reglas para esto es algo más importan que que la difícil tarea de crear series de datos anónimas ".
Otros resultados de investigaciones recientes incluyen algunos que demuestran cómo los registros de llamadas se pueden usar para seguir a los hinchas de fútbol cuando salen de un partido o incluso para hacer un mapa de los niveles de pobreza dentro de un país mediante el análisis de las costumbres de compra de minutos de conversación.