Una nueva técnica podría ayudar a empresas como Facebook a ganar dinero de sus datos sin ponerlos en riesgo.
Las enormes reservas de datos personales de registros de navegación por Internet, compras con tarjetas de crédito o información compartida a través de las redes sociales, se están convirtiendo en activos cada vez más valiosos para las empresas. Estos datos pueden analizarse para determinar tendencias que guíen estrategias de negocios, o venderse a otras empresas para obtener una pequeña ganancia. Pero a medida que los datos personales se analizan e intercambian aumenta el riesgo de que puedan delatar quiénes somos y se produzca una invasión no deseada de la privacidad.
Una nueva técnica matemática desarrollada en la Universidad de Cornell (EE.UU.) podría hacer que los grandes conjuntos de datos personales fueran compartidos y analizados garantizando que no se vea comprometida la privacidad de ningún individuo.
"Queremos hacer posible que Facebook o la Oficina del Censo de EE.UU. analicen datos delicados sin que se filtre información sobre las personas", indica Michael Hay, profesor asistente de la Universidad Colgate (EE.UU.), que creó la técnica mientras era investigador en Cornell junto a sus colegas John Gehrke, Edward Lui y Rafael Pass. "También tenemos como objetivo la utilidad: queremos que el analista aprenda algo".
Las empresas a menudo intentan mitigar el riesgo de que los datos personales que obran en su poder puedan ser utilizados para identificar a los individuos, pero estas medidas no siempre son eficaces. Tanto Netflix como AOL lo experimentaron en primera persona cuando publicaron datos supuestamente "anónimos" para que cualquier persona pudiera analizarlos. Varios investigadores demostraron que ambos conjuntos de datos podían salir del anonimato comparándolos con otros datos de referencia en varios lugares.
"En la práctica se están usando técnicas bastante adecuadas" para proteger la privacidad de los usuarios incluidos en estos conjuntos de datos, afirma Hay. Estas técnicas incluyen quitar los nombres y números de la seguridad social u otros tipos de datos. "La gente quiere ofrecer protección verdadera", asegura Hay, y añade que los encargados de los datos en algunas agencias gubernamentales temen que se presenten demandas por no haber protegido la información privada. "Tras hablar con otras personas en agencias de estadística sé que existe el miedo a la demanda por violaciones de privacidad".
En los últimos años, varios investigadores han trabajado en el desarrollo de formas de garantizar matemáticamente la privacidad. Sin embargo, el enfoque más prometedor -conocido como privacidad diferencial- ha resultado difícil de aplicar, y por lo general requiere añadir ruido a un conjunto de datos, lo que hace que este sea menos útil.
El grupo de Cornell propone un enfoque alternativo llamado privacidad basada en la mezcla entre la multitud (crowd-blending privacy). Consiste en limitar el modo en que puede analizarse un conjunto de datos para asegurar que cualquier registro individual no pueda distinguirse entre una multitud de registros distintos, y en eliminar registros del análisis en caso de que esto no pueda ser garantizado.
De esta forma no es necesario añadir ruido a un conjunto de datos y cuando el conjunto es suficientemente grande el grupo demostró que la mezcla entre la multitud se aproxima a la fuerza estadística de la privacidad diferencial. "Puesto que la mezcla entre multitudes es un estándar de privacidad menos estricto, esperamos que sea posible escribir algoritmos satisfactorios", indica Hay. "Esto podría crear nuevos usos para los datos", añade.
La nueva técnica "proporciona una definición alternativa de privacidad interesante y es potencialmente muy útil", asegura Elaine Shi, profesora asistente en la Universidad de Maryland, en College Park (EE.UU.), que también está investigando formas de proteger la privacidad en los conjuntos de datos. "En comparación con la privacidad diferencial, la privacidad basada en la mezcla entre la multitud permitiría en ocasiones que una herramienta consiguiera una utilidad mucho mayor mediante la introducción de poco o nada de ruido", explica.
Shi añade que, en el futuro, las investigaciones dirigidas a garantizar la privacidad deberían permitir que la responsabilidad de la protección de los datos de los usuarios deje de estar en manos de los desarrolladores de software y sus directivos. "La arquitectura del sistema subyacente protegería por sí misma la intimidad, incluso cuando el código proporcionado por los desarrolladores de aplicaciones pueda no ser de confianza", afirma. El grupo de investigación de Shi está trabajando en un sistema de computación en nube sobre esa base. Alberga datos personales delicados y permite el acceso pero también vigila cuidadosamente el software que hace uso de él.
Benjamin Fung, profesor asociado en la Universidad Concordia (Canadá), señala que la mezcla entre multitudes es una idea útil, pero considera que la privacidad diferencial todavía puede ser viable. Su grupo ha trabajado con una empresa de transporte de Montreal para implementar una versión de la privacidad diferencial en un conjunto de datos de huellas de geolocalización. Fung sugiere que la investigación en esta área tiene que pasar a la fase de implementación para que enfoques como el de mezcla y los de otro tipo se puedan comparar directamente y se pongan finalmente en práctica.
Hay está de acuerdo en que es hora de pasar a la acción pero señala también que la protección de la privacidad no va a evitar otras prácticas que podrían considerarse desagradables. "Se pueden satisfacer limitaciones de este tipo y aún así obtener correlaciones predictivas", señala. Esto podría dar como resultado, por ejemplo, que las primas de los seguros de automóvil se establecieran en base a información sobre una persona sin que exista aparentemente una relación con su forma de conducir. "A medida que las técnicas para garantizar la privacidad sean adoptadas podrían surgir otras preocupaciones", advierte Hay.