Cuando estos datos se cruzan con los tradicionales, se genera información que puede ir en contra de los propios internautas. Una investigadora de Microsoft propone unas «garantías procesales del 'big data'».
Foto: Kate Crawford habla en la conferencia EmTech en el MIT.
La principal investigadora de Microsoft Research, Kate Crawford, ha alertado en la conferencia EmTech de MIT Technology Review de que el análisis de datos se está usando para poner en práctica una forma sutil de discriminación con el uso de series anónimas de datos que se pueden minar para revelar datos de salud y otra información privada.
Crawford ha defendido que estos problemas se podrían resolver con nuevos enfoques legales sobre el uso de los datos personales .
En un nuevo artículo, ella y un colega proponen un sistema de "garantías procesales" que daría a las personas más garantías legales para comprender cómo se está usando el análisis de datos en decisiones que se toman en su contra, como cuando se les niega un seguro de salud o un trabajo, por ejemplo. La investigadora espetó en una entrevista antes de la conferencia: "Queremos empezar una conversación sobre cómo hacer esto mejor".
Crawford, que además es profesora visitante en el Centro Para Medios Cívicos del Instituto Tecnológico de Massachusetts (EEUU), explica: "La gente cree que los grandes volúmenes de datos evitan el problema de la discriminación porque te enfrentas a grandes series, pero el hecho es que el big data se está usando para formas cada vez más precisas de discriminación, una forma de discriminación mediante datos".
Durante su conferencia, Crawford añadió que con el big data "nunca sabrás cuáles son esas discriminaciones, y creo que es ahí donde surge la señal de alarma".
La investigadora sostiene que los datos de salud son especialmente vulnerables. Términos de búsqueda para síntomas de enfermedades, compras en línea de material médico, e incluso las etiquetas RFID del etiquetado de medicamentos sirven para dar a sitios web y comerciantes información sobre la salud de una persona.
Como escriben Crawford y el profesor de la Facultad de Derecho de la Universidad de Nueva York Jason Schultz, en su artículo: "Cuando las series de datos se cruzan con información sanitaria tradicional, cosa que el big data está diseñado para hacer, se puede generar un retrato detallado de la salud de una persona que incluya información que dicha persona quizá no haya contado nunca a sus médicos".
Y un estudio reciente de la Universidad de Cambridge (Reino Unido), al que Crawford se refirió durante su conferencia, descubrió que "características personales muy sensibles", entre ellos la orientación sexual, los rasgos de personalidad, el abuso de sustancias adictivas, e incluso la separación de los padres, son muy predecibles analizando los "me gusta" de la gente en Facebook. El estudio analizó los "me gusta" de 58.000 usuarios de Facebook.
De forma parecida, el historial de compras, tuits, y la información demográfica, de localización y otras informaciones recogidas sobre usuarios individuales, al combinarse con datos de otras fuentes, pueden dar lugar a nuevos tipos de perfiles que una empresa o un casero podrían usar para negar un trabajo o un piso.
En respuesta a estos riesgos, los autores del artículo proponen un marco legal que denominan "garantías procesales para grandes volúmenes de datos". Bajo este concepto, una persona que ha sido sujeto de una decisión, ya sea la negación de un seguro de salud o un alquiler, el rechazo para un puesto trabajo o una detención, tendría derecho a saber cómo se usó el análisis de datos en el caso.
Esto conllevaría el tipo de transparencia y derechos de interrogatorio ya consagrados en los sistemas legales de Estados Unidos y muchos otros países. Los autores sostienen: "Antes de que haya una aceptación social mayor del papel del big data en la toma de decisiones, sobre todo en el caso del gobierno, nos parece justo y tener un grado aceptable de previsibilidad, transparencia y racionalidad".
Crawford señala que, además, el análisis de datos puede estar muy equivocado. Incluso el uso de la búsqueda de Google para identificar epidemias de gripe, que ya había funcionado en anteriores ocasiones, fracasó el año pasado cuando los casos reales se quedaron muy por debajo de las predicciones. Una cobertura mayor por parte de los medios de la gripe y charlas sobre la gripe en las redes sociales se confundieron con señales de gente que se quejaba de estar enferma, lo que produjo unas estimaciones al alza. "Así es cómo se pueden complicar los datos de los medios sociales", afirma Crawford.
Y puede haber más fallos básicos en lo que nos cuentan los datos. Por ejemplo, después del huracán Sandy hubo pocos tuits de zonas muy afectadas lejos de Manhattan. Crawford alerta:"Si empezamos a usar series de datos de los medios sociales para tomarle el pulso a un país o comprender una crisis -incluso si los usamos para desplegar recursos- estamos obteniendo una visión sesgada de lo que sucede".