Un algoritmo protege la información personal de los pacientes al tiempo que preserva la utilidad de los datos para estudios médicos a gran escala.
Los investigadores de la Universidad de Vanderbilt han creado un algoritmo diseñado para proteger la privacidad de los pacientes y, al mismo tiempo, mantener la capacidad de los investigadores para analizar grandes cantidades de datos genéticos y clínicos, y así encontrar vínculos entre las enfermedades y los genes específicos, o bien para entender por qué los pacientes pueden responder de manera tan diferente a los tratamientos.
Los historiales médicos guardan todo tipo de información sobre los pacientes, desde la edad al género, pasando por el historial médico familiar y los diagnósticos actuales. La creciente disponibilidad de los historiales médicos electrónicos hace más fácil la agrupación de los archivos de los pacientes en enormes bases de datos, a las que pueden acceder los investigadores para tratar de encontrar asociaciones entre genes y enfermedades médicas--un paso importante dentro del camino hacia la medicina personalizada. Si bien los registros del paciente en estas bases de datos son "anónimos", es decir, despojados de identificadores tales como el nombre y la dirección, aún así contienen códigos numéricos conocidos como códigos de diagnóstico o códigos CIE, que representan todas las enfermedades que ha logrado detectar un médico.
El problema reside en que no es tan difícil seguir la pista a un conjunto específico de códigos e identificar a una persona, afirma Bradley Malin, profesor asistente de informática biomédica en la Universidad de Vanderbilt y uno de los co-autores del algoritmo. En un artículo publicado hoy en internet en Proceedings of the National Academy of Sciences, Malin y sus colegas encontraron que podían identificar más del 96 por ciento de un grupo de pacientes en función únicamente de sus conjuntos particulares de códigos de diagnóstico. "Cuando la gente se pregunta acerca de las prioridades en cuanto a la privacidad, sus datos de salud están siempre a la altura de la información sobre sus finanzas", afirma Malin--y cona razón. En el año 2000, la investigadora de ciencias informáticas Latanya Sweeney hizo comparaciones entre los registros de inscripción de un grupo de votantes y una cantidad limitada de información procedente de registros públicos de la Group Insurance Commission (fecha de nacimiento, sexo y código postal) para así lograr identificar el historial médico detallado del ex gobernador de Massachusetts, William Weld, y su familia. En las manos equivocadas, la información médica podría conducir a chantajes o discriminación dentro del entorno laboral, o, aunque de importancia menos crítica pero increíblemente molesto, el aumento del spam médico. Además, los hospitales donde los datos fueron puestos en peligro podrían ser acusados de negligencia, afirma Malin.
Para resolver este problema, el equipo de Vanderbilt diseñó un algoritmo capaz de buscar en una base de datos las combinaciones de códigos de diagnóstico que distinguen a un paciente de otro. A continuación, el algoritmo sustituye una versión más general de los códigos--por ejemplo, la osteoporosis postmenopáusica podría convertirse en simplemente osteoporosis--para asegurarse de que el registro alterado de cada paciente no puede ser distinguido entre un cierto número de otros pacientes. Más tarde, los investigadores pudieron acceder a esta base de datos paralela, sin identificación, y llevar a cabo sus estudios de asociación genética.
Para poner a prueba el algoritmo, los investigadores lo aplicaron a 2.762 pacientes, y más tarde trataron de volver a conectar a los participantes del estudio con sus códigos de diagnóstico. Fueron incapaces de hacerlo. El algoritmo también permite a los investigadores equilibrar de forma explícita el nivel de anonimato de acuerdo a las necesidades de sus investigaciones. Ben Reis, profesor asistente en la Escuela Médica de Harvard, y dedicado al estudio de sistemas médicos predictivos personalizados, afirma que esta es una ventaja importante dentro del sistema de Vanderbilt.
Existe una tensión inherente entre el uso de historiales clínicos para la investigación clínica legítima y la preocupación que esto genera en cuanto a la privacidad del paciente. "El problema es que cosas que se consideran realmente anónimas al final no lo son", señala Michael Swiernik, director de informática médica en la Universidad de California en Los Ángeles. "Vamos a tener que considerar muchos enfoques creativos para proteger a las personas, y este algoritmo es una herramienta más dentro de la caja."
El nuevo método tiene sus limitaciones. Los estudios funcionan mejor, afirman los investigadores, cuando comienzan con una hipótesis u objetivo específico--por ejemplo, el estudio de la prevalencia del asma en adolescentes con alergias. Sin embargo, si se quisieran utilizar los mismos datos para examinar las asociaciones entre dos problemas de salud aleatorios en el futuro, sería más difícil.
Los investigadores desean combinar su algoritmo protector de código clínico con otros mecanismos de protección de seguridad ya existentes, como por ejemplo la protección de la información demográfica, y así lograr mantener los datos del paciente lo más seguros posible. También desean poder utilizar una mayor cantidad de datos fuera del entorno de Vanderbilt, según señala Grigorios Loukides, autor principal del estudio.
El futuro de la ciencia se basa en formas más sutiles de extraer información útil a partir de los datos ya existentes. Aquellos métodos que permiten a los investigadores mantener el anonimato de los datos de forma más matizada "nos permiten maximizar los beneficios científicos que obtenemos de los datos de población, y al mismo tiempo controlar los riesgos relacionados con la privacidad", según afirma Isaac Kohane, director del Programa de Informática del Hospital Infantil de Boston. Finalmente, la clave está en poder compartir la información, afirma Malin, autor del estudio. "La generación de datos es algo costoso, y el hecho de reutilizar los datos forma parte de un buen concepto de ciencia y una buena etiqueta dentro del campo. El reto consiste en llevarlo a cabo y, al mismo tiempo, proteger a las personas."