Biotecnología
N3C: una base de datos gigante y anónima para resolver los misterios del coronavirus
Ha hecho falta una pandemia para que EE. UU. haya hecho este enorme esfuerzo para centralizar y armonizar 6,3 millones de registros de pacientes de 56 instituciones y subiendo. A través de una solicitud, cualquiera puede acceder de forma segura para mejorar nuestra comprensión sobre el virus y la COVID-19 prolongada
-
Actualmente hay 6,3 millones de registros desidentificados en la base de datos N3C de los Institutos Nacionales de Salud de Estados Unidos
-
Se ha convertido en una de las mayores bases de datos de los registros de pacientes de COVID-19 del mundo.
-
El esquema evita los silos de datos y los problemas de privacidad que acribillan el sistema sanitario de EE. UU.
Durante la pandemia de coronavirus (COVID-19), se ha producido una gran tensión entre lo que la sociedad quería saber y lo que los científicos podían afirmar.
Los investigadores han conseguido aprender más sobre la COVID-19 y más rápido que sobre cualquier otra enfermedad en la historia, pero al mismo tiempo, la gente se sorprendía cuando los médicos no podían responder a preguntas aparentemente básicas: ¿Cuáles son los síntomas de la COVID-19? ¿Cómo se propaga? ¿Quién es más susceptible? ¿Cuál es la mejor forma de tratamiento?
Y si hay un país en el que este conflicto ha sido especialmente llamativo, ese es EE. UU., que gasta casi una quinta parte de su PIB en atención médica, pero tiene unos peores resultados que cualquier otra nación rica. Encontrar las respuestas ha sido complicado no solo porque la ciencia es difícil, sino también porque la atención médica estadounidense se basa en un mosaico de sistemas arcaicos e incompatibles.
En todo el país, las leyes de privacidad federales, estatales y locales se superponen y, a veces, se contradicen entre sí. Los registros médicos están desordenados, fragmentados y aislados por las instituciones que los poseen, tanto por razones de privacidad como porque la venta de datos médicos desidentificados es tremendamente rentable.
Pero acceder a los datos atrapados en estos silos es la única forma de responder a las preguntas sobre la COVID-19. Es por eso que se han realizado muchas más investigaciones vitales en el extranjero, en países con sistemas nacionales de atención médica, a pesar de la gran cantidad de pacientes de COVID-19 e instituciones de investigación de EE. UU. Algunos de los datos más sólidos sobre los factores de riesgo de mortalidad por la COVID-19 y las características de la COVID-19 prolongada provienen de Reino Unido, por ejemplo. Allí, los investigadores de salud pública tienen acceso a los datos de 56 millones de registros médicos de los pacientes del Servicio Nacional de Salud de Reino Unido (NHS, por sus siglas en inglés).
Al inicio de la pandemia, un grupo de investigadores financiado por los Institutos Nacionales de Salud de EE. UU. (NIH, por sus siglas en inglés) se dio cuenta de que muchas preguntas sobre la COVID-19 serían imposibles de responder sin romper las barreras del intercambio de datos. Por eso, desarrollaron un modo de combinar los registros de pacientes reales de diferentes instituciones de una manera privada y útil.
El resultado es National COVID Cohort Collaborative (N3C), que reúne los registros médicos de millones de pacientes de todo el país, los limpia y luego ofrece acceso a distintos grupos que estudian todo tipo de detalles, desde cuándo usar un respirador hasta cómo la COVID-19 afecta los ciclos menstruales.
La profesora de informática de investigación del Campus Médico Anschutz de la Universidad de Colorado (EE. UU.) y una de las codirectoras de N3C, Melissa Haendel, lamenta: "Es increíble no que no haya datos de salud recogidos y armonizados para la investigación ante una pandemia. Nunca hubiéramos logrado que todos nos dieran esta cantidad de datos fuera del contexto de la pandemia, pero ahora que lo hemos hecho, es una demostración de que los datos clínicos se pueden armonizar y compartir ampliamente de manera segura y transparente".
Esta base de datos es actualmente uno de los conjuntos más grandes de registros de COVID-19 en el mundo, con 6,3 millones de registros de pacientes de 56 instituciones y subiendo, incluidos los registros de 2,1 millones de pacientes con el virus. La mayoría se remontan a 2018 y las organizaciones contribuyentes se han comprometido a seguir actualizándolos durante cinco años. Eso hace que N3C no solo sea uno de los recursos más útiles para analizar la enfermedad en la actualidad, sino una de las formas más prometedoras de estudiar la COVID-19 prolongada.
En la atención médica estadounidense resulta una anomalía tener un sistema en el que las instituciones envían registros masivamente al Gobierno federal centralizado. Si se le da un buen uso, tendrá el potencial de responder a las preguntas detalladas mucho después de la pandemia. E incluso podría servir como prueba de concepto para esfuerzos similares en el futuro.
Datos de fuente abierta
Para aportar información a la base de datos, los proveedores primero eligen dos grupos de pacientes: las personas que han dado positivo en la prueba de COVID-19 y otras que servirán como grupo de control. Luego eliminan todos los datos de identificación personal, salvo el código postal y las fechas de servicio, y lo transmiten de forma segura a N3C. Allí, los técnicos limpian los datos (algo que no siempre es una tarea fácil) y los introducen en la base de datos.
Cualquiera puede enviar una propuesta de investigación a través del panel de N3C, independientemente de si está afiliado a la institución remitente o no. Incluso los científicos ciudadanos pueden pedir acceso a una versión anónima del conjunto de datos.
Un comité de la Universidad Johns Hopkins (EE. UU.) revisa cada propuesta y decide a qué versión de los datos podrán acceder los investigadores. Hay varios niveles de información: un conjunto de datos limitados, un segundo nivel que contiene registros reales con códigos postales y fechas ocultas, y uno tercero hecho de registros "sintéticos" generados por ordenador, que intentan mantener los mismos atributos que los registros reales sin ningún dato real del paciente. Todos los participantes deben pasar por una formación en seguridad de datos antes de obtener el acceso.
Hasta el momento, se han aprobado 215 proyectos de investigación, incluidos varios estudios para seguir el estado de los pacientes que han recibido diferentes vacunas contra la COVID-19 y examinar las tasas de complicación de cirugías opcionales en los pacientes sin COVID-19 durante la pandemia. La primera publicación de esta colaboración fue un análisis de los factores de riesgo de la mortalidad en los pacientes con cáncer que contrajeron el SARS CoV2, y se han publicado varios estudios en preprint sobre distintos temas como los efectos de la COVID-19 en los pacientes con alguna enfermedad hepática y en las personas con VIH.
Más responsabilidad, mejor ciencia
Los datos limpios y precisos son fundamentales para tales estudios, pero ha sido difícil conseguirlos en el caos de la pandemia. En junio pasado, dos importantes revistas, BMJ y The Lancet, se retractaron de los artículos basados en "datos" de la empresa de datos médicos Surgisphere, poco conocida con muy pocos empleados, que afirmaba tener acceso en tiempo real a los registros médicos de casi 100.000 enfermos de COVID-19 en 700 hospitales de todo el mundo. En algunos casos, las cifras representaron a más pacientes de los que realmente se habían diagnosticado en un país determinado.
Antes de ser retractados, los artículos llevaron a decisiones de detener los ensayos clínicos y alterar las prácticas médicas. Pero cuando los investigadores empezaron a sospechar, especialmente teniendo en cuenta que incluso un solo acuerdo sobre transferencia de datos médicos requiere mucho tiempo y trabajo, la empresa no permitió que nadie auditara los datos. De hecho, no hay pruebas de que esa base de datos haya existido.
N3C, por otro lado, es auditable y asume la responsabilidad ante miles de investigadores en centenares de instituciones participantes, con un fuerte enfoque en la transparencia y la reproducibilidad. Todo lo que realizan los usuarios a través de la interfaz, que utiliza la plataforma GovCloud de Palantir, se conserva cuidadosamente, de modo que cualquier persona con acceso pueda volver sobre sus pasos.
El profesor de medicina de la Universidad Johns Hopkins Christopher Chute, que también codirige N3C, afirma: "Esto no es ciencia espacial ni nada nuevo. Es simplemente mucho trabajo duro. Es tedioso, se tiene que hacer con cuidado y hay que validar cada paso. Lo peor que podríamos hacer es transformar metódicamente los datos en basura que nos daría respuestas equivocadas".
Trabajo de fuerza bruta
Haendel coincide en que estos esfuerzos no han sido fáciles: "La diversidad de los conocimientos que se necesitó para que esto ocurriera, la perseverancia, la dedicación y, francamente, la fuerza bruta, no tiene precedentes".
Esa fuerza bruta proviene de muchos campos diferentes más allá de la medicina. La profesora de informática de la Universidad de Pensilvania (EE. UU.) Mary Boland explica: "Tener a todos a bordo de todos los aspectos de la ciencia realmente ayudó. Durante la pandemia, la gente estaba mucho más dispuesta a colaborar. Había ingenieros, científicos informáticos, físicos, muchas personas que normalmente no participan en la investigación de salud pública".
Boland es parte de un grupo que utiliza datos de N3C para analizar si la COVID-19 aumenta el sangrado irregular en mujeres con el síndrome de ovario poliquístico. En general, la mayoría de los investigadores tienen que usar los datos sobre los reclamos de seguros médicos para conseguir una base de datos suficientemente grande para los análisis a nivel de población, afirma Boland.
Los datos sobre los reclamos pueden responder a algunas preguntas sobre lo bien que funcionan los medicamentos en el mundo real, por ejemplo. Pero esas bases de datos carecen de mucha información, incluidos los resultados de laboratorio, los síntomas que describen las personas e incluso los datos sobre si los pacientes sobreviven o no.
Recogida y limpieza
Fuera de las bases de datos de los seguros médicos, la mayoría de los colaboradores de datos de salud en EE. UU. utilizan el modelo de federación. Todos los participantes en estos estudios acuerdan adaptar sus propios conjuntos de datos a un formato común y luego realizar consultas desde el colectivo, como la proporción de casos graves de COVID-19 por grupos de edad. Varios colectivos internacionales de investigación de COVID-19, como el Observational Health Data Sciences and Informatics (OHDSI), operan de esta manera, evitando los problemas jurídicos y políticos con los datos de pacientes transfronterizos.
OHDSI, que se fundó en 2014, cuenta con investigadores de 30 países y tiene registros de 600 millones de pacientes. Boland detalla: "Eso permite que cada institución mantenga sus datos detrás de su propio firewall, con sus propias protecciones de datos activas. No requiere el intercambio de ningún dato del paciente. Eso tranquiliza a muchos, especialmente con todos los hackeos que han ocurrido últimamente".
Pero confiar en que cada institución prepare sus propios datos para un sistema de este tipo conlleva muchos riesgos. Boland añade: "Obtener los datos en un formato común es el mayor desafío, porque incluso los nombres de los medicamentos, uno pensaría que se estandarizarían en todo Estados Unidos, pero en realidad no es así. Las farmacias suelen tener su medicamento genérico que puede tener componentes ligeramente diferentes debido a las leyes de patentes. Cada uno de ellos tiene su propio nombre de fármaco".
N3C, por otro lado, pide a todos los participantes que envíen sus registros desordenados y sin procesar a un lugar para que el organismo central los limpie y estandarice. Aunque existen muchos beneficios obvios, hay grandes obstáculos jurídicos y sociales para participar de esta manera, tanto en Estados Unidos como a nivel internacional; muchas instituciones, por ejemplo, no pueden contribuir a N3C debido a las leyes de privacidad en sus estados.
También es un desafío tecnológico. Combinar solo dos conjuntos de registros médicos electrónicos es extremadamente difícil y requiere mucho trabajo; la calidad de los datos suele ser baja y hay poca estandarización. En las organizaciones de atención médica de varios sitios, hasta 1 de cada 5 registros médicos son archivos duplicados, principalmente como resultado de errores en la introducción de datos sobre las citas o las revisiones, según un documento de Pew de 2018.
Los defensores de los modelos federados a menudo afirman que hacen su propio control de calidad detrás de su firewall. Pero los investigadores de N3C se sorprendieron al descubrir lo desordenados que eran los datos.
Haendel confirma: "Hubo cierto escepticismo en distintos sitios, como: 'Realmente no necesitamos este tipo de marco de calidad de datos; ya lo hacemos en nuestros propios sitios de manera confidencial, detrás de nuestro firewall. No necesitamos sus herramientas de armonización'. Pero aprendimos que esas medidas de calidad son insuficientes cuando se analizan los datos en su conjunto".
Algunos de los problemas de calidad de los datos rozan lo absurdo. Chute detalla: "En algunos casos, las organizaciones no han logrado poner unidades de medida. Así que había un peso, pero no aparecía la unidad, como si fuera algo que deberíamos saber".
Pero tener una cantidad tan grande de registros les dio una ventaja y les permitió guardar muchos puntos de datos que de otro modo se habrían descartado. Y añade: "Pudimos observar las distribuciones de datos para los que teníamos unidades y ver dónde encajaban los datos misteriosos. Al verlo, nos dimos cuenta que, oh, obviamente se trataba de libras o kilogramos".
Un pez grande en un océano mucho más grande
Aunque bastante amplia, la base de datos N3C se ve eclipsada por la magnitud de los datos recopilados y mantenidos en otras partes del sistema de atención médica de EE. UU., desde agencias gubernamentales hasta hospitales, laboratorios de pruebas, aseguradoras y otros. El Departamento de Salud y Servicios Sociales estadounidense supervisa más de 2.000 conjuntos de datos relacionados con la salud solamente de agencias federales, estatales y locales.
La utilidad de cada uno está limitada por el aislamiento: es básicamente imposible para los investigadores que trabajan por su cuenta llegar a las reclamaciones de Medicare, los registros de vacunación, los datos raciales y étnicos de los estados sobre las vacunas o las bases de datos sobre las variantes de COVID-19 secuenciadas a partir de las muestras de pacientes de todo el país. De hecho, convertir los registros sin procesar en información útil es tan desafiante que se ha convertido en una próspera industria privada: los corredores de datos compran registros desidentificados en su conjunto, analizan algunas correlaciones entre las variables y venden sus análisis —o los datos en sí— a investigadores y gobiernos.
Haendel destaca: "Estamos dispuestos a entregar todos nuestros datos a una entidad comercial y dejar que nos los venda de nuevo, pero no estamos dispuestos a pagar por la infraestructura más básica de la salud pública. Este esfuerzo voluntario durante la pandemia es asombroso, pero no es una solución sostenible a largo plazo para hacer frente a las futuras pandemias, o simplemente a la atención médica en general".
El enfoque de N3C evita algunos de esos problemas, pero hay importantes lagunas en sus datos, en particular la información sobre la vacunación. La mayoría de las vacunas se administran en sitios comunitarios, mientras que los registros de la colaboración son de la atención primaria y hospitalizaciones, y por eso solo se han introducido 245.000 vacunas de Pfizer y 104.000 vacunas de Moderna en los registros. Una empresa de análisis de la atención médica está creando una herramienta para integrar de forma segura los registros de los pacientes de múltiples fuentes, pero no estará disponible hasta dentro de unos meses.
No obstante, incluso con esas lagunas, la enorme base de datos de N3C ofrece uno de los mejores recursos para los investigadores que buscan responder a las muchas preguntas sobre la COVID-19 que han quedado sin resolver.
Haendel concluye: "Ahí es donde estamos atascados actualmente. La verdad es que necesitamos a más expertos en el campo en todos los diferentes aspectos de la atención clínica, y su ciencia, para ayudarnos a encontrar todas las agujas en el pajar".