Aposté que ya es posible localizar a cualquier persona de origen europeo a partir de las bases de datos genéticas públicas de los test de genealogía. Y aunque perdí la apuesta, mi predicción no iba muy desencaminada. Probablemente una gran parte de su ADN ya está en internet
¿Qué probabilidades hay de que la policía identifique a una persona X a partir de una base de datos pública de ADN? Hace poco hice una apuesta sobre esto. Ahora, gracias a dos fenómenos de las matemáticas de California (EE. UU.), sabemos la respuesta. Y yo perdí, pero no por mucho.
Todo comenzó después de que el supuesto asesino en serie de Golden State fuera arrestado en abril. La policía había subido el ADN de la escena del crimen a una página web de genealogía de acceso abierto (GEDmatch) en la que pudo identificar a algunos parientes del supuesto asesino. Finalmente, la policía le encontró (ver El ADN de un millón de personas para encontrar a un asesino en serie).
El caso generó gran interés entre genealogistas, periodistas, genetistas y detectives de todo tipo. ¿Cómo lo hicieron los investigadores? ¿Está en riesgo nuestra privacidad genética? ¿Cómo es que nunca antes había pasado algo similar? Y, lo más importante, ¿qué probabilidades hay de que usted sea identificado, incluso aunque sea inocente?
Yo tenía una teoría. Hace poco informamos sobre el crecimiento explosivo en las pruebas de genealogía de ADN, a las que ya se han sometido más de 12 millones de personas. Suponiendo que cada uno tiene docenas de parientes, lancé mi apuesta en Twitter. Aposté a que, en este momento, cada ciudadano estadounidense tiene al menos un familiar en una base de datos de este tipo.
"¿De cuánto es la apuesta?", respondió al instante el profesor de derecho de la Universidad de Stanford (EE. UU.) Henry Greely.
El reto estaba en marcha, pero primero había que establecer los términos. En mi apuesta, planteé que más del 95 % de la gente podía encontrar, al menos, a un primo segundo en Ancestry.com, la mayor base de datos de las plataformas de búsqueda de parientes. Pero esto solo podría aplicarse a personas de origen europeo, porque en su mayoría son quienes han realizado las pruebas.
El perdedor tendría que enviar una muestra de su saliva, lo que permitiría que millones de desconocidos compararan sus resultados de ADN con los suyos. Ahora, gracias a un par de investigadores con un viernes por la tarde sin nada que hacer, tenemos una especie de respuesta, y parece que yo soy el perdedor. Y todo gracias a los genetistas matemáticos Graham Coop y Doc Edge.
El dúo de investigadores de la Universidad de California en Davis (EE. UU.) decidió calcular si la policía encontró al sospechoso de Golden State por pura suerte o si realmente las bases de datos ahora han alcanzado un volumen con el que no podrían fallar.
En una publicación de blog, los investigadores destacan algunos conceptos clave que limitaron la respuesta. Una es la "ampliación genealógica", un término con el que describen cuánto aumenta la cantidad de posibles parientes a medida que el grado de parentesco disminuye. Aunque usted pueda contar a sus hermanos con los dedos de una mano, es probable que tenga cientos de primos terceros.
También hay un fenómeno opuesto que reduce el margen de búsqueda. La razón por la que es posible encontrar concordancia genética entre familiares es que parte de su ADN es literalmente el mismo, o "idéntico por descendencia". Por ejemplo, usted comparte aproximadamente la mitad de su ADN con su padre. Usted y un primo hermano comparten ADN de los dos abuelos que tienen en común.
Sin embargo, las relaciones más distantes comparten menos ADN. La similitud genética con un primo tercero al que nunca ha conocido es inferior al 1 % o incluso nula. Por lo tanto, para las relaciones más distantes, el ADN puede no coincidir en nada.
Edge y Coop descubrieron que la policía de California tenía muchas probabilidades de encontrar a los parientes del asesino. La base de datos que usaron, GEDmatch, contiene alrededor de 950.000 perfiles. Según los científicos, las probabilidades de que un estadounidense al azar de origen europeo tenga un primo hermano en GEDmatch son del 3,5 %, de un 25 % para un primo segundo y de más del 90 % para un primo tercero. De hecho, al parecer, la policía encontró varios primos terceros del supuesto asesino.
Como se imaginarán, cuanto mayor sea la base de datos, mayores serán las probabilidades de que contenga ADN idéntico al suyo. De hecho, es casi imposible evitar una coincidencia con un primo segundo en Ancestry.com, de acuerdo con las estimaciones de Coop y Edge, aunque no tan probable como era necesario para ganar la apuesta.
Según sus estimaciones, la probabilidad de tener un primo segundo en esa base de datos es del 94 %, solo un poco por debajo de mi apuesta del 95 %. Dado que Ancestry se negó a proporcionar la cifra exacta, tendré que admitir que perdí mi apuesta por poco.
Honestamente, nunca he querido que se examinara mi ADN. Empresas como 23andMe y Helix me han enviado kits gratuitos, y nunca los devolví. ¿Qué voy a aprender con ellos? Sé más o menos de dónde soy. Y no estoy seguro de querer localizar a algún hermano no reconocido o descubrir que, en realidad, mi padre es el cartero.
Cada vez está más claro que a medida que las bases de datos crezcan en tamaño, no harán otra cosa que aumentar su poder, y nadie es capaz de adivinar qué usos se les puede dar en el futuro. Cuando renuncie a la confidencialidad de su ADN, que es como sus huellas dactilares, nunca podrá recuperarla.
La razón por la que decidí hacer la prueba de ascendencia, que cuesta unos 80 euros, no es solo que soy un buen perdedor. La decisión ya estaba tomada. De acuerdo con las estimaciones de Coop, es posible que tenga 200 primos terceros y 1.000 primos cuartos que ya se hayan hecho la prueba. Mi ADN, al igual que el suyo, ya está ahí afuera.