El aprendizaje profundo de DeepVariant produce una imagen completa del genoma de una persona e identifica automáticamente las mutaciones más sutiles. Los proyectos de este tipo podrían ayudar a acelerar las investigaciones médicas para enfermedades como el cáncer
Casi 15 años después de que se secuenciara el genoma humano por primera vez, dar sentido a la enorme cantidad de datos que codifica la vida humana sigue siendo un enorme reto. Pero también es precisamente el tipo de problema ideal para el aprendizaje automático.
El lunes, Google lanzó una herramienta llamada DeepVariant que utiliza las últimas técnicas de inteligencia artificial (IA) para construir una imagen más precisa del genoma de una persona a partir de los datos de secuenciación. DeepVariant ayuda a convertir las lecturas de secuenciación de alto rendimiento en una imagen de un genoma completo. Identifica automáticamente pequeñas mutaciones de inserción y de eliminación y las de pares de bases únicas en los datos de secuenciación.
La secuenciación de alto rendimiento se popularizó en la década de 2000, lo que facilitó la secuenciación de cada vez más genomas. Pero los datos generados sólo han dado lugar a una pequeña pincelada, y generalmente con errores, de la realidad de un genoma al completo. A los científicos les suele costar distinguir entre pequeñas mutaciones y errores aleatorios generados durante el proceso de secuenciación, especialmente en secciones repetitivas de un genoma. Estas mutaciones pueden estar directamente relacionadas con enfermedades como el cáncer.
Existen varias herramientas para interpretar estas lecturas, incluidas GATK, VarDict y FreeBayes. Sin embargo, estos programas de software suelen utilizar enfoques estadísticos y de aprendizaje automático más sencillos para identificar mutaciones al intentar descartar errores de lectura.
"El problema está en las partes difíciles del genoma, donde cada una de las [herramientas] tiene fortalezas y debilidades", explica el científico investigador de la Escuela de Salud Pública de la Universidad de Harvard (EEUU) Brad Chapman, que ayudó a desarrollar DeepVariant. El experto añade: "Estas delicadas regiones son cada vez más importantes para la secuenciación clínica, y es importante disponer de múltiples métodos".
Chapman trabajó con investigadores del equipo Google Brain, un grupo especializado en desarrollar y aplicar técnicas de inteligencia artificial; con Verily, otra subsidiaria de Alphabet centrada en las ciencias de la vida; y con el vicepresidente de DNAnexus, una plataforma en la nube para el almacenamiento de datos genómicos, Andrew Carroll.
El equipo recopiló millones de lecturas de alto rendimiento y genomas completamente secuenciados del proyecto Genome in a Bottle (GIAB), un proyecto público-privado para promover herramientas y técnicas de secuenciación genómica. Con los datos, alimentaron un sistema de aprendizaje profundo y modificaron los parámetros hasta que aprendió a interpretar los datos secuenciados con un alto nivel de precisión.
El año pasado, DeepVariant ganó el primer premio del PrecisionFDA Truth Challenge, un concurso administrado por la Agencia de Alimentos y Medicamentos de Estados Unidos (FDA, por sus siglas en inglés) para promover una secuencia genética más precisa.
"El éxito de DeepVariant demuestra que el aprendizaje profundo se puede aplicar a la genómica para entrenar automáticamente a programas que funcionan mejor que los complicados sistemas de ingeniería manual", señala el CEO de Deep Genomics, Brendan Frey. El lanzamiento de DeepVariant es la última señal de que el aprendizaje automático puede estar listo para impulsar los progresos de la genómica.
Deep Genomics forma parte de la nueva corriente de empresas que intentan utilizar enfoques de inteligencia artificial como el aprendizaje profundo para descubrir las causas genéticas de las enfermedades e identificar terapias farmacológicas potenciales (ver La inteligencia artificial, al rescate de las enfermedades genéticas sin cura).
Frey dice que los avances de la IA no se limitarán a secuenciar datos genómicos. El experto detalla: "La brecha que actualmente bloquea la medicina gira en torno a nuestra incapacidad de mapear con precisión las variantes genéticas asociadas a los mecanismos de la enfermedad, y utilizar ese conocimiento para identificar rápidamente terapias que salven vidas".
Otra empresa destacada en esta área es Wuxi Nextcode, con oficinas en Shanghái (China), Reykjavik (Islandia) y assachusetts (EEUU). Wuxi Nextcode ha acumulado la colección más grande del mundo de genomas humanos completamente secuenciados, yestá invirtiendo mucho en métodos de aprendizaje automático.
DeepVariant también estará disponible en Google Cloud Platform. Google y sus rivales se han puesto a añadir como locos nuevas funciones de aprendizaje automático a sus plataformas en la nube. Su objetivo es atraer a cualquiera que desee acceder a las últimas técnicas de inteligencia artificial.
En general, la tecnología podría mejorar muchos aspectos de la medicina durante los próximos años. Hay muchos tipos de datos médicos diferentes que podrían ofrecer información valiosa, como las imágenes y los registros médicos que podrían ayudar predecir dolencias gracias a patrones que un médico humano podría pasar por alto (ver La nueva victoria médica de la IA es esta máquina que detecta arritmias mejor que el médico).
Pero la medicina genómica representa una gran oportunidad, porque la escala y la complejidad de los datos no tienen precedentes. Frey concluye: "Por primera vez en la historia, nuestra capacidad de medir nuestra biología, e incluso de actuar en consecuencia, ha superado con creces nuestra capacidad de comprenderla. La única tecnología que tenemos para interpretar y actuar sobre estas vastas cantidades de datos es la inteligencia artificial. Eso va a cambiar por completo el futuro de la medicina".