Inteligencia Artificial

La IA de plegamiento de proteínas de Google resuelve un histórico desafío de la biología

AlphaFold predice estructuras proteicas con una precisión nunca vista, un hito que los biólogos llevaban décadas persiguiendo. Distintos expertos coinciden en que esta inteligencia artificial ayudará a crear nuevos medicamentos, comprender mejor las enfermedades y desarrollar proteínas sintéticas útiles

por Will Douglas Heaven | traducido por Ana Milutinovic
03 Diciembre, 2020

DeepMind ya ha cosechado una buena racha de éxitos. Sus sistemas de inteligencia artificial (IA) han aprendido a jugar una variedad de juegos complejos con habilidades sobrehumanas, desde Go y StarCraft hasta el catálogo completo de Atari. Pero, la cara pública y cofundador de DeepMind, Demis Hassabis, siempre ha destacado que estos éxitos solo eran avances hacia un objetivo más amplio: una inteligencia artificial que nos ayude a comprender el mundo.

Esta semana, DeepMind y los organizadores de la tradicional competición Evaluación crítica de las técnicas para la predicción de la estructura de proteínas (CASP) han presentado una IA que debería tener el gran impacto que Hassabis ha estado buscando. La última versión de AlphaFold de DeepMind, el sistema de aprendizaje profundo capaz de predecir con precisión la estructura de las proteínas en el ancho de un átomo, ha resuelto uno de los grandes desafíos de la biología. "Es la primera aplicación de la IA para resolver un grave problema ", afirma el jefe del equipo que organiza CASP, John Moult, de la Universidad de Maryland (EE. UU.).

Una proteína se compone de una cadena de aminoácidos que se repliega con muchos giros, vueltas y complejos enredos. Esta estructura determina su función. Y descubrir qué hace cada proteína es clave para comprender los mecanismos básicos de la vida, cuándo funcionan y cuándo no.

Los esfuerzos para desarrollar vacunas contra la COVID-19 se han centrado en la proteína espiga del virus, por ejemplo. La manera en la que el coronavirus se engancha en las células humanas depende de la forma de esta proteína y de la de las que hay en el exterior de esas células. La espiga es solo una proteína entre miles de millones de ellas en todos los seres vivos; solo dentro del cuerpo humano hay decenas de miles de diferentes tipos de proteínas.

En la CASP de este año, AlphaFold predijo la estructura de docenas de proteínas con un margen de error de solo 1,6 ángstroms (es decir, 0,16 nanómetros o, más o menos, el tamaño de un átomo). Se trata de una capacidad muy superior a todos los demás métodos computacionales y, por primera vez, coincide con la exactitud de las técnicas experimentales para trazar la estructura de proteínas en el laboratorio, tales como la criomicroscopía electrónica, resonancia magnética nuclear y cristalografía de rayos x. Estas técnicas son costosas y lentas: pueden costar cientos de miles de euros y necesitan años de prueba y error para cada proteína. AlphaFold es capaz de encontrar la forma de una proteína en solo unos días.

Este descubrimiento podría ayudar a los investigadores a crear nuevos medicamentos y comprender mejor las enfermedades. A largo plazo, predecir la estructura de las proteínas también ayudará a diseñar proteínas sintéticas, como las enzimas que descomponen desechos o producen biocombustibles. Los investigadores también están explorando maneras de introducir proteínas sintéticas para aumentar el rendimiento de los cultivos y hacer que las plantas sean más nutritivas.

"Es un avance muy sustancial. Es algo que simplemente no esperaba que sucediera tan rápido. Es impactante, en cierto modo", opina el biólogo de sistemas de la Universidad de Columbia (EE. UU.) Mohammed AlQuraishi, que ha desarrollado su propio software para predecir la estructura de las proteínas.

"Tiene una gran importancia. Es un logro asombroso, igual que el que consiguieron con el juego de Go", asegura el director del Instituto de Diseño de Proteínas de la Universidad de Washington (EE. UU.), David Bakery, líder del equipo responsable de Rosetta, el grupo de herramientas de análisis de proteínas.

Números astronómicos

Identificar la estructura de una proteína es muy difícil. Para la mayoría de las proteínas, los investigadores tienen la secuencia de aminoácidos de la cadena, pero no la forma doblada al plegarse. Y normalmente hay un número astronómico de posibles formas para cada secuencia. Los investigadores llevan luchando con este problema al menos desde la década de 1970, cuando Christian Anfinsen ganó el premio Nobel por demostrar que las secuencias determinaban la estructura.

El lanzamiento de CASP en 1994 dio un impulso a este campo. Cada dos años, los organizadores publican unas 100 secuencias de aminoácidos de proteínas cuyas formas identificaron en el laboratorio, pero aún no se han publicado. Luego, decenas de equipos de todo el mundo compiten para encontrar la forma correcta de plegarlas mediante software. Los investigadores médicos ya utilizan muchas de las herramientas desarrolladas para CASP. Pero el progreso seguía siendo lento, con dos décadas de avances paulatinos que no conseguían producir un atajo para el minucioso trabajo de laboratorio.

CASP encontró el impacto que buscaba cuando DeepMind participó en 2018 con su primera versión de AlphaFold. Todavía no podía igualar la precisión de un laboratorio, pero dejó atrás a otras técnicas computacionales. Los investigadores tomaron nota: muchos de ellos adaptaron sus propios sistemas para parecerse más a AlphaFold.

Este año, más de la mitad de los participantes han utilizado alguna forma de aprendizaje profundo, resalta Moult. Como resultado, la precisión general fue mayor. El nuevo sistema de Baker, llamado trRosetta, usa algunas de las ideas de DeepMind de 2018. Pero, aun así, solo quedó en un "segundo lugar muy lejos del primero", admite.

En CASP, los resultados se puntúan mediante la prueba de distancia global (GDT, por sus siglas en inglés), que mide en una escala de 0 a 100 lo que se acerca una estructura predicha a la forma real de una proteína identificada en los experimentos de laboratorio. La última versión de AlphaFold obtuvo una buena puntuación para todas las proteínas del desafío. Pero recibió una puntuación GDT superior a 90 para alrededor de dos tercios de ellas. Su valor de GDT para las proteínas más difíciles fue 25 puntos más alto que el del siguiente mejor equipo, afirma el jefe del equipo AlphaFold en DeepMind, John Jumper. En 2018, la ventaja rondaba los seis puntos.

Una puntuación superior a 90 significa que cualquier diferencia entre la estructura predicha y la real podría deberse a errores experimentales en el laboratorio en vez de a un fallo en el software. También podría significar que la estructura predicha es una configuración alternativa válida a la identificada en el laboratorio, dentro del rango de una variación natural.

Según Jumper, había cuatro proteínas en la competición en las que los jueces independientes no habían terminado de trabajar en el laboratorio y las predicciones de AlphaFold señalaron las estructuras correctas.

AlQuraishi pensó que los investigadores tardarían 10 años en pasar de los resultados de AlphaFold de 2018 a los de este año. Esto está cerca del límite físico de la precisión que se puede obtener, explica. "Estas estructuras son flexibles. No tiene sentido hablar de soluciones por debajo de eso", añade.

Piezas de rompecabezas

AlphaFold se basa en el trabajo de cientos de investigadores de todo el mundo. DeepMind también recurrió a una amplia gama de expertos, formando un equipo de biólogos, físicos e informáticos. Los detalles de cómo funciona están presentando esta semana en CASP y en un artículo revisado por pares en una edición especial de la revista Proteins que saldrá el próximo año.

De momento, sabemos que utiliza una forma de red de atención, la técnica de aprendizaje profundo que permite que una IA se entrene centrándose en las partes de un problema mayor. Jumper compara este enfoque a un rompecabezas: primero se juntan las piezas por separado antes de colocarlas en un todo.

DeepMind entrenó a AlphaFold con alrededor de 170.000 proteínas extraídas del banco de datos de proteínas, del depósito público de secuencias y estructuras. Comparó múltiples secuencias del banco de datos y buscó los pares de aminoácidos que a menudo terminaban juntos en las estructuras plegadas. Luego usó estos datos para adivinar la distancia entre los pares de aminoácidos en las estructuras aún desconocidas. También es capaz de calcular la precisión de estas conjeturas. El entrenamiento tardó solo "unas semanas", con una potencia informática equivalente a entre 100 y 200 GPU.

La profesora y científica del Instituto Europeo de Bioinformática de Cambridge (Reino Unido) Dame Janet Thornton lleva 50 años trabajando en la estructura y función de las proteínas. En una rueda de prensa de la semana pasada afirmó: "Estaba empezando a pensar que era algo que no se resolvería mientras yo viviera".

Muchos fármacos se diseñan simulando su estructura molecular en 3D y buscando formas de encajar estas moléculas en las proteínas objetivo. Está claro que esto solo se puede conseguir si se conoce la estructura de esas proteínas. Esto ocurre en solo una cuarta parte de las aproximadamente 20.000 proteínas humanas, explica Thornton. Así quedan 15.000 objetivos de fármacos inexplorados. "AlphaFold abrirá una nueva área de investigación", añade.

DeepMind afirma que planea estudiar la leishmaniasis, la enfermedad del sueño y la malaria. Estas tres enfermedades tropicales causadas por parásitos están vinculadas a muchas estructuras proteicas desconocidas.

Un inconveniente de AlphaFold es que tarda más que las técnicas rivales. El sistema de AlQuraishi, que utiliza un algoritmo denominado red geométrica recurrente (RGN, por sus siglas en inglés), puede encontrar estructuras de proteínas un millón de veces más rápido y ofrecer sus resultados en segundos en vez de días. Sus predicciones son menos precisas, pero la velocidad es más importante para algunas aplicaciones, según el experto.

Los investigadores esperan descubrir cómo funciona exactamente AlphaFold. Baker afirma: "Después de describir al mundo cómo lo hacen, florecerán mil flores. La gente lo usará para todo tipo de cosas diferentes, para algo que no podemos ni imaginar actualmente".

Incluso un resultado menos preciso habría sido una buena noticia para las personas que trabajan con enzimas o bacterias, concluye AlQuraishi: "Pero, ahora tenemos algo aún mejor, con una relevancia inmediata para las aplicaciones farmacéuticas".

Inteligencia Artificial

La IA de plegamiento de proteínas de Google resuelve un histórico desafío de la biología

Números astronómicos

Piezas de rompecabezas

De la creatividad humana a la automatización: la IA agrava la precariedad en la traducción de manga

La IA llega a los videojuegos: la versión de Minecraft que presenta un mundo generado automáticamente en tiempo real

Así funciona el oligopolio de los datos que entrenan los modelos de IA