
Cuando uno piensa en las contribuciones de la IA a la ciencia, probablemente piensa en AlphaFold, el programa de plegado de proteínas de Google DeepMind que le valió a su creador un Premio Nobel el año pasado.
Ahora OpenAI dice que también está entrando en el juego de la ciencia, con un modelo para la ingeniería de proteínas.
La empresa afirma que ha desarrollado un modelo lingüístico que imagina proteínas capaces de convertir células normales en células madre, y que ha superado con creces a los humanos en esta tarea.
Este trabajo representa el primer modelo de OpenAI centrado en datos biológicos y su primera afirmación pública de que sus modelos pueden ofrecer resultados científicos inesperados. Como tal, es un paso hacia la determinación de si la IA puede o no hacer verdaderos descubrimientos, lo que algunos sostienen que es una prueba importante en el camino hacia la «inteligencia general artificial».
La semana pasada, el director ejecutivo de OpenAI, Sam Altman, dijo que estaba «seguro» de que su empresa sabría cómo construir una inteligencia artificial general, y añadió que «las herramientas superinteligentes podrían acelerar masivamente el descubrimiento científico y la innovación mucho más allá de lo que somos capaces de hacer por nuestra cuenta».
El proyecto de ingeniería de proteínas comenzó hace un año, cuando Retro Biosciences, una empresa de investigación sobre longevidad con sede en San Francisco, se puso en contacto con OpenAI para trabajar juntos.
Esa unión no se produjo por casualidad. Sam Altman, el CEO de OpenAI financió personalmente a Retro con 180 millones de dólares, como informó por primera vez MIT Technology Review en 2023.
Retro tiene el objetivo de alargar 10 años la esperanza de vida humana normal. Para ello, estudia los llamados factores Yamanaka. Se trata de un conjunto de proteínas que, cuando se añaden a una célula de la piel humana, hacen que se transforme en una célula madre de aspecto joven, un tipo que puede producir cualquier otro tejido del cuerpo.
Se trata de un fenómeno que los investigadores de Retro y de empresas ricamente financiadas como Altos Labs ven como el posible punto de partida para rejuvenecer animales, construir órganos humanos o suministrar células de repuesto.
Pero esta «reprogramación» celular no es muy eficaz. Lleva varias semanas y menos del 1% de las células tratadas en una placa de laboratorio completan el proceso de rejuvenecimiento.
El nuevo modelo de OpenAI, llamado GPT-4b micro, fue entrenado para sugerir formas de rediseñar los factores proteicos para aumentar su función. Según OpenAI, los investigadores utilizaron las sugerencias del modelo para cambiar dos de los factores Yamanaka y hacerlos más de 50 veces más eficaces, al menos según algunas mediciones preliminares.
«En general, las proteínas parecen mejores que las que los científicos fueron capaces de producir por sí mismos«, afirma John Hallman, investigador de OpenAI.
Hallman y Aaron Jaech, de OpenAI, así como Rico Meinl, de Retro, fueron los principales desarrolladores del modelo.
Los científicos externos no podrán saber si los resultados son reales hasta que se publiquen, algo que las empresas afirman estar planeando. El modelo tampoco está disponible para un uso más amplio: se trata de una demostración a medida, no del lanzamiento oficial de un producto.
«Este proyecto pretende demostrar que nos tomamos en serio nuestra contribución a la ciencia«, afirma Jaech. «Pero aún está por determinar si esas capacidades saldrán al mundo como un modelo independiente o si se incorporarán a nuestros modelos de razonamiento principales».
El modelo no funciona igual que el AlphaFold de Google, que predice la forma que adoptarán las proteínas. Según OpenAI, los factores Yamanaka son proteínas inusualmente flexibles y desestructuradas, por lo que requerían un enfoque distinto, para el que eran adecuados sus modelos de lenguaje de gran tamaño.
El modelo se entrenó con ejemplos de secuencias de proteínas de muchas especies, así como con información sobre qué proteínas tienden a interactuar entre sí. Aunque se trata de muchos datos, es sólo una fracción de los que se utilizaron para entrenar a los principales chatbots de OpenAI, lo que convierte a GPT-4b en un ejemplo de «modelo lingüístico pequeño» que funciona con un conjunto de datos específicos.
Una vez que los retrocientíficos recibieron el modelo, intentaron dirigirlo para que sugiriera posibles rediseños de las proteínas Yamanaka. La táctica utilizada es similar al método de los «pocos disparos», en el que un usuario consulta a un chatbot proporcionándole una serie de ejemplos con respuestas, seguidos de un ejemplo para que el bot responda.
Aunque los ingenieros genéticos tienen medios para dirigir la evolución de las moléculas en el laboratorio, normalmente sólo pueden probar un número limitado de posibilidades. E incluso una proteína de longitud típica puede modificarse de maneras casi infinitas (ya que se construyen a partir de cientos de aminoácidos, y cada ácido viene en 20 variedades posibles).
Sin embargo, el modelo de OpenAI a menudo arroja sugerencias en las que se cambia un tercio de los aminoácidos de las proteínas.
«Pusimos este modelo en el laboratorio de inmediato y obtuvimos resultados reales«, afirma Joe Betts-Lacroix, director general de Retro. Afirma que las ideas del modelo eran inusualmente buenas, lo que llevó a mejoras con respecto a los factores originales de Yamanaka en una fracción sustancial de los casos.
Vadim Gladyshev, investigador sobre el envejecimiento de la Universidad de Harvard que colabora con Retro, afirma que se necesitan mejores formas de fabricar células madre. «Para nosotros sería extremadamente útil. [Las células de la piel] son fáciles de reprogramar, pero otras células no», afirma. «Y hacerlo en una especie nueva suele ser extremadamente diferente, y no se consigue nada».
Aún no está claro cómo llega GPT-4b exactamente a sus conjeturas, como suele ocurrir con los modelos de IA. «Es como cuando AlphaGo aplastó al mejor humano en Go, pero llevó mucho tiempo averiguar por qué», dice Betts-Lacroix. «Todavía estamos averiguando lo que hace, y creemos que la forma en que lo aplicamos solo está arañando la superficie».
OpenAI afirma que la colaboración no ha supuesto ningún intercambio de dinero. Pero como el trabajo podría beneficiar a Retro -cuyo mayor inversor es Altman-, el anuncio puede sumarse a las preguntas que se arremolinan en torno a los proyectos paralelos del CEO de OpenAI.
El año pasado, el Wall Street Journal afirmó que las amplias inversiones de Altman en empresas tecnológicas privadas constituyen un «imperio de inversión opaco» que está «creando una lista creciente de conflictos potenciales», ya que algunas de estas empresas también hacen negocios con OpenAI.
En el caso de Retro, el simple hecho de estar asociada con Altman, OpenAI y la carrera hacia la inteligencia artificial general podría impulsar su perfil y aumentar su capacidad para contratar personal y recaudar fondos. Betts-Lacroix no respondió a las preguntas sobre si la empresa en fase inicial está actualmente en modo de recaudación de fondos.
OpenAI dice que Altman no estaba directamente involucrado en el trabajo y que nunca toma decisiones basadas en sus otras inversiones.