Pocos estudios de inteligencia artificial comparten la información necesaria para que la comunidad intente replicar sus resultados. Y, cuando lo hacen, los investigadores académicos no disponen de los recursos necesarios para reproducir las investigaciones. La crisis de replicación del sector está lastrando sus avances y abre la puerta a graves consecuencias para los usuarios de los algoritmos
El mes pasado, Nature publicó una dura crítica firmada por 31 científicos sobre un estudio de Google Health publicado en la revista a principios de este año. En el artículo, Google describía sus exitosos ensayos con una inteligencia artificial (IA) que buscaba signos de cáncer de mama en imágenes médicas. Pero, según los críticos, el equipo de Google proporcionó tan poca información sobre su código y sobre cómo se había probado que el estudio no era nada más que una acción promocional de la tecnología.
El autor principal de la respuesta, Benjamin Haibe-Kains, especializado en genómica computacional en la Universidad de Toronto (Canadá), advierte: "No pudimos soportarlo más. No se trata de este estudio en concreto, es una tendencia que llevamos presenciando durante varios años y ya ha empezado a molestarnos".
Haibe-Kains y sus colegas figuran entre el creciente número de científicos que se oponen a la falta de transparencia percibida en la investigación de la IA. El investigador añade: "Cuando vimos ese artículo de Google, nos dimos cuenta de que era otro ejemplo más de una revista de muy alto nivel que publicaba un estudio muy interesante que no tenía nada que ver con la ciencia. Es más bien un anuncio sobre una tecnología de moda. No se puede hacer nada con eso".
La ciencia se desarrolla sobre una base de confianza, que normalmente implica compartir suficientes detalles sobre cómo se lleva a cabo una investigación para permitir que otros la reproduzcan y comprueben los resultados por su cuenta. Así es como la ciencia se autocorrige y elimina los resultados que no se sostienen. La replicación también permite que otros trabajen a partir de esos resultados, lo que ayuda a avanzar en el campo. El trabajo científico que no se puede replicar se queda por el camino.
Al menos, así es en teoría. En la práctica, pocos estudios se replican por completo porque la mayoría de los investigadores tienen más interés en producir nuevos resultados que en reproducir los antiguos. Pero, en campos como la biología y la física, y la informática en general, se espera que los investigadores proporcionen la información necesaria para poder volver a realizar los experimentos, incluso si esas repeticiones son poco frecuentes.
Reciente, pero ambicioso
La IA está que arde por varias razones. Para empezar, acaba de lanzarse. En realidad, se ha convertido en una ciencia experimental en la última década, resalta la científica informática de Facebook AI Research y McGill University y coautora de la crítica Joelle Pineau. Y añade: "Antes era algo teórico, pero cada vez realizamos más experimentos. Y nuestra dedicación para proporcionar una metodología sólida se está quedando atrás por la ambición de nuestros experimentos".
El problema no es solo académico. La falta de transparencia impide que los nuevos modelos y técnicas de IA se evalúen adecuadamente en términos de solidez, sesgo y seguridad. La IA pasa de los laboratorios de investigación a las aplicaciones del mundo real cada vez más rápido, con un impacto directo en la vida de las personas. Pero los modelos de aprendizaje automático que funcionan bien en el laboratorio pueden fallar en el mundo real, con consecuencias potencialmente peligrosas. La replicación por parte de diferentes investigadores en distintos entornos revelaría los problemas con antelación y daría lugar a una mejor IA para todos.
La inteligencia artificial ya sufre el problema de la caja negra: a veces es imposible saber exactamente cómo o por qué un modelo de aprendizaje automático produce sus resultados. La falta de transparencia de los investigadores no hace más que agravar la situación. Los modelos grandes necesitan tantos ojos sobre ellos como sea posible, más personas probándolos y descubriendo cómo funcionan. Así la IA para atención médica sería más segura, la IA en la vigilancia policial más justa y los chatbots resultarían menos antipáticos.
Lo que impide que la replicación de IA ocurra como debería es la falta de acceso a tres cosas: código, datos y hardware. Según el informe de 2020 de State of AI, un análisis anual del campo bien examinado por los inversores Nathan Benaich e Ian Hogarth, solo el 15 % de los estudios de IA comparten su código. Los investigadores de la industria lo hacen menos que los de las universidades. En concreto, el informe critica a OpenAI y a DeepMind por mantener sus códigos en secreto.
Luego está la creciente brecha entre los que tienen y los que no tienen dos de los pilares de la IA: los datos y el hardware. Los datos suelen ser de propiedad privada, como la información que Facebook recopila sobre sus usuarios, o confidenciales, como en el caso de los registros médicos personales. Y los gigantes tecnológicos llevan a cabo cada vez más investigaciones con conjuntos de enormes y costosos ordenadores a los que pocas universidades o empresas más pequeñas tienen los recursos para acceder.
Por ejemplo, se estima que el entrenamiento del generador de lenguaje GPT-3 le costó a OpenAI entre 8,5 millones de euros y 10 millones de euros, un precio que ni siquiera incluye el coste de desarrollar y entrenar sus prototipos. "Probablemente esa cifra se podría multiplicar por al menos uno o dos órdenes de magnitud", opina Benaich, quien fundó la empresa de capital de riesgo Air Street Capital que invierte en start-ups de inteligencia artificial. Solo un pequeño puñado de grandes empresas tecnológicas puede permitirse ese tipo de trabajo y añade: "Nadie más puede dedicar esos enormes presupuestos a estos experimentos".
El ritmo de progreso es vertiginoso, con miles de artículos publicados cada año. Pero, si los investigadores no saben en cuáles confiar, resulta difícil que el campo avance. La replicación permite verificar que los resultados no han sido seleccionados según el interés de los autores y que las nuevas técnicas de IA realmente funcionan tal y como se describe. "Cada vez es más complicado saber qué resultados son resultados fiables y cuáles no", admite Pineau.
¿Qué se puede hacer? Como muchos investigadores de IA, Pineau divide su tiempo entre los laboratorios universitarios y corporativos. Durante los últimos años, se ha convertido en la fuerza impulsora de un cambio en cómo se publica la investigación de IA. Por ejemplo, el año pasado ayudó a definir una lista de verificación de cosas que los investigadores deben proporcionar, incluido el código y descripciones detalladas de los experimentos, cuando envían sus artículos a NeurIPS, una de las conferencias más importantes sobre la inteligencia artificial.
La replicación es su propia recompensa
Pineau también ha ayudado a lanzar un puñado de competiciones de reproducción, en los que los investigadores intentan replicar los resultados de los estudios publicados. Los participantes seleccionan trabajos aceptados en una conferencia y compiten para volver a realizar los experimentos utilizando la información proporcionada. Pero el único premio es el reconocimiento.
Esta falta de incentivos frena este tipo de esfuerzos en todas las ciencias, no solo en la IA. La replicación es esencial, pero no se recompensa. Una solución consiste en que los estudiantes hagan ese trabajo. En los últimos años, la estudiante de doctorado en Mila (el instituto de investigación en Montreal fundado por Yoshua Bengio) Rosemary Ke ha organizado un desafío de reproducibilidad en el que los estudiantes intentan replicar los estudios enviados a NeurIPS como parte de su curso de aprendizaje automático. A su vez, algunas réplicas exitosas son revisadas por pares y publicadas en la revista ReScience.
"Se necesita mucho esfuerzo para reproducir otro estudio desde cero. El desafío de la reproducibilidad reconoce este esfuerzo y da crédito a las personas que llevan a cabo un buen trabajo", asegura Ke. Junto a otros investigadores, la joven hace correr la voz en las conferencias de IA a través de los talleres para animar a los investigadores a hacer su trabajo más transparente. Este año, Pineau y Ke llevaron el desafío de la replicación a siete de las principales conferencias de IA, incluidas ICML e ICLR.
Otro impulso a la transparencia es el proyecto Papers with Code, creado por el investigador de inteligencia artificial Robert Stojnic mientras estaba en la Universidad de Cambridge (Reino Unido). (Stojnic es actualmente colega de Pineau en Facebook). Lanzado como un sitio web independiente donde los investigadores podían vincular un estudio al código que lo acompañaba, este año Papers with Code inició una colaboración con el popular servidor de preprints arXiv. Desde octubre, todos los artículos sobre aprendizaje automático en arXiv vienen con una sección de Papers with Code que se enlaza directamente al código que los autores quieren poner a disposición de los demás. El objetivo es que compartir sea la norma.
¿Han logrado marcar alguna diferencia este tipo de esfuerzos? Pineau descubrió que el año pasado, cuando se introdujo su lista de verificación, la cantidad de investigadores que incluían el código en sus artículos enviados a NeurIPS aumentó de menos del 50 % a alrededor del 75 %. Miles de revisores afirman que usaron el código para evaluar los trabajos enviados. Y el número de participantes en los desafíos de reproducibilidad también está subiendo.
Preocuparse por los detalles
Pero eso es solo el inicio. Haibe-Kains señala que el código por sí solo a menudo no es suficiente para volver a realizar un experimento. La construcción de modelos de IA implica realizar muchos cambios pequeños: añadir algunos parámetros por un lado, ajustar algunos valores por el otro. Cualquiera de estos detalles puede influir en que un modelo funcione o no. Sin metadatos que describan cómo se entrenan y ajustan los modelos, el código podría ser inútil. "El diablo está en los detalles", afirma.
Tampoco se sabe siempre qué código hay que compartir exactamente en primer lugar. Muchos laboratorios utilizan software especial para ejecutar sus modelos; a veces es exclusivo. Resulta difícil saber cuánto de ese código de soporte se tiene que compartir también, asegura Haibe-Kains.
A Pineau no le preocupan demasiado esos obstáculos, y afirma: "Deberíamos tener expectativas muy altas para compartir el código". Compartir datos es más complicado, pero también hay soluciones. Si los investigadores no pueden compartir sus datos, podrían dar instrucciones para que otros construyan conjuntos de datos similares. O podría haber un proceso en el que un pequeño número de auditores independientes tuvieran acceso a los datos, verificando los resultados para todos los demás, propone Haibe-Kains.
El mayor problema es el hardware. Pero DeepMind afirma que la investigación de alto coste como AlphaGo o GPT-3 tiene un efecto de goteo, por el que el dinero gastado por los laboratorios ricos con el tiempo conduce a unos resultados que benefician a todos. La IA que es inaccesible para los investigadores en sus primeras etapas, debido a que requiere mucha potencia informática, a menudo se vuelve más eficiente y, por lo tanto, más accesible, a medida que se desarrolla. "AlphaGo Zero superó al AlphaGo original con bastante menos recursos computacionales", resalta el vicepresidente de Investigación de DeepMind, Koray Kavukcuoglu.
En teoría, esto significa que incluso si la replicación se retrasa, al menos sigue siendo posible. Kavukcuoglu señala que el codificador belga de Mozilla que desarrolla software de ajedrez y Go en su tiempo libre Gian-Carlo Pascutto pudo recrear una versión de AlphaGo Zero llamada Leela Zero, utilizando los algoritmos descritos por DeepMind en sus artículos.
Pero Pineau cree que las investigaciones emblemáticas, como AlphaGo y GPT-3, son poco comunes. La mayor parte de la investigación de IA se lleva a cabo en los ordenadores disponibles para un laboratorio promedio, afirma. Y el problema no es exclusivo de la IA. Pineau y Benaich señalan la física de partículas, donde algunos experimentos solo se pueden realizar en los equipos costosos como el Gran Colisionador de Hadrones (LHC, por sus siglas en inglés).
Sin embargo, en física, distintos laboratorios universitarios realizan experimentos conjuntos en el LHC. Los grandes experimentos de IA generalmente se llevan a cabo en hardware que es de propiedad y está controlado por las empresas. Pero, incluso eso está cambiando, destaca Pineau. Por ejemplo, el grupo llamado Compute Canada está formando grupos de computación para permitir que las universidades realicen grandes experimentos de inteligencia artificial. Algunas empresas, como Facebook, también ofrecen a las universidades acceso limitado a su hardware. "Algunas puertas se están abriendo, aunque no del todo", lamenta.
Haibe-Kains está menos convencido. Cuando pidió al equipo de Google Health que compartiera el código de su IA de detección de cáncer, le respondieron que tenían que realizar más pruebas. El equipo repite esta justificación en una respuesta formal a las críticas de Haibe-Kains, también publicada en Nature: "Planeamos someter nuestro software a pruebas exhaustivas antes de su uso en un entorno clínico, trabajando junto a los pacientes, proveedores y reguladores para garantizar la eficacia y la seguridad". Los investigadores también aseguran que no tenían permiso para compartir todos los datos médicos que estaban usando.
Para Haibe-Kains, esto no es suficiente. Y detalla: "Si quieren crear un producto a partir de eso, entiendo completamente que no pueden revelar toda la información". Pero cree que, si algo se publica en una revista científica o en una conferencia, existe el deber de publicar el código que otros puedan ejecutar. A veces, eso puede significar compartir una versión entrenada con menos datos o que utiliza hardware menos costoso. Podría dar peores resultados, pero la gente podrá jugar con él. Y añade: "Los límites entre la creación de un producto y la realización de una investigación son cada vez más difusos. Creo que es una pérdida para el campo".
Los hábitos son difíciles de cambiar
Si las empresas van a ser criticadas por publicar algo, ¿para qué lo hacen? Existe un cierto grado de marketing, por supuesto. Pero la razón principal es que los mejores laboratorios corporativos están llenos de investigadores procedentes de universidades. Hasta cierto punto, la cultura en los lugares como Facebook AI Research, DeepMind y OpenAI está moldeada por los hábitos académicos tradicionales. Las empresas de tecnología también ganan al participar en la comunidad de investigación más amplia. Todos los grandes proyectos de IA en laboratorios privados se basan en varias capas de investigación pública. Y pocos investigadores de IA no han hecho uso de las herramientas de aprendizaje automático de código abierto como PyTorch de Facebook o TensorFlow de Google.
A medida que se realicen más investigaciones internas en las empresas tecnológicas gigantes, será inevitable encontrar cierto equilibrio entre las exigencias competitivas de las empresas y la investigación. La pregunta es cómo lo gestionarán los investigadores. A Haibe-Kains le gustaría que las revistas como Nature dividan lo que publican en secciones separadas: por un lado, los estudios reproducibles y por el otro, las exhibiciones tecnológicas.
Pineau es más optimista: "No estaría trabajando en Facebook si no tuviera un enfoque abierto a la investigación". Otros grandes laboratorios corporativos también enfatizan su compromiso con la transparencia. Kavukcuoglu detalla: "El trabajo científico requiere el análisis y la reproducción por parte de otros en el campo. Es una parte fundamental de nuestro método de investigación en DeepMind".
"OpenAI se ha convertido en algo muy diferente de un laboratorio tradicional. Naturalmente, eso plantea algunas preguntas", afirma la portavoz de la empresa, Kayla Wood. Explica que su organización está colaborando con más de 80 organizaciones académicas y de la industria en el grupo Partnership on AI para pensar en normas de publicación a largo plazo para la investigación.
Pineau cree que hay algo de verdad en eso y que las empresas de inteligencia artificial están demostrando una tercera forma de investigar, entre las dos corrientes de Haibe-Kains. La producción intelectual de los laboratorios privados de inteligencia artificial contrasta con la de las empresas farmacéuticas, por ejemplo, que invierten miles de millones de euros en medicamentos y mantienen gran parte del trabajo en secreto.
Queda por ver el impacto a largo plazo de las prácticas introducidas por Pineau y otros. ¿Cambiarán los hábitos para siempre? ¿Qué diferencia marcarán en la aceptación de la IA fuera de la investigación? Mucho de esto depende de la dirección que tome la IA. La tendencia de modelos y conjuntos de datos cada vez más grandes, la que prefiere OpenAI, por ejemplo, seguirá haciendo que la vanguardia de la IA sea inaccesible para la mayoría de los investigadores. Por otro lado, las nuevas técnicas, como la compresión de modelos y el aprendizaje less than one-shot, podrían revertir esta tendencia y permitir que más investigadores trabajen con una IA más pequeña y eficiente.
Sea como sea, la investigación de la IA seguirá dominada por las grandes empresas. Si se hace bien, no tiene por qué ser malo. Pineau concluye: "La IA está cambiando el funcionamiento de los laboratorios de investigación de la industria". La clave será asegurarse de que el campo más amplio tenga la oportunidad de participar. Porque la fiabilidad de la IA, de la que tanto depende, comienza en la vanguardia.