Inteligencia Artificial

El enigma de la IA generativa: hace cosas asombrosas, pero no sabemos bien por qué

Resolver este misterio es uno de los mayores enigmas científicos de nuestro tiempo y un paso crucial para controlar modelos futuros más potentes

por Will Douglas Heaven | traducido por
08 Marzo, 2024

Hace dos años, Yuri Burda y Harri Edwards, investigadores de la empresa OpenAI, con sede en San Francisco, intentaban averiguar qué se necesitaba para que un modelo de lenguaje realizara operaciones aritméticas básicas. Querían saber cuántos ejemplos de suma de dos números necesitaba ver el modelo antes de ser capaz de sumar dos números cualesquiera que se le dieran. Al principio, las cosas no fueron demasiado bien: los modelos memorizaban las sumas que veían, pero no eran capaces de resolver otras nuevas.

Por accidente, Burda y Edwards dejaron que algunos de sus experimentos duraran mucho más de lo previsto, días en lugar de horas. A los modelos se les mostraban las sumas de ejemplo una y otra vez, mucho más allá del momento en que los investigadores habrían dado por terminado el experimento. Pero cuando por fin volvieron, se sorprendieron al ver que los experimentos habían funcionado. Habían entrenado un modelo lingüístico para sumar dos números, pero les había llevado mucho más tiempo de lo que pensaban.

Curiosos por saber qué ocurría, Burda y Edwards se asociaron con otros colegas para estudiar el fenómeno. Descubrieron que, en ciertos casos, los modelos podían aparentemente no aprender una tarea y, de repente, conseguirlo, como si se hubiera encendido una bombilla. No se suponía que el aprendizaje profundo funcionara así. Llamaron a este comportamiento grokking [término de la jerga de los programadores que significa comprender (N. de la T)].

"Es realmente interesante", dice Hattie Zhou, investigadora de IA en la Universidad de Montreal y Apple Machine Learning Research, que no participó en el trabajo. "¿Podemos estar seguros alguna vez de que los modelos han dejado de aprender? Quizá es que no los hemos entrenado el tiempo suficiente".

Este extraño comportamiento ha excitado la imaginación de la comunidad investigadora en general. "Mucha gente tiene opiniones", dice Lauro Langosco, de la Universidad de Cambridge (Reino Unido). "Pero no creo que haya consenso sobre lo que ocurre exactamente".

El grokking es sólo uno de los muchos fenómenos extraños que traen de cabeza a los investigadores de la IA. Los modelos de IA más grandes y, en particular, los grandes modelos de lenguaje parecen comportarse de formas que las matemáticas de los libros dicen que no deberían. Esto pone de relieve un hecho notable sobre el deep learning o “aprendizaje profundo”, la tecnología fundamental detrás del auge actual de la IA: a pesar de su éxito arrollador, nadie sabe exactamente cómo -o por qué- funciona.

"Obviamente, no es que seamos completamente ignorantes", dice Mikhail Belkin, científico computacional de la Universidad de California en San Diego, "pero nuestro análisis teórico está muy lejos de saber qué hacen estos modelos. Por ejemplo, ¿por qué pueden aprender idiomas? Creo que es muy misterioso".

Los modelos más grandes son ya tan complejos que los investigadores los estudian como si fueran extraños fenómenos naturales, realizando experimentos e intentando explicar los resultados. Muchas de esas observaciones van en contra de la estadística clásica, que hasta ahora nos había proporcionado nuestras mejores explicaciones al comportamiento de los modelos predictivos.

Quizá se esté preguntando “¿y qué?”. En las últimas semanas, Google DeepMind ha desplegado sus modelos generativos en la mayoría de sus aplicaciones de consumo. OpenAI asombró a la gente con Sora, su nuevo y asombroso modelo de texto a vídeo. Y empresas de todo el mundo se apresuran a adaptar la IA a sus necesidades. La tecnología funciona, ¿no es suficiente?

Pero averiguar por qué el aprendizaje profundo funciona tan bien no es sólo un intrigante rompecabezas científico. También podría ser clave para desbloquear la próxima generación de la tecnología, así como para controlar sus formidables riesgos.

"Son tiempos apasionantes. Mucha gente en este campo lo compara con la física de principios del siglo XX. Tenemos muchos resultados experimentales que no entendemos del todo, y a menudo cuando haces un experimento te sorprende", explica Boaz Barak, científico computacional de la Universidad de Harvard que durante este año trabaja en el llamado equipo de superalineación de OpenAI.

Código antiguo, trucos nuevos

La mayoría de las sorpresas tienen que ver con la forma en que los modelos pueden aprender a hacer cosas que no se les había enseñado a hacer. La generalización es una de las ideas fundamentales del aprendizaje automático y su mayor enigma. Los modelos aprenden a realizar una tarea (detectar caras, traducir frases, evitar peatones) entrenándose con un conjunto específico de ejemplos. Sin embargo, pueden generalizar y aprender a realizar esa tarea con ejemplos que no han visto antes. De algún modo, los modelos no se limitan a memorizar patrones que han visto, sino que crean reglas que les permiten aplicar esos patrones a casos nuevos. Y a veces, como ocurre con el grokking, la generalización se produce cuando menos la esperamos.

Los grandes modelos lingüísticos, como el GPT-4 de OpenAI o el Gemini de Google DeepMind, tienen una asombrosa capacidad de generalización. "La magia no está en que el modelo pueda aprender problemas matemáticos en inglés y luego generalizar a nuevos problemas matemáticos en inglés", dice Barak, "sino en que el modelo pueda aprender problemas matemáticos en inglés, luego ver algo de literatura francesa y, a partir de ahí, generalizar a la resolución de problemas matemáticos en francés. Eso es algo que va más allá de lo que puede explicar la estadística".

Cuando Zhou empezó a estudiar IA hace unos años, le llamó la atención que sus profesores se centraran en el cómo, pero no en el por qué. "Era como 'aquí está cómo entrenas estos modelos' y, luego, 'aquí está el resultado'. Pero no quedaba claro por qué este proceso conducía a modelos capaces de hacer cosas increíbles", explica Zhou, quien recuerda que cuando quiso saber más le dijeron que no había buenas respuestas. "Suponía que los científicos sabían lo que hacían. Que tenían las teorías y luego construían los modelos. No era así en absoluto", añade.

Los rápidos avances del aprendizaje profundo en los últimos más de 10 años se produjeron más por ensayo y error que por comprensión. Los investigadores copiaron lo que funcionaba para otros y añadieron sus propias innovaciones. Ahora hay muchos ingredientes diferentes que pueden añadirse a los modelos y un creciente recetario para utilizarlos. "La gente prueba este truco, aquel y aquel de más allá. Algunos son importantes. Otros probablemente no", explica Belkin.

A pesar de su éxito, las recetas son más alquimia que química."Funciona, lo cual es asombroso. Nos sorprende lo potentes que son estas cosas. Descubrimos ciertos conjuros a medianoche después de mezclar algunos ingredientes", añade.

Sobreajuste

El problema es que la IA en la era de los grandes modelos lingüísticos parece desafiar la estadística que viene en los libros. Los modelos más potentes de la actualidad son enormes, con hasta un billón de parámetros (los valores de un modelo que se ajustan durante el entrenamiento). Sin embargo, la estadística nos dice que, a medida que los modelos crecen, primero deberían mejorar su rendimiento, para luego empeorar debido a algo llamado sobreajuste.

Cuando un modelo se entrena con un conjunto de datos, intenta ajustarlos a un patrón. Imagínese un montón de puntos de datos representados en un gráfico. Un patrón que se ajuste a los datos puede representarse en ese gráfico como una línea que atraviesa los puntos. El proceso de entrenamiento de un modelo consiste en encontrar una línea que se ajuste a los datos de entrenamiento (los puntos del gráfico) y a los nuevos datos (los nuevos puntos).

Una línea recta es un modelo, pero probablemente no será demasiado precisa, ya que no se ajustará a algunos de los puntos. Una línea ondulada que conecte todos los puntos obtendrá la máxima puntuación en los datos de entrenamiento, pero no puede generalizarse. Cuando esto ocurre, se dice que el modelo está “sobreajustado” por el exceso de datos.

Según la estadística clásica, cuanto más grande es un modelo, más propenso es al sobreajuste. Esto se debe a que, con más parámetros con los que jugar, es más fácil que un modelo dé con líneas ondulantes que conecten todos los puntos. Esto sugiere que hay un punto óptimo entre el infraajuste y el sobreajuste que un modelo debe encontrar si quiere generalizar. Y, sin embargo, esto no es lo que vemos con los grandes modelos. El ejemplo más conocido es el fenómeno conocido como “doble descenso”.

El rendimiento de un modelo suele representarse en términos del número de errores que comete: a medida que aumenta el rendimiento, la tasa de error disminuye (o desciende). Durante décadas, se creyó que la tasa de error bajaba y luego subía a medida que los modelos se hacían más grandes: imagine una curva en forma de U con el punto dulce para la generalización en el punto más bajo. Pero en 2018, Belkin y sus colegas descubrieron que cuando ciertos modelos se hacían más grandes, su tasa de error bajaba, luego subía y luego volvía a bajar (un doble descenso, o curva en forma de W). En otras palabras, los modelos grandes de alguna manera superaban ese punto dulce y, después, afrontaban el problema de sobreajuste, mejorando aún más a medida que se hacían más grandes.

Un año después, Barak fue coautor de un artículo que demostraba que el fenómeno del doble descenso era más común de lo que muchos pensaban. Ocurre no sólo cuando los modelos se hacen más grandes, sino también en modelos con grandes cantidades de datos de entrenamiento o modelos que se entrenan durante más tiempo. Este comportamiento, denominado sobreajuste benigno, aún no se comprende del todo. Plantea cuestiones básicas sobre cómo deben entrenarse los modelos para sacarles el máximo partido.

Los investigadores han esbozado versiones de lo que creen que está ocurriendo. Belkin cree que entra en juego una especie de efecto de la navaja de Occam: el patrón más simple que se ajusta a los datos -la curva más suave entre los puntos- suele ser el que mejor generaliza. La razón de que los modelos más grandes sigan mejorando más de lo que parece podría ser que los modelos más grandes tienen más probabilidades de dar con la curva que mejor se ajusta que los más pequeños: más parámetros significan más curvas posibles que probar después de descartar la más ondulada.

"Nuestra teoría parecía explicar por qué funcionaba. Y entonces la gente hizo modelos que podían hablar 100 idiomas y fue como, vale, no entendemos nada de nada", explica Belkin, entre risas: "Resultó que ni siquiera estábamos arañando la superficie".

Para este informático, los grandes modelos lingüísticos son todo un misterio. Estos modelos se basan en transformadores, un tipo de red neuronal que es buena procesando secuencias de datos, como palabras en frases.

Hay mucha complejidad dentro de los transformadores, dice Belkin. Pero cree que, en el fondo, hacen más o menos lo mismo que un constructo estadístico mucho mejor comprendido llamado cadena de Markov, que predice el siguiente elemento de una secuencia basándose en lo que ha venido antes. Sin embargo, eso no basta para explicar del todo lo que pueden hacer los grandes modelos lingüísticos. "Es algo que, hasta hace poco, pensábamos que no funcionaba. Eso significa que faltaba algo fundamental. Identifica una laguna en nuestra comprensión del mundo", explica.

Belkin va más allá. Cree que podría haber un patrón matemático oculto en el lenguaje que los grandes modelos lingüísticos llegaran a explotar de algún modo: "Pura especulación, pero ¿por qué no?".

"El hecho de que estas cosas modelen el lenguaje es probablemente uno de los mayores descubrimientos de la historia. Que se pueda aprender un idioma simplemente prediciendo la siguiente palabra con una cadena de Markov me parece asombroso", añade.

Empezar poco a poco

Los investigadores intentan descifrarlo pieza a pieza. Como los grandes modelos son demasiado complejos para estudiarlos por sí mismos, Belkin, Barak, Zhou y otros experimentan en cambio con variedades más pequeñas (y antiguas) de modelos estadísticos que se comprenden mejor. Entrenar estos modelos en diferentes condiciones y con distintos tipos de datos y observar lo que ocurre puede ayudar a comprender mejor lo que sucede. Esto ayuda a poner en marcha nuevas teorías, pero no siempre está claro si esas teorías serán válidas también para modelos más amplios. Al fin y al cabo, es en la complejidad de los modelos grandes donde residen muchos de los comportamientos extraños.

¿Está cerca una teoría del aprendizaje profundo? David Hsu, informático de la Universidad de Columbia que fue uno de los coautores con Belkin en el artículo sobre el doble descenso, no espera tener pronto todas las respuestas. "Ahora tenemos mejores intuiciones, pero… ¿explicar realmente por qué las redes neuronales tienen este tipo de comportamiento inesperado? Aún estamos lejos de conseguirlo", explica.

En 2016, Chiyuan Zhang del MIT y sus colegas de Google Brain (equipo de investigación de inteligencia artificial de aprendizaje profundo bajo el paraguas de Google AI) publicaron un influyente artículo titulado Understanding Deep Learning Requires Rethinking Generalization (Entender el aprendizaje profundo requiere repensar la generalización). En 2021, cinco años después, volvieron a publicar el documento, llamándolo Understanding Deep Learning (Still) Requires Rethinking Generalization (Entender el aprendizaje profundo (aún) requiere repensar la generalización). ¿Y en 2024? "Más o menos, sí y no… últimamente se ha avanzado mucho, pero surgen muchas más preguntas de las que se resuelven", expresa Zhang.

Mientras tanto, los investigadores siguen luchando incluso con las observaciones básicas. En diciembre, Langosco y sus colegas presentaron un artículo en NeurIPS, una importante conferencia sobre IA, en el que afirmaban que el grokking y el doble descenso son, de hecho, aspectos del mismo fenómeno. "Se parecen bastante", afirma Langosco. En su opinión, una explicación de lo que ocurre debería tener en cuenta ambas cosas.

En la misma conferencia, Alicia Curth, que estudia estadística en la Universidad de Cambridge, y sus colegas argumentaron que el doble descenso es en realidad una ilusión. "No me sienta muy bien que el aprendizaje automático moderno sea una especie de magia que desafía todas las leyes que hemos establecido hasta ahora", dice Curth. Su equipo argumentó que el fenómeno del doble descenso –según el cual los modelos parecen funcionar mejor, luego peor y luego mejor de nuevo a medida que se hacen más grandes– surge por la forma en que se midió la complejidad de los modelos.

Belkin y sus colegas utilizaron el tamaño del modelo -el número de parámetros- como medida de complejidad. Pero Curth y sus colegas descubrieron que el número de parámetros podría no ser un buen sustituto de la complejidad, porque añadir parámetros a veces hace que un modelo sea más complejo y a veces lo hace menos. Depende de cuáles sean los valores, de cómo se utilicen durante el entrenamiento y de cómo interactúen con los demás, muchos de los cuales permanecen ocultos dentro del modelo. "Nuestra conclusión es que no todos los parámetros del modelo son iguales", dice Curth.

En resumen, si se utiliza una medida diferente de la complejidad, los grandes modelos pueden ajustarse perfectamente a la estadística clásica. Esto no quiere decir que haya muchas cosas que no entendamos sobre lo que ocurre cuando los modelos aumentan de tamaño, afirma Curth. Pero ya tenemos todas las matemáticas que necesitamos para explicarlo.

Un gran misterio de nuestro tiempo

Es cierto que este tipo de debates pueden desviarse del tema. ¿Qué importancia tiene que los modelos de inteligencia artificial se basen o no en la estadística clásica?

Una respuesta es que una mejor comprensión teórica ayudaría a construir una IA aún mejor o a hacerla más eficiente. De momento, los avances han sido rápidos pero impredecibles. Muchas de las cosas que puede hacer la GPT-4 de OpenAI sorprendieron incluso a sus creadores. Los investigadores siguen discutiendo sobre lo que puede y no puede conseguir. "Sin algún tipo de teoría fundamental, es muy difícil hacerse una idea de lo que podemos esperar de esto", afirma Belkin.

Barak está de acuerdo: "Incluso cuando tenemos los modelos, no es sencillo, ni siquiera en retrospectiva, decir exactamente por qué ciertas capacidades surgieron cuando lo hicieron".

No se trata sólo de gestionar el progreso, sino también de prever los riesgos. Muchos de los investigadores que trabajan en la teoría que subyace al aprendizaje profundo están motivados por preocupaciones de seguridad para futuros modelos. "No sabemos qué capacidades tendrá GPT-5 hasta que lo entrenemos y lo probemos. Ahora mismo podría ser un problema de tamaño medio, pero se convertirá en un problema realmente grande en el futuro a medida que los modelos sean más potentes", mantiene Langosco.

Barak trabaja en el equipo de superalineación de OpenAI, creado por el científico jefe de la empresa, Ilya Sutskever, para averiguar cómo impedir que una hipotética superinteligencia se vuelva rebelde. "Me interesa mucho obtener garantías. Si puedes hacer cosas asombrosas pero no puedes controlarlas realmente, entonces no es tan asombroso. ¿De qué sirve un coche que puede conducir a 300 millas por hora si tiene un volante tembloroso?", compara.

Pero por debajo de todo eso también hay un gran reto científico. "La inteligencia es sin duda uno de los grandes misterios de nuestro tiempo", afirma Barak.

"Somos una ciencia muy incipiente. Las preguntas que más me entusiasman este mes pueden ser distintas de las que más me entusiasmen el mes que viene. Todavía estamos descubriendo cosas. Necesitamos mucho experimentar y sorprendernos", concluye.

Inteligencia Artificial

El enigma de la IA generativa: hace cosas asombrosas, pero no sabemos bien por qué

Código antiguo, trucos nuevos

Sobreajuste

Empezar poco a poco

Un gran misterio de nuestro tiempo

DeepSeek cuestiona la idea de que la IA necesita más energía

El hambre de energía de la IA alimenta el resurgir nuclear

La carrera por la IA entre EE UU y China pone en peligro la paz mundial