La tendencia empezó en 2020 con el modelo de lenguaje GPT-3, con 175.000 millones de parámetros, una cifra que no ha dejado de crecer gracias a los rivales del sector. Pero nadie sabe por qué el tamaño importa tanto y el enfoque no resuelve el problema de los sesgos de los datos de entrenamiento ni supone innovaciones disruptivas
Este año ha estado marcado por los modelos de inteligencia artificial (IA) de gran tamaño.
Cuando OpenAI lanzó GPT-3, en junio de 2020, la aparente comprensión del lenguaje de esta red neuronal resultaba asombrosa. Podía generar frases convincentes, conversar con personas e incluso autocompletar código. GPT-3 también era enorme, más grande que cualquier otra red neuronal jamás construida, y desencadenó una tendencia completamente nueva en IA, la de cuanto más grande, mejor.
A pesar de la predisposición de GPT-3 a imitar el sesgo y la toxicidad inherentes al texto online con el que se entrenó, y aunque se necesita una cantidad enorme e insostenible de potencia informática para enseñar esos trucos a un modelo tan grande, elegimos GPT-3 como una de las tecnologías innovadoras de 2020, para bien y para mal.
Pero el impacto de GPT-3 quedó aún más claro en 2021. Este año ha traído una proliferación de grandes modelos de IA, construidos por varias empresas de tecnología y los mejores laboratorios de inteligencia artificial, muchos de los cuales superaron al GPT-3 en tamaño y capacidad. ¿Qué tamaño pueden llegar a tener y a qué precio?
GPT-3 llamó la atención del mundo no solo por lo que podía hacer, sino también por cómo lo hacía. El sorprendente salto en el rendimiento, especialmente la capacidad de GPT-3 para generalizar tareas del lenguaje en las que no había sido entrenado específicamente, no provino de mejores algoritmos (aunque depende bastante de un tipo de red neuronal inventada por Google en 2017, llamada transformador), sino de su tamaño.
En un reciente debate en la principal conferencia sobre inteligencia artificial NeurIPS, el investigador de OpenAI y uno de los diseñadores de GPT-3 Jared Kaplan admitió: "Pensábamos que necesitábamos una nueva idea, pero lo logramos solo gracias a la escala".
Por su parte, en octubre, dos investigadores de Microsoft publicaron una publicación de blog anunciando el enorme modelo Megatron-Turing NLG de la empresa, construido en colaboración con Nvidia, en la que afirmaron: "Seguimos viendo un enorme incremento en tamaño de los modelos de IA que conducen a un mejor rendimiento, aparentemente sin un fin a la vista".
¿Qué significa que un modelo sea tan enorme? El tamaño de un modelo, de una red neuronal entrenada, se mide por la cantidad de parámetros que tiene. Se trata de los valores que se modifican una y otra vez durante el entrenamiento y luego se usan para las predicciones del modelo. En términos generales, cuantos más parámetros tenga un modelo, más información podrá absorber de sus datos de entrenamiento y más precisas serán sus predicciones sobre los datos nuevos.
GPT-3 tiene 175.000 millones de parámetros, 10 veces más que su predecesor, GPT-2. Pero ya ha quedado eclipsado por la generación de 2021. El gran modelo de lenguaje Jurassic-1, disponible comercialmente, lanzado este septiembre por la start-up estadounidense AI21 Labs, superó a GPT-3 con 178.000 millones de parámetros. Gopher, el nuevo modelo lanzado por DeepMind en diciembre, tiene 280.000 millones de parámetros. Megatron-Turing NLG tiene 530.000 millones. Los modelos Switch-Transformer y GLaM de Google tienen un billón y 1,2 billones de parámetros, respectivamente.
Esta tendencia no ocurre solo en EE. UU. Este año, el gigante tecnológico chino Huawei construyó un modelo de lenguaje de 200.000 millones de parámetros llamado PanGu. Inspur, otra empresa china, presentó el modelo Yuan 1.0 de 245.000 millones de parámetros. Baidu y el instituto de investigación de Shenzhen (China) Peng Cheng Laboratory, anunciaron PCL-BAIDU Wenxin, su modelo con 280.000 millones de parámetros que Baidu ya está usando en una variedad de aplicaciones, como la búsqueda en internet, feeds de noticias y altavoces inteligentes. La Academia de IA de Beijing (China) lanzó Wu Dao 2.0, que tiene 1,75 billones de parámetros.
Además, la empresa surcoreana de búsqueda en internet Naver hizo público su modelo denominado HyperCLOVA, con 204.000 millones de parámetros.
Cada uno de estos modelos es una considerable hazaña de ingeniería. Para empezar, entrenar un modelo con más de 100.000 millones de parámetros es muy complejo: cientos de GPU (unidades de procesamiento gráfico) individuales (el hardware elegido para entrenar las redes neuronales profundas) deben estar conectadas y sincronizadas, y la división de datos de entrenamiento debe ir por fragmentos distribuidos en el orden correcto y en el momento adecuado.
Los grandes modelos de lenguaje se han convertido en proyectos de prestigio que muestran la destreza técnica de una empresa. No obstante, pocos de estos nuevos modelos ayudan a avanzar la investigación más allá de repetir la demostración de que la mayor escala da buenos resultados.
Solo hay un puñado de innovaciones. Después de entrenarse, Switch-Transformer y GLaM de Google usan una fracción de sus parámetros para realizar predicciones y ahorrar algo de potencia informática. PCL-Baidu Wenxin combina un modelo como GPT-3 con un gráfico de conocimiento (la técnica utilizada en la IA simbólica de la vieja escuela para almacenar datos). Junto con Gopher, DeepMind lanzó RETRO, su modelo de lenguaje con solo 7.000 millones de parámetros que compite con otros modelos 25 veces su tamaño, consultando una base de datos de documentos cuando genera texto. Esto hace que sea menos costoso entrenar a RETRO que a sus rivales gigantes.
Sin embargo, a pesar de los impresionantes resultados, los investigadores aún no comprenden exactamente por qué aumentar el número de parámetros conduce a un mejor rendimiento. Tampoco tienen una solución para el lenguaje tóxico y la desinformación que estos modelos aprenden y repiten. Como reconoció el equipo original de GPT-3 en un artículo que describe su tecnología: "Los modelos entrenados en internet contienen los sesgos de internet".
DeepMind afirma que la base de datos de RETRO es más fácil de filtrar en busca de lenguaje nocivo que un modelo monolítico de caja negra, pero no lo ha demostrado del todo. Más información podría provenir de la iniciativa BigScience, el nuevo consorcio creado por la empresa de inteligencia artificial Hugging Face, que consta de alrededor de 500 investigadores, muchos de ellos de grandes empresas tecnológicas, que ofrecen su tiempo como voluntarios para construir y estudiar un modelo de lenguaje de código abierto.
En un artículo publicado a principios de este año, la investigadora Timnit Gebru y sus colegas destacaron una serie de problemas no resueltos con los modelos como GPT-3: "Nos gustaría saber si se ha pensado lo suficiente en los posibles riesgos asociados con su desarrollo y en las estrategias para mitigar estos riesgos".
A pesar de todo el esfuerzo realizado este año en la construcción de nuevos modelos de lenguaje, la IA todavía queda en la sombra de GPT-3. "En 10 o 20 años, los modelos a gran escala serán la norma", aseguró Kaplan durante el debate de NeurIPS. Si fuera así, es hora de que los investigadores se centren no solo en el tamaño de un modelo, sino también en lo que hacen con él.