Inteligencia Artificial

En código abierto y multilingüe: este modelo de lenguaje democratiza la IA

Un grupo de más de 1.000 investigadores de IA ha creado un extenso modelo de lenguaje multilingüe más grande que los modelos de Open AI y Google. Lo ofrecen de forma gratuita y en varios idiomas para que sea accesible a toda la comunidad

por Melissa Heikkilä | traducido por Ana Milutinovic
19 Julio, 2022

PARÍS (Francia). En investigación de inteligencia digital (IA), esto es lo más parecido a un concierto de rock. En el Centro de Supercomputación del Centro Nacional de Investigación Científica de Francia, a las afueras de París, varias filas de lo que parecen ser unas neveras negras producen un zumbido ensordecedor a unos 100 decibelios.

Estas neveras ruidosas, forman parte de un superordenador que ha pasado 117 días gestando un nuevo gran modelo de lenguaje (LLM, por sus siglas en inglés) denominado BLOOM. Los creadores de este nuevo modelo esperan que represente una desviación radical de la forma en la que se suele desarrollar la IA.

A diferencia de otros grandes modelos de lenguaje más famosos, como GPT-3 de OpenAI y LaMDA de Google, BLOOM (BigScience Large Open-science Open-access Multilingual Language Model; modelo de lenguaje extenso, de acceso abierto, multilingüe, en español) está diseñado para ser lo más transparente posible. De hecho, sus investigadores comparten detalles de los datos que usaron para entrenar a la IA, los desafíos durante el desarrollo y la forma en la que evaluaban su desempeño. De forma opuesta, OpenAI y Google no han compartido su código ni han puesto sus modelos a disposición del público, y los investigadores externos tienen muy poca información sobre cómo se entrenan estos modelos.

BLOOM ha sido creado durante el último año por más de 1.000 investigadores voluntarios en el proyecto denominado BigScience, que ha sido coordinado por la start-up de inteligencia artificial Hugging Face con fondos del Gobierno francés.y presentado hace unos días. Los investigadores esperan que el desarrollo de un LLM de acceso abierto que funcione tan bien como otros modelos líderes, genere cambios duraderos en la cultura del desarrollo de la IA y ayude a democratizar el acceso a la tecnología de IA de vanguardia para los investigadores de todo el mundo.

La facilidad de acceder al modelo es su mayor atractivo. Desde que se ha publicado, cualquier persona lo puede descargar y probarlo de forma gratuita en la web de Hugging Face. Los usuarios pueden elegir entre una variedad de idiomas y luego escribir peticiones para que BLOOM realice distintas tareas como escribir recetas o poemas, traducir o resumir textos o escribir código de programación. Los desarrolladores de IA pueden usar este modelo como base para crear sus propias aplicaciones.

Con 176.000 millones de parámetros, variables que determinan cómo los datos de entrada (input) se transforman en el resultado deseado (output), BLOOM es más grande que el GPT-3 de OpenAI de 175.000 millones de parámetros. BigScience asegura que su LLM ofrece niveles similares de precisión y toxicidad que otros modelos del mismo tamaño. Para los idiomas como el español y el árabe, BLOOM es el primer gran modelo de lenguaje de este tamaño.

Pero incluso los creadores del modelo advierten que no solucionará los problemas profundamente arraigados en torno a grandes modelos de lenguaje; es decir, la falta de políticas adecuadas sobre la gestión, privacidad de los datos y tendencia de los algoritmos a publicar contenido tóxico, como lenguaje racista o sexista.

IA de acceso abierto

Los grandes modelos de lenguaje son algoritmos de aprendizaje profundo que se entrenan en enormes cantidades de datos. Son una de las áreas más atractivas de la investigación en IA. Los modelos poderosos como GPT-3 y LaMDA, que generan texto como si lo hubiera escrito un humano, tienen un inmenso potencial para cambiar la forma en la que procesamos la información online. Se pueden usar como chatbots para buscar información, moderar contenido online, resumir libros o generar fragmentos de texto completamente nuevos basados en algunas indicaciones. Pero también están plagados de problemas. Solo hace falta insistir un poco para que estos modelos comiencen a producir contenido dañino.

Los modelos son también extremadamente exclusivos. Se tienen que entrenar en cantidades masivas de datos utilizando muchísimo poder de cómputo muy costoso, que es algo que solo las grandes empresas de tecnología (en su mayoría estadounidenses) como Google se pueden permitir.

La mayoría de las grandes compañías tecnológicas desarrolladoras de LLM de vanguardia, restringen su uso a personas externas y no han publicado información sobre el funcionamiento interno de sus modelos. Esto hace que sea difícil hacerlos responsables. Partiendo de este contexto, los investigadores que trabajan en BLOOM esperan cambiar ese secretismo exclusivo.

Meta ya se ha alejado del statu quo: en mayo de 2022, la compañía lanzó su propio gran modelo de lenguaje, Open Pretrained Transformer (OPT-175B), junto con su código y un libro de registro que detalla cómo se entrenaba el modelo.

Pero el modelo de Meta está disponible solo bajo pedido y tiene una licencia que limita su uso con fines de investigación. Hugging Face va un paso más allá. Las reuniones que detallan su funcionamiento durante el último año se habían grabado y se han publicado online, y cualquiera puede descargar el modelo de forma gratuita y utilizarlo para la investigación o para crear aplicaciones comerciales.

Un gran enfoque para BigScience fue incorporar en el modelo las consideraciones éticas desde el principio, en lugar de tratarlas más tarde. Los LLM se entrenan en muchísimos datos recogidos de internet. Esta estrategia puede ser problemática, porque estos conjuntos de datos incluyen mucha información personal y, a menudo, reflejan sesgos peligrosos. Por ello, el grupo de investigadores de BLOOM desarrolló estructuras de gobierno de datos específicamente para LLM que deberían dejar más claro qué datos se utilizan y a quién pertenecen. En el resultado, se obtuvieron diferentes conjuntos de datos de todo el mundo que no estaban disponibles online.

El grupo también ha lanzado una nueva Licencia de IA responsable, que es algo como un acuerdo de términos de servicio. Se ha diseñado para disuadir el uso de BLOOM en sectores de alto riesgo, como fuerzas policiales o atención médica; o para dañar, engañar, explotar o hacerse pasar por otras personas. "Se trata de un experimento para autorregular los LLM antes de que las leyes se pongan al día", explica Danish Contractor, investigador de IA que se ofreció como voluntario en el proyecto del que es co-creador. Pero, al final, no hay nada que impida a nadie abusar de BLOOM.

Según Giada Pistilli, especialista en ética de Hugging Face que redactó el código ético de BLOOM, el proyecto tuvo sus propias pautas éticas desde el principio, que funcionaron como bases rectoras para el desarrollo del modelo. Por ejemplo, se preocupó de reclutar a voluntarios de diversos orígenes y lugares, asegurándose de que las personas externas pudieran reproducir fácilmente los hallazgos del proyecto y publicar sus resultados de forma abierta.

Todos a bordo

Esta filosofía se traduce en un resultado muy diferente entre BLOOM y otros LLM disponibles en la actualidad. En comparación a otros modelos, BLOOM puede comprender muchos más idiomas. Es capaz de manejar 46 de ellos, incluidos francés, vietnamita, mandarín, indonesio, catalán, 13 idiomas de la India (como el hindi) y 20 idiomas africanos. Un poco más del 30% de sus datos de entrenamiento estaban en inglés. El modelo también comprende 13 lenguajes de programación.

Esto es muy inusual en el mundo de los grandes modelos de lenguaje, donde domina el inglés. Esa es otra consecuencia del hecho de que los LLM se crean extrayendo datos de internet: el inglés es el idioma más utilizado online.

La razón por la que BLOOM pudo mejorar esta situación es que el equipo reunió a los voluntarios de todo el mundo para crear conjuntos de datos en otros idiomas, incluso si esas lenguas no estaban tan bien representadas online. "Por ejemplo, Hugging Face organizó talleres con investigadores africanos de inteligencia artificial para tratar de encontrar conjuntos de datos, como registros de autoridades locales o universidades, que se podrían usar para entrenar el modelo en idiomas africanos", indica Chris Emezue, becario de Hugging Face e investigador en la organización Masakhane, que trabaja en el procesamiento de lenguaje natural para lenguas africanas.

Incluir tantos idiomas diferentes podría ser de gran ayuda para los investigadores de IA en países más pobres, que a menudo tienen dificultades para acceder al procesamiento del lenguaje natural porque utiliza una gran cantidad de poder informático caro. BLOOM les permite saltarse la parte costosa de desarrollar y entrenar los modelos para poder centrarse en crear las aplicaciones y ajustar los modelos para las tareas en sus idiomas nativos.

"La voluntad de incluir los idiomas africanos en el futuro del procesamiento del lenguaje natural mientras se entrenan los modelos de lenguaje, es un paso muy bueno, es importante incluirlos", señala Emezue.

Gestionar con precaución

Percy Liang, director del Centro de Investigación de Modelos de Fundación de la Universidad de Stanford (EE UU), afirma que BigScience ha hecho un trabajo "fenomenal" al construir una comunidad alrededor de BLOOM, y su enfoque de involucrar la ética y la gobernanza desde el principio es muy sensato.

Sin embargo, Liang no cree que eso conduzca a cambios significativos en el desarrollo de los LLM. "OpenAI, Google y Microsoft avanzan muy rápido", resalta.

Al fin y al cabo, BLOOM sigue siendo un gran modelo de lenguaje y aún presenta todos los defectos y riesgos asociados. Algunas empresas como OpenAI no han hecho públicos sus modelos o códigos porque, según argumentan, el lenguaje sexista y racista que se les ha introducido los vuelve demasiado peligrosos para usarlos de esa manera.

También es probable que BLOOM incorpore inexactitudes y lenguaje sesgado. Pero, dado que todo sobre el modelo está abierto y disponible, las personas podrán analizar lo bueno y lo malo del modelo, destaca la investigadora de inteligencia artificial y ética en Hugging Face Margaret Mitchell.

La mayor contribución de BigScience a la IA podría no ser el propio BLOOM, sino los numerosos proyectos de investigación derivados en los que participan sus voluntarios. Por ejemplo, dichos proyectos podrían reforzar referencias sobre la privacidad del modelo y encontrar formas de usar la tecnología en diferentes campos como la investigación biomédica.

"Un nuevo gran modelo de lenguaje no va a cambiar el curso de la historia", opina Teven Le Scao, investigador de Hugging Face que codirigió el entrenamiento de BLOOM. "Pero tener un buen modelo de lenguaje abierto en el que las personas puedan realmente investigar tendrá un fuerte impacto a largo plazo".

Cuando se trata de los posibles daños que podrían causar los LLM, "la caja de Pandora ya está abierta", concluye Le Scao. "Lo mejor que se puede hacer es crear las mejores condiciones posibles para que los investigadores los estudien".

Créditos

MS TECH | ENVATO, UNSPLASH

Inteligencia Artificial

En código abierto y multilingüe: este modelo de lenguaje democratiza la IA

IA de acceso abierto

Todos a bordo

Gestionar con precaución

Créditos

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025