STEPHANIE ARNETT/MITTR | GETTY, ENVATO

Inteligencia Artificial

Todo sobre LLaMA 2, la nueva IA de Meta para competir con ChatGPT

La empresa espera que el hecho de que LLaMA 2 sea de código abierto le dé ventaja sobre rivales como OpenAI

por Melissa Heikkilä | traducido por
19 Julio, 2023

Meta apuesta por la IA de código abierto y ayer presentaron LLaMA 2, su primer gran modelo lingüístico de uso gratuito.

Desde que OpenAI lanzó ChatGPT, su popular chatbot de IA, en noviembre, las empresas tecnológicas se han apresurado a lanzar otros modelos con la esperanza de derrocar su supremacía. Mientras tanto, Meta ha ido por el carril lento. En febrero, cuando sus competidores -Microsoft y Google- anunciaron sus chatbots de IA, Meta lanzó la primera versión de LLaMA, más pequeña y restringida a los investigadores. Aunque espera que el lanzamiento de LLaMA 2 y su gratuidad para cualquiera que desee crear productos comerciales le ayuden a ponerse al día.

La empresa está lanzando un conjunto de modelos de IA, que incluye versiones de LLaMA 2 en diferentes tamaños. Así como una versión del modelo de IA que la gente puede construir en un chatbot, similar a ChatGPT. A diferencia de este, al que se puede acceder a través de la web de OpenAI, el modelo debe descargarse de los socios de lanzamiento de Meta. Es decir, de Microsoft Azure, Amazon Web Services y Hugging Face.

"Esto beneficia a toda la comunidad de IA y da a los usuarios la posibilidad de optar por enfoques de código cerrado o de código abierto para lo que convenga a su aplicación particular", afirma Ahmad Al-Dahle, vicepresidente de Meta y director del trabajo de IA generativa de la empresa. "Es un momento muy importante para nosotros".

Si bien aún quedan muchas advertencias. Meta no facilita información sobre el conjunto de datos que utilizó para entrenar a LLaMA 2, y tampoco puede garantizar que no incluyera obras protegidas por derechos de autor o datos personales, según un documento de investigación de la empresa que fue compartido en exclusiva con MIT Technology Review. Además, LLaMA 2 comparte los mismos problemas con todos los grandes modelos lingüísticos, es propenso a compartir datos falsos y lenguaje ofensivo.

Según Al-Dahle, la idea es que al lanzar el modelo para que los desarrolladores y las empresas jueguen con él, Meta aprenda lecciones importantes sobre cómo hacer sus modelos más seguros, menos sesgados y más eficientes.

Un potente modelo de código abierto como LLaMA 2 supone una amenaza considerable para OpenAI, según afirma Percy Liang, director del Centro de Investigación sobre Modelos de Fundamentos de Stanford (Stanford). Liang formó parte del equipo de investigadores que desarrolló Alpaca, un competidor de código abierto de GPT-3, una versión anterior del modelo lingüístico de OpenAI.

"LLaMA 2 no es GPT-4", afirma Liang. En su informe de investigación, Meta admite que todavía hay una gran diferencia de rendimiento entre LLaMA 2 y GPT-4, el modelo de lenguaje de IA de última generación. "Para muchos casos de uso, no se necesita GPT-4".

Un modelo más personalizable y transparente, como el que presenta LLaMA 2, podría ayudar a las empresas a crear productos y servicios más rápido que un modelo grande y sofisticado con dominio, asegura Liang.

"Si LLaMA 2 se convierte en la principal alternativa de código abierto a OpenAI sería una gran victoria para Meta", reconoce Steve Weber, profesor de la Universidad de California en Berkeley.

Lo que se esconde bajo el capó

Según Al-Dahle hubo que hacer muchos ajustes para que LLaMA 2 estuviera listo para su lanzamiento, y fuera más seguro y menos propenso a arrojar falsedades como su predecesor.

Meta tiene muchos errores de las que aprender. Galactica, su modelo lingüístico para la ciencia, se desconectó al cabo de solo tres días. Y LlaMA,su anterior modelo que estaba destinado únicamente a la investigación, se filtró en internet. Esto provocó las críticas de varios políticos, que se preguntaban si Meta tenía en cuenta los riesgos asociados a los modelos lingüísticos de IA, como la desinformación y el acoso.

Para mitigar el riesgo de repetir estos errores, Meta aplicó una mezcla de diferentes técnicas de aprendizaje automático destinadas a mejorar la utilidad y la seguridad.

Según Sasha Luccioni, investigadora de Hugging Face -la startup de IA-, el enfoque de Meta para entrenar a LLaMA 2 tenía más pasos de lo habitual para los modelos generativos de IA.

El modelo se entrenó con un 40% más de datos que su predecesor. Al-Dahle recuerda que hubo dos fuentes de datos para el entrenamiento: datos extraídos de internet, así como un conjunto de datos perfeccionado y ajustado, según los comentarios de los anotadores humanos, para que se comportara de la forma más deseable. La empresa afirma que no utilizó metadatos de usuarios y que excluyó los datos de webs que sabía que contenían mucha información personal.

A pesar de ello, LLaMA 2 sigue vertiendo lenguaje ofensivo, dañino y problemático, al igual que sus modelos rivales. Meta afirma que no eliminó los datos nocivos del conjunto de datos, ya que dejarlos podría ayudar a LLaMA 2 a detectar mejor el discurso de odio, y eliminarlos podría suponer el riesgo de sesgar accidentalmente algunos grupos demográficos.

No obstante, el compromiso de Meta con la apertura es emocionante, comparte Luccioni, ya que permite a investigadoras como ella estudiar los sesgos, la ética y la eficiencia de los modelos de IA.

Este modelo de código abierto también permitirá que investigadores y desarrolladores externos lo examinen en busca de fallos de seguridad, y esto lo hará más seguro que los modelos que tienen propiedad, afirma Al-Dahle.

Liang está de acuerdo. "Me hace mucha ilusión probar cosas nuevas, y creo que será beneficioso para la comunidad", concluye.

Inteligencia Artificial

Todo sobre LLaMA 2, la nueva IA de Meta para competir con ChatGPT

Lo que se esconde bajo el capó

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025