Un toro mirando al frente con una máquina de polígrafo alrededor del cuello. Detrás, espirales de texto superpuestas.

Inteligencia Artificial

El polígrafo de la IA: esta herramienta ayuda a detectar patrañas en chatbots

En muchas situaciones de alto riesgo, no merece la pena arriesgarse con grandes modelos lingüísticos. Saber qué resultados hay que desechar puede arreglarlo.

por Will Douglas Heaven | traducido por
29 Abril, 2024

Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) son famosos por su capacidad para inventar cosas; de hecho, es lo que mejor se les da. Pero su incapacidad para distinguir la realidad de la ficción ha hecho que muchas empresas se pregunten si merece la pena correr el riesgo de utilizarlos.

Una nueva herramienta creada por Cleanlab, una empresa de IA surgida de un laboratorio de computación cuántica del MIT (Instituto Tecnológico de Massachusetts, EE UU), está diseñada para ofrecer a los usuarios de alto riesgo una idea más clara de la fiabilidad real de estos modelos. Denominado Trustworthy Language Model (Modelo de Lenguaje Fiable), otorga a cualquier resultado generado por un gran modelo lingüístico una puntuación entre 0 y 1, según su fiabilidad. Esto permite elegir en qué respuestas confiar y cuáles descartar. En otras palabras: un detector de patrañas para chatbots.

Cleanlab espera que su herramienta haga más atractivos los grandes modelos lingüísticos para las empresas preocupadas por la cantidad de cosas que inventan. "Creo que la gente sabe que los LLM cambiarán el mundo, pero sólo se fijan en las malditas alucinaciones [de los LLM]", afirma Curtis Northcutt, CEO de Cleanlab.

Los chatbots se están convirtiendo rápidamente en la forma dominante de buscar información en un ordenador. Los motores de búsqueda se están rediseñando en torno a esta tecnología. Los programas de ofimática que miles de millones de personas utilizan a diario para crear todo tipo de documentos, desde deberes escolares a textos de marketing o informes financieros, ahora incorporan chatbots. Sin embargo, un estudio publicado en noviembre por Vectara, una empresa fundada por antiguos empleados de Google, reveló que los chatbots inventan información al menos el 3% de las veces. Puede que no parezca mucho, pero es un potencial de error que la mayoría de las empresas no toleran.

La herramienta de Cleanlab ya está siendo utilizada por un puñado de empresas, entre ellas Berkeley Research Group, una consultora británica especializada en litigios e investigaciones empresariales. Steven Gawthorpe, director asociado de Berkeley Research Group, afirma que el Trustworthy Language Model es la primera solución viable al problema de la alucinación que ha visto: "El TLM de Cleanlab nos da el poder de miles de científicos de datos".

En 2021, Cleanlab desarrolló una tecnología que descubría errores en 34 conjuntos de datos populares utilizados para entrenar algoritmos de aprendizaje automático; funciona midiendo las diferencias en los resultados de una serie de modelos entrenados con esos datos. Esta tecnología la utilizan ahora varias grandes empresas, como Google, Tesla y el gigante bancario Chase. El Trustworthy Language Model parte de la misma idea básica -que los desacuerdos entre modelos pueden utilizarse para medir la fiabilidad del sistema en su conjunto- y la aplica a los chatbots.

En una demostración que Cleanlab hizo a MIT Technology Review la semana pasada, Northcutt tecleó una sencilla pregunta en ChatGPT: "¿Cuántas veces aparece la letra n en enter?". ChatGPT respondió: "La letra n aparece una vez en la palabra enter». Esa respuesta correcta fomenta la confianza. Pero haz la pregunta unas cuantas veces más y ChatGPT responde: «La letra n aparece dos veces en la palabra enter».

"No sólo se equivoca a menudo, sino que además es aleatorio, nunca sabes qué va a responder", dice Northcutt. "¿Por qué demonios no puede decirte que siempre da respuestas diferentes?"

El objetivo de Cleanlab es hacer más explícita esa aleatoriedad. Northcutt hace la misma pregunta al Modelo de Lenguaje de Confianza. "La letra n aparece una vez en la palabra enter", dice, y puntúa su respuesta con un 0,63. Seis sobre diez no es un gran resultado. Seis sobre 10 no es una gran puntuación, lo que sugiere que la respuesta del chatbot a esta pregunta no es de fiar.

Es un ejemplo básico, pero sirve para ilustrarlo. Sin la puntuación, se podría pensar que el chatbot sabe de lo que está hablando, dice Northcutt. El problema es que los científicos de datos que prueban grandes modelos lingüísticos en situaciones de alto riesgo podrían dejarse engañar por unas pocas respuestas correctas y asumir que las respuestas futuras también serán correctas: "Prueban cosas, prueban algunos ejemplos y creen que esto funciona. Y luego hacen cosas que resultan en decisiones empresariales realmente malas".

El Modelo de Lenguaje de Confianza se basa en múltiples técnicas para calcular sus puntuaciones. En primer lugar, cada consulta enviada a la herramienta se envía a varios modelos lingüísticos de gran tamaño. Cleanlab utiliza cinco versiones de DBRX, un modelo de código abierto desarrollado por Databricks, una empresa de IA con sede en San Francisco (California, EE UU). (Pero la tecnología funcionará con cualquier modelo, dice Northcutt, incluidos los modelos Llama de Meta o la serie GPT de OpenAI, los modelos que hay detrás de ChatpGPT). Si las respuestas de cada uno de estos modelos son iguales o similares, contribuirán a una puntuación más alta.

Al mismo tiempo, el Trustworthy Language Model también envía variaciones de la consulta original a cada uno de los modelos DBRX, intercambiando palabras que tengan el mismo significado. De nuevo, si las respuestas a las consultas sinónimas son similares, contribuirá a una mayor puntuación. "Jugamos con ellos de distintas maneras para obtener resultados diferentes y ver si coinciden", dice Northcutt.

La herramienta también puede hacer que varios modelos intercambien respuestas: "Es como: «Esta es mi respuesta, ¿qué te parece?»; «Bueno, esta es la mía, ¿qué te parece?». Y les dejas hablar". Estas interacciones se controlan, se miden y también se incluyen en la puntuación.

Nick McKenna, informático de Microsoft Research en Cambridge (Reino Unido) que trabaja en grandes modelos lingüísticos para la generación de código, es optimista sobre la utilidad de este método. Pero duda de que sea perfecto. "Uno de los escollos que vemos en las alucinaciones de los modelos es que pueden introducirse muy sutilmente", afirma.

En una serie de pruebas con diferentes LLM, Cleanlab demuestra que sus puntuaciones de fiabilidad se correlacionan bien con la precisión de las respuestas de esos modelos. En otras palabras, las puntuaciones cercanas a 1 se alinean con las respuestas correctas y las cercanas a 0 con las incorrectas. En otra prueba, también comprobaron que el uso del Trustworthy Language Model con GPT-4 producía respuestas más fiables que el uso de GPT-4 por sí solo.

Los grandes modelos de lenguaje generan texto prediciendo la siguiente palabra más probable de una secuencia. En futuras versiones de su herramienta, Cleanlab planea hacer que sus puntuaciones sean aún más precisas recurriendo a las probabilidades que un modelo utilizó para hacer esas predicciones. También quiere acceder a los valores numéricos que los modelos asignan a cada palabra de su vocabulario, que utilizan para calcular esas probabilidades. Este nivel de detalle lo ofrecen ciertas plataformas, como Bedrock de Amazon, que las empresas pueden utilizar para ejecutar grandes modelos lingüísticos.

Cleanlab ha probado su método con datos proporcionados por Berkeley Research Group. La empresa necesitaba buscar referencias a problemas de cumplimiento de la normativa sanitaria en decenas de miles de documentos corporativos. Hacerlo a mano puede llevar semanas a personal cualificado. Al comprobar los documentos utilizando el Trustworthy Language Model, Berkeley Research Group pudo ver en qué documentos tenía menos confianza el chatbot y comprobar sólo esos. Esto redujo la carga de trabajo en un 80%, afirma Northcutt.

En otra prueba, Cleanlab trabajó con un gran banco (Northcutt no quiso dar su nombre, pero dice que es competidor de Goldman Sachs). Al igual que Berkeley Research Group, el banco necesitaba buscar referencias a reclamaciones de seguros en unos 100.000 documentos. Una vez más, el Trustworthy Language Model redujo a más de la mitad el número de documentos que había que comprobar manualmente.

Ejecutar cada consulta varias veces a través de varios modelos lleva más tiempo y cuesta mucho más que el típico intercambio con un único chatbot. Pero Cleanlab presenta Trustworthy Language Model como un servicio premium para automatizar tareas de alto riesgo que en el pasado habrían estado fuera del alcance de los grandes modelos de lenguaje. La idea no es que sustituya a los chatbots existentes, sino que haga el trabajo de los expertos humanos. Si la herramienta puede reducir drásticamente el tiempo necesario para contratar a economistas o abogados cualificados a 2.000 dólares la hora, los costes merecerán la pena, afirma Northcutt.

A largo plazo, Northcutt espera que, al reducir la incertidumbre en torno a las respuestas de los chatbots, su tecnología abra la promesa de los grandes modelos lingüísticos a un abanico más amplio de usuarios. "Lo de las alucinaciones no es un problema de grandes modelos de lenguaje", afirma. "Es un problema de incertidumbre"».

Inteligencia Artificial

El polígrafo de la IA: esta herramienta ayuda a detectar patrañas en chatbots

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025