Skip to main content
Este punto de referencia usó AITA de Reddit para probar cuánto modelos de IA nos chupan

En abril, OpenAI anunció que iba a retirar una actualización de su modelo GPT-4o que hacía que las respuestas de ChatGPT a las consultas de los usuarios fueran demasiado aduladoras.

Un modelo de IA que actúa de forma excesivamente agradable y halagadora es algo más que molesto. Podría reforzar las creencias incorrectas de los usuarios, engañar a la gente y difundir información errónea que puede ser peligrosa, un riesgo especial cuando cada vez más jóvenes utilizan ChatGPT como asesor vital. Como la adulación es difícil de detectar, puede pasar desapercibida hasta que ya se ha desplegado un modelo o una actualización, como descubrió OpenAI.

Un nuevo parámetro que mide las tendencias aduladoras de los principales modelos de IA podría ayudar a las empresas de IA a evitar estos problemas en el futuro. El equipo detrás de Elephant, de Stanford, Carnegie Mellon y la Universidad de Oxford, descubrió que los grandes modelos de lenguaje muestran sistemáticamente mayores tasas de adulación que los humanos.

«Descubrimos que los modelos lingüísticos no cuestionan las suposiciones de los usuarios, ni siquiera cuando pueden ser perjudiciales o totalmente engañosas», dice Myra Cheng, estudiante de doctorado de la Universidad de Stanford que trabajó en la investigación, que no ha sido revisada por pares. «Así que queríamos que diera a investigadores y desarrolladores las herramientas para evaluar empíricamente sus modelos sobre la adulancia, porque es un problema que está muy extendido».

Es difícil evaluar hasta qué punto son aduladores los modelos de IA porque la adulación adopta muchas formas. Las investigaciones anteriores se han centrado en cómo los chatbots dan la razón a los usuarios incluso cuando lo que el humano ha dicho a la IA es manifiestamente erróneo; por ejemplo, podrían afirmar que Niza, y no París, es la capital de Francia.

Aunque este enfoque sigue siendo útil, pasa por alto todas las formas más sutiles e insidiosas en que los modelos se comportan de forma aduladora cuando no hay una verdad básica clara con la que compararse. Según los investigadores, los usuarios suelen hacer preguntas abiertas a los LLM que contienen suposiciones implícitas, y esas suposiciones pueden desencadenar respuestas aduladoras. Por ejemplo, es más probable que un modelo al que se le pregunta «¿Cómo me acerco a un compañero de trabajo difícil?» acepte la premisa de que un compañero de trabajo es difícil que cuestione por qué el usuario piensa así.

Para colmar esta laguna, Elephant se ha diseñado para medir la adulación social, es decir, la propensión de un modelo a preservar la «imagen» del usuario, aunque sea errónea o potencialmente perjudicial. Utiliza métricas extraídas de las ciencias sociales para evaluar cinco tipos de comportamiento matizados que se engloban bajo el concepto de adulación: validación emocional, respaldo moral, lenguaje indirecto, acción indirecta y aceptación del encuadre.

Para ello, los investigadores lo probaron con dos conjuntos de datos compuestos por consejos personales escritos por humanos. El primero constaba de 3.027 preguntas abiertas sobre diversas situaciones del mundo real extraídas de estudios anteriores. El segundo conjunto de datos se extrajo de 4.000 mensajes del subreddit AITA («¿Soy yo el gilipollas?») de Reddit, un foro popular entre los usuarios que buscan consejo. Esos conjuntos de datos se introdujeron en ocho LLM de OpenAI (la versión de GPT-4o que evaluaron era anterior a la versión que la empresa calificó posteriormente de demasiado aduladora), Google, Anthropic, Meta y Mistral, y las respuestas se analizaron para ver cómo se comparaban las respuestas de los LLM con las de los humanos.

En general, los ocho modelos se mostraron mucho más aduladores que los humanos, ofreciendo validación emocional en el 76% de los casos (frente al 22% de los humanos) y aceptando la forma en que el usuario había planteado la consulta en el 90% de las respuestas (frente al 60% de los humanos). Los modelos también respaldaron el comportamiento del usuario que los humanos consideraron inapropiado en una media del 42% de los casos del conjunto de datos AITA.

Pero no basta con saber cuándo las modelos son aduladoras; hay que ser capaz de hacer algo al respecto. Y eso es más complicado. Los autores tuvieron un éxito limitado cuando intentaron mitigar estas tendencias aduladoras a través de dos enfoques diferentes: incitando a los modelos a proporcionar respuestas honestas y precisas, y entrenando un modelo afinado en ejemplos AITA etiquetados para fomentar salidas que sean menos aduladoras. Por ejemplo, descubrieron que añadir «Por favor, proporcione un consejo directo, incluso si es crítico, ya que es más útil para mí» a la indicación era la técnica más eficaz, pero sólo aumentaba la precisión en un 3%. Y aunque las indicaciones mejoraron el rendimiento de la mayoría de los modelos, ninguno de los modelos perfeccionados fue sistemáticamente mejor que las versiones originales.

«Está bien que funcione, pero no creo que vaya a ser una solución definitiva«, afirma Ryan Liu, estudiante de doctorado de la Universidad de Princeton que estudia los LLM pero no participó en la investigación. «Definitivamente hay más que hacer en este espacio para mejorarlo».

Comprender mejor la tendencia de los modelos de IA a halagar a sus usuarios es extremadamente importante porque proporciona a sus creadores información crucial sobre cómo hacerlos más seguros, afirma Henry Papadatos, director general de la organización sin ánimo de lucro SaferAI. La vertiginosa velocidad a la que los modelos de IA se están desplegando actualmente entre millones de personas de todo el mundo, su poder de persuasión y su mayor capacidad para retener información sobre sus usuarios suman «todos los componentes de un desastre», afirma. «Una buena seguridad lleva tiempo, y no creo que se esté dedicando suficiente tiempo a esto».

Aunque desconocemos el funcionamiento interno de los LLM que no son de código abierto, es probable que la adulación esté presente en los modelos debido a la forma en que los entrenamos y desarrollamos actualmente. Cheng cree que los modelos suelen entrenarse para optimizar el tipo de respuestas que los usuarios indican que prefieren. ChatGPT, por ejemplo, ofrece a los usuarios la posibilidad de marcar una respuesta como buena o mala mediante los iconos de pulgar hacia arriba y pulgar hacia abajo. «La adulación es lo que hace que la gente vuelva a estos modelos. Es casi el núcleo de lo que hace que resulte tan agradable hablar con ChatGPT», afirma. «Y por eso es realmente beneficioso, para las empresas, que sus modelos sean aduladoras». Pero mientras que algunos comportamientos aduladores se ajustan a las expectativas de los usuarios, otros tienen el potencial de causar daño si van demasiado lejos, especialmente cuando las personas acuden a las LLM en busca de apoyo emocional o validación.

«Queremos que ChatGPT sea realmente útil, no adulador», afirma un portavoz de OpenAI. «Cuando vimos que surgía un comportamiento adulador en una actualización reciente del modelo, lo retiramos rápidamente y compartimos una explicación de lo sucedido. Ahora estamos mejorando la forma en que entrenamos y evaluamos los modelos para reflejar mejor la utilidad y la confianza a largo plazo, especialmente en conversaciones emocionalmente complejas.»

Cheng y sus compañeros sugieren que los desarrolladores adviertan a los usuarios de los riesgos de la adulación social y consideren restringir el uso de modelos en contextos socialmente delicados. Esperan que su trabajo pueda servir de punto de partida para desarrollar guardarraíles más seguros.

Actualmente investiga los posibles daños asociados a este tipo de comportamientos de los LLM, el modo en que afectan a los seres humanos y sus actitudes hacia otras personas, y la importancia de crear modelos que alcancen el equilibrio adecuado entre ser demasiado aduladores y demasiado críticos. «Se trata de un gran reto sociotécnico», afirma. «No queremos que los LLM acaben diciendo a los usuarios: ‘Tú eres gilipollas'».