La tendencia a inventar cosas frena la adopción de los 'chatbots', pero eso es justo lo que hacen
MIT Technology Review Explains: deja que nuestros redactores desentrañen el complejo y desordenado mundo de la tecnología para ayudarte a entender lo que está por venir. Puedes leer más de la serie aquí.
El nuevo 'chatbot' de la Organización Mundial de la Salud se lanzó el 2 de abril con las mejores intenciones. SARAH (Smart AI Resource Assistant for Health), un avatar virtual de rostro renovado respaldado por GPT-3.5, ofrece a millones de personas de todo el mundo consejos de salud en ocho idiomas diferentes sobre cómo comer bien, dejar de fumar, desestresarse —y mucho más— durante 24 horas al día y los 7 días de la semana.
Sin embargo, como todos los 'chatbots', SARAH puede fallar en sus respuestas, y rápidamente se descubrió que proporcionaba información incorrecta. Por poner un ejemplo, en una ocasión dio una lista de nombres y direcciones de clínicas inexistentes en San Francisco. La Organización Mundial de la Salud advierte en su sitio web de que puede que SARAH no sea siempre precisa.
Y otra vez volvemos a lo mismo. Los fracasos de los 'chatbots' son ya un meme habitual. El efímero 'chatbot' científico Galactica de Meta inventó artículos académicos y generó artículos 'wiki' sobre la historia de los osos en el espacio; en febrero, Air Canada recibió la orden de cumplir una política de reembolso inventada por su 'chatbot' de atención al cliente; y, el año pasado, un abogado fue multado por presentar documentos llenos de dictámenes judiciales falsos y citas legales inventadas por ChatGPT.
El problema es que los modelos de lenguaje de gran tamaño son tan buenos que lo que inventan parece cierto la mayoría de las veces. Y eso hace que sea difícil confiar en ellos.
Esta tendencia a inventar —conocida como "alucinación"— es uno de los factores que dificultan la adopción generalizada de los 'chatbots'. ¿Por qué lo hacen? ¿Y por qué no podemos solucionarlo?
Como el juguete Magic 8-Ball
Para entender por qué los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) "alucinan", tenemos que fijarnos en cómo funcionan. Lo primero que hay que tener en cuenta es que estos modelos están diseñados precisamente para inventar cosas. Cuando se hace una pregunta a un 'chatbot', este extrae su respuesta del LLM que lo sustenta, pero no funciona igual que buscar información en una base de datos o utilizar un motor de búsqueda en Internet.
Si abres un LLM no verás información lista para ser recuperada. En su lugar, encontrarás miles de millones de números. El 'chatbot' utiliza estos números para calcular sus respuestas desde cero, produciendo nuevas secuencias de palabras sobre la marcha. Muchos de los textos generados por LLM parecen copiados de una base de datos o de una página web real, pero, como en la mayor parte de las obras de ficción, los parecidos son pura coincidencia. Si tuviéramos que hacer un símil, un LLM se parece más al conocido juguete de Mattel Magic 8-Ball, que proporciona respuestas recogidas en su sistema a las preguntas de los usuarios.
Los LLM generan texto prediciendo la siguiente palabra de una secuencia. Si un modelo lee "el gato se sentó", puede suponer que luego irá "sobre". Esa nueva secuencia se vuelve a introducir en el modelo, que ahora puede adivinar "la". Si da otra vuelta, dará con "esterilla", y así sucesivamente. Con este método se puede generar casi cualquier tipo de texto que se pueda imaginar, desde listados de Amazon hasta haiku (poesía japonesa), pasando por fanfiction, código informático, artículos de revistas y mucho más. Como dice Andrej Karpathy, informático y cofundador de OpenAI: "Los modelos de lenguaje de gran tamaño aprenden a soñar con documentos de Internet".
Piensa en los miles de millones de números de un LLM como si fueran una hoja de cálculo enorme que recoge la probabilidad estadística de que ciertas palabras aparezcan junto a otras. Los valores de la hoja de cálculo se definen cuando se entrena el modelo, un proceso que ajusta esos valores una y otra vez hasta que logra reproducir los patrones lingüísticos encontrados en terabytes de texto extraídos de Internet.
Para adivinar una palabra, el modelo simplemente ejecuta sus números, es decir, calcula una puntuación para cada palabra de su vocabulario que refleja la probabilidad de que sea la siguiente en la secuencia en curso. La palabra con la mejor puntuación gana. En pocas palabras, los LLM son máquinas tragaperras estadísticas. Accionan la palanca para que salga una palabra.
Todo son "alucinaciones"
¿Cuál es la conclusión? Que todo son "alucinaciones", pero solo le damos ese nombre cuando nos damos cuenta de que son erróneas. El problema es que los LLM son tan buenos que lo que inventan parece cierto la mayoría de las veces. Y eso hace que sea difícil confiar en ellos.
¿Podemos controlar lo que generan los LLM para que generen un texto cuya exactitud esté garantizada? Estos modelos son demasiado complejos para que sus números puedan modificarse a mano, pero algunos investigadores creen que entrenarlos con aún más texto contribuirá a reducir su tasa de error. Es una tendencia que hemos observado a medida que los LLM han ido creciendo y mejorando.
Otro enfoque consiste en pedir a los modelos que comprueben su trabajo sobre la marcha, desglosando las respuestas paso a paso. Esta técnica, conocida como "cadena de pensamiento", ha demostrado aumentar la precisión de los resultados de un chatbot. Además, aunque todavía no es una realidad, se cree que en el futuro los LLM podrán verificar los datos de los textos que produzcan e incluso reescribirlos cuando se equivoquen.
No obstante, ninguna de estas técnicas detendrá por completo las "alucinaciones". Mientras los LLM sean probabilísticos, habrá un componente de azar en lo que generen. Tira 100 dados y obtendrás un patrón. Tíralos otra vez y obtendrás otro. Incluso si los dados, al igual que los LLM, se ajustan para producir algunos patrones con mucha más frecuencia que otros, los resultados no serán siempre idénticos. Incluso un error de cada 1.000 —o 100.000— equivale a muchos errores si tenemos en cuenta cuántas veces al día se utiliza esta tecnología.
Cuanto más precisos sean estos modelos, más bajaremos la guardia. Los estudios demuestran que cuanto mejores son los chatbots, más probabilidades hay de que pasemos por alto un error cuando se produce. Quizás la mejor solución para la "alucinación" sea gestionar nuestras expectativas sobre para qué sirven estas herramientas. Cuando se pidió explicaciones al abogado que utilizó ChatGPT para generar documentos falsos, sonaba tan sorprendido como cualquiera por lo ocurrido. "Oí hablar de este nuevo portal, que supuse erróneamente que era como un supermotor de búsqueda", dijo al juez. "No me percaté de que ChatGPT podía fabricar documentos".