Inteligencia Artificial

Así se entrena a un 'chatbot' para que no dé respuestas peligrosas

Deepmind entrena a su IA conversacional Sparrow para aprender de los comentarios de las personas y buscar información en internet para respaldar sus afirmaciones

por Melissa Heikkilä | traducido por Ana Milutinovic
28 Septiembre, 2022

El truco para crear un buen chatbot impulsado por IA podría ser que las personas le digan cómo se tiene que comportar y obligar al modelo a respaldar sus afirmaciones usando internet. Esto sostiene un nuevo artículo del laboratorio de inteligencia artificial (IA) DeepMind, propiedad de Alphabet.

En un nuevo estudio (no revisado aún por pares, pero publicado recientemente), el equipo de DeepMind presenta Sparrow, un nuevo chatbot de IA entrenado en el modelo de lenguaje Chinchilla del mismo laboratorio.

Sparrow está diseñado para hablar con personas y responder a sus preguntas, utilizando búsqueda de Google en directo o información para respaldar esas respuestas. Dependiendo de la utilidad de sus respuestas, determinada por las personas participantes, el modelo se entrena luego con un algoritmo de aprendizaje reforzado, que aprende por prueba y error para lograr un objetivo específico. Este sistema pretende ser un paso adelante en el desarrollo de una IA con la capacidad de hablar con los humanos sin consecuencias peligrosas, como, por ejemplo, animar a las personas a hacerse daño a sí mismas o a los demás.

Los grandes modelos de lenguaje generan texto parecido a algo que escribiría un ser humano. Son una parte cada vez más crucial de la infraestructura de internet y se utilizan para resumir textos, crear herramientas de búsqueda online más potentes o como chatbots de atención al cliente.

Pero se entrenan extrayendo grandes cantidades de datos y texto de internet, lo que inevitablemente refleja muchos sesgos dañinos. Solo hace falta insistir un poco para que comiencen a soltar contenido tóxico o discriminatorio. En una IA construida para tener conversaciones con personas, los resultados podrían ser desastrosos. Una IA conversacional sin las medidas de seguridad adecuadas podría decir cosas ofensivas sobre las minorías étnicas o sugerir que las personas beban lejía, por ejemplo.

Las empresas de IA que quieren desarrollar sistemas de IA conversacionales han probado varias técnicas para que sus modelos sean más seguros.

OpenAI, el creador del famoso modelo de lenguaje GPT-3, y la start-up de inteligencia artificial Anthropic han utilizado el aprendizaje reforzado para incorporar las preferencias humanas. El chatbot de IA de Facebook, BlenderBot, utiliza búsqueda online para comprobar sus respuestas.

Sparrow, de DeepMind, reúne todas estas técnicas en un solo modelo.

DeepMind presentó a los participantes humanos varias respuestas que el modelo había dado a la misma pregunta y les preguntó cuál les gustaba más. Luego se les pidió que determinaran si pensaban que las respuestas eran razonables y si Sparrow había respaldado la respuesta con evidencia apropiada, como enlaces a fuentes. El modelo dio respuestas razonables a preguntas fácticas, utilizando evidencia que también se había sacado de internet, el 78% de las veces.

Al formular esas respuestas, el modelo siguió 23 reglas establecidas por los investigadores, como por ejemplo no ofrecer asesoramiento financiero, no hacer declaraciones amenazantes o no afirmar ser una persona.

La diferencia entre este enfoque y sus predecesores es que DeepMind espera usar "el diálogo a largo plazo con seguridad", afirma el investigador de seguridad en DeepMind Geoffrey Irving.

"Eso significa que no esperamos que los problemas que encontramos en estos modelos, ya sea desinformación, estereotipos o lo que sea, sean obvios a primera vista, y queremos hablar sobre ellos en detalle. También entre máquinas y humanos", explica Irving.

La idea de DeepMind de usar las preferencias humanas para optimizar cómo aprende un modelo de IA no es nueva, señala la directora del laboratorio de investigación de IA sin ánimo de lucro Cohere for AI, Sara Hooker.

"Pero las mejoras son convincentes y muestran unos beneficios claros para la optimización guiada por personas de los agentes de diálogo en un entorno de grandes modelos de lenguaje", asegura Hooker.

El investigador de la start-up de IA Hugging Face Douwe Kiela cree que Sparrow es "un buen paso adelante que sigue una tendencia general en IA, en la que intentamos más seriamente mejorar los aspectos de seguridad en el uso de los grandes modelos de lenguaje".

Pero queda mucho trabajo por hacer antes de que estos modelos de IA conversacionales se puedan utilizar realmente.

Sparrow todavía comete errores. El modelo a veces se sale del tema o inventa respuestas al azar. Con algunos participantes, el modelo se saltaba las reglas hasta un 8% de las veces. (Esto sigue siendo una mejora con respecto a los modelos anteriores: los modelos anteriores de DeepMind no respetaban las reglas con tres veces más frecuencia que Sparrow).

"En áreas donde el daño a los humanos puede ser elevado, como ofrecer asesoramiento médico y financiero, esto aún puede parecer una tasa de fallo inaceptablemente alta para muchos", indica Hooker. Además, el trabajo se basa en un modelo en inglés, "pero vivimos en un mundo donde la tecnología tiene que servir de manera segura y responsable en muchos idiomas diferentes", añade la experta.

Kiela señala otro problema: "Confiar en Google para buscar información conduce a sesgos desconocidos que son difíciles de descubrir, dado que todo es de fuente cerrada".

Inteligencia Artificial

Así se entrena a un 'chatbot' para que no dé respuestas peligrosas

Al habla con la IA: el reto de lograr voces más diversas e inclusivas

Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

Por qué la IA podría comerle la tostada a la computación cuántica