Ms. Tech

Inteligencia Artificial

Este nuevo truco de IA logra que los chatbots no digan tonterías

Aunque el procesamiento del lenguaje natural no para de avanzar, los sistemas de inteligencia artificial siguen sin entender lo que dicen. Para orientar mejor sus respuestas, este enfoque basado en dos modelos estadísticos distintos permite generar texto centrado en un tema o emoción específicos

por Karen Hao | traducido por Ana Milutinovic
28 Enero, 2020

En los últimos dos años, el subcampo de inteligencia artificial (IA) del procesamiento del lenguaje natural ha experimentado un progreso enorme. Por ejemplo, el modelo de lenguaje GPT-2, desarrollado por el laboratorio de investigación OpenAI, se ha utilizado para generar ficción, falsos artículos de noticias y un juego de texto prácticamente infinito tipo Elija su propia aventura.

Pero este tipo de modelos son básicamente grandes sistemas de predicción de texto que carecen de sentido común, así que las frases que producen suelen tener más fluidez superficial que un verdadero significado. Resulta difícil explicar a un modelo que no se salga de un tema en particular, como la atención médica, por ejemplo. Además, algunos modelos como GPT-2 también se pueden manipular para producir resultados racistas y tóxicos, lo que reduce su utilidad.

Ahora, los investigadores de Uber AI han desarrollado una forma de dirigir estos modelos de lenguaje que ayuda a los usuarios especificar el tema o incluso el sentimiento de las frases que generan. Con el mensaje "El problema se centró en", por ejemplo, un modelo con órdenes de hablar sobre el ejército podría producir un resultado como este: "El problema se centró en el hecho de que el Gobierno había gastado miles de millones de euros en el ejército y que no podía desplegar las tropas a tiempo". Si se le indicara que se centrara en política, el resultado podría ser más o menos así: "El problema se centró en una sola sección de la legislación. No está claro si el comité votará para ampliar la ley".

Aunque el modelo sigue sin entender lo que está diciendo, la técnica ofrece más control. Nos acerca un poco más a la opción de usar el lenguaje generado por IA en aplicaciones más específicas de distintos campos, como chatbots de servicios de salud o financieros. También podría usarse para ayudar a los modelos a mantenerse lejos de los resultados ofensivos.

Para llevar a cabo el enfoque, el equipo utilizó dos modelos estadísticos por separado. El primero es simplemente el modelo de lenguaje original, como GPT-2, que construye frases en función de las probabilidades de que ciertas palabras aparezcan junto a otras. El segundo modelo juzga lo bien que el resultado del primer modelo muestra una característica deseada, ya sea seguir con un tema determinado o un sentimiento concreto, por ejemplo. Si la característica deseada es un tema como el espacio, el segundo modelo podría calificar el resultado del primer modelo en función de cuántas palabras relevantes contiene, como "planeta", "galaxia" y "órbita". Si la característica es un sentimiento como "ser positivo", el modelo de evaluación podría ser entrenado para calificar el contenido emocional de las palabras.

Cuando se introduce una indicación inicial en el primer modelo, empieza el proceso de predicción de las palabras posteriores. Pero después de cada palabra, el primer modelo verifica su resultado con el modelo de evaluación y se reajusta en función de los comentarios. La frase final termina con la característica deseada, al tiempo que mantiene la gran fluidez del modelo de lenguaje.

Se trata de un método muy flexible y capaz combinar múltiples objetivos. Podría utilizarse para escribir sobre cocina con un tono negativo, por ejemplo. También tiene la ventaja de ser computacionalmente eficiente. Otros métodos pueden enfocar el resultado de un modelo de lenguaje hacia temas o emociones específicos, pero suelen requerir un importante reentrenamiento. A la escala de GPT-2, se trata de algo muy costoso tanto desde el punto de vista ambiental como económico. El estudiante de Caltech y coautor del artículo durante su pasantía en Uber, Sumanth Dathathri, afirma: "Un estudiante de postgrado como yo no tiene esos recursos". El nuevo método evita por completo cualquier necesidad de reentrenamiento, lo que da más control sobre cualquier modelo ya existente.

El equipo prevé muchas aplicaciones diferentes para la técnica, ya sean sistemas de diálogo, de traducción o incluso de arte. En vez de usar el lenguaje, en 2016, el laboratorio desarrolló un método similar para controlar la generación de imágenes. El miembro fundador de Uber AI que supervisó el trabajo, Jason Yosinski. "Muchos artistas lo usaron para producir obras maravillosas. Creo que otros muchos harán lo mismo con este método".

Inteligencia Artificial

Este nuevo truco de IA logra que los chatbots no digan tonterías

Qué anticipan los errores de la IA en 2024 sobre su futuro

De la creatividad humana a la automatización: la IA agrava la precariedad en la traducción de manga

La IA llega a los videojuegos: la versión de Minecraft que presenta un mundo generado automáticamente en tiempo real