Una investigación demuestra que la mayoría de modelos de procesamiento del lenguaje natural son incapaces de identificar que las palabras de una frase están desordenadas. Aunque es un problema muy extendido en inteligencia artificial, podría solucionarse con nuevos procesos de entrenamiento
Muchos modelos de inteligencia artificial (IA) que parecen entender el lenguaje y obtienen mejores resultados que las personas en tareas comunes de comprensión, son incapaces de detectar que las palabras de una frase están desordenadas, lo que demuestra que, en realidad, no comprenden el lenguaje en absoluto. El problema radica en cómo se entrenan los sistemas de procesamiento del lenguaje natural (PLN o PNL, por sus siglas en inglés); pero, también muestra una forma de mejorarlos.
Los investigadores de la Universidad de Auburn en Alabama (EE. UU.) y Adobe Research descubrieron esa carencia cuando intentaron que un sistema de PNL generara explicaciones sobre su razonamiento, como por ejemplo por qué afirmaba que diferentes frases significaban lo mismo. Cuando probaron su método, se dieron cuenta de que modificar el orden de las palabras en una frase, las explicaciones del sistema no cambiaban. "Se trata de un problema general para todos los modelos de PNL", asegura el científico Anh Nguyen de la Universidad de Auburn, quien dirigió el trabajo.
El equipo examinó varios sistemas de PNL de última generación basados en BERT (el modelo de lenguaje desarrollado por Google que sustenta muchos de los sistemas más recientes, incluido GPT-3). Todos estos sistemas obtienen mejores resultados que los humanos en la prueba GLUE (Evaluación de la comprensión general del lenguaje), un conjunto estándar de tareas diseñadas para evaluar la comprensión del lenguaje, como detectar paráfrasis, reconocer si una frase expresa sentimientos positivos o negativos y el razonamiento verbal.
El hombre muerde al perro: Descubrieron que estos sistemas no podían detectar cuándo las palabras de una frase estaban desordenadas, ni siquiera cuando el nuevo orden cambiaba el significado. Por ejemplo, los sistemas reconocían correctamente que, en el caso de las frases "¿La marihuana causa cáncer?" y "¿Cómo fumar marihuana puede provocar el cáncer de pulmón?", eran un ejemplo de paráfrasis. Pero, también aseguraban que "¿Fumar cáncer cómo marihuana de pulmón puede provocar?" y "¿De pulmón puede provocar marihuana fumar cómo cáncer?" significaban lo mismo. Además, los sistemas pensaban que estas dos preguntas eran las mismas "¿La marihuana causa el cáncer?" y "¿El cáncer causa la marihuana?" aunque su significado es diferente.
La única tarea en la que importaba el orden de las palabras era cuando los modelos tenían que comprobar la estructura gramatical de una frase. En otros casos, entre el 75 % y el 90 % de las respuestas de los sistemas probados no cambiaban cuando se modificaba el orden de las palabras.
¿Qué pasa? Parece que los modelos detectan palabras clave en una frase, sea cual sea el orden en el que aparezcan. No entienden el lenguaje como nosotros, y GLUE, un punto de referencia muy popular, no mide el verdadero uso del lenguaje. En muchos casos, la tarea en la que se entrena un modelo no lo obliga a preocuparse por el orden de las palabras o la sintaxis en general. En otras palabras, GLUE enseña a los modelos de PNL a superar las dificultades.
Muchos investigadores han comenzado a utilizar un conjunto de pruebas más difíciles con el nombre de SuperGLUE, pero Nguyen sospecha que tendrá problemas similares.
Este defecto también había sido identificado por el científico Yoshua Bengio y sus colegas, quienes encontraron que reordenar las palabras en una conversación a veces no cambiaba las respuestas de los chatbots. Y un equipo de Facebook AI Research encontró ejemplos similares en chino. El equipo de Nguyen demuestra que el problema está muy extendido.
¿Acaso eso importa? Depende del uso. Por un lado, sería útil que la IA identificara cuándo cometemos un error tipográfico o decimos algo confuso, como lo haría otra persona. Pero, en general, el orden de las palabras es crucial para aclarar el significado de una frase.
¿Cómo se arregla? La buena noticia es que puede que el problema no sea demasiado difícil de solucionar. Los investigadores encontraron que, si un modelo tiene la obligación de centrarse en el orden de las palabras, entrenándolo para realizar una tarea en la que el orden de las palabras importa (como detectar errores gramaticales), también se desempeñaba mejor en otras tareas. Esto sugiere que ajustar las tareas para las que se entrenan los modelos los mejorará en general.
Los resultados de Nguyen son otro ejemplo de cómo los modelos a menudo no alcanzan lo que la gente cree que pueden lograr. Según su opinión, así se pone de manifiesto lo difícil que resulta crear modelos de IA que entiendan y razonen como los seres humanos. "Nadie tiene ni idea cómo conseguirlo", concluye.