Una nueva investigación del Instituto Allen, que será premiada por su excelencia, afirma que aunque la inteligencia artificial ya es capaz de generar textos comprensibles y responder preguntas correctamente, en realidad, sigue sin tener una verdadera comprensión del lenguaje natural
Hasta hace muy poco, los ordenadores no eran capaces de crear ninguna frase que tuviera un mínimo sentido. Pero en los últimos años, el campo del procesamiento de lenguaje natural (PLN) ha avanzado hasta tal punto que ahora las máquinas pueden generar pasajes convincentes con solo presionar un botón.
Estos avances han sido impulsados por el aprendizaje profundo, que analiza los patrones estadísticos del uso de palabras y la estructura de frases a partir de enormes bases de datos de texto. Pero un nuevo artículo del Instituto Allen de Inteligencia Artificial (IA) destaca un tema pendiente: las máquinas no entienden realmente lo que escriben ni lo que leen.
Se trata de un desafío fundamental en la gran búsqueda de la inteligencia artificial general, pero también es un tema relevante para los consumidores. Los chatbots y los asistentes de voz basados en modelos de lenguaje natural de última generación, por ejemplo, se han convertido en la interfaz principal de muchas instituciones financieras, proveedores de atención médica y agencias gubernamentales. Pero sin una verdadera comprensión del lenguaje, estos sistemas son más propensos a equivocarse, lo que ralentiza el acceso a estos servicios tan importantes.
Para llegar a esta conclusión, los investigadores utilizaron el trabajo del Winograd Schema Challenge, una competición lanzada en 2011 para evaluar el razonamiento de sentido común de los sistemas de PLN. El desafío utiliza un conjunto de 273 preguntas que incluyen pares que solo se diferencian en una palabra. Esa palabra, conocida como desencadenante, cambia el significado de cada frase, como refleja el siguiente ejemplo:
-
El trofeo no cabe en la maleta marrón porque es demasiado grande.
-
El trofeo no cabe en la maleta marrón porque es demasiado pequeña.
Para tener éxito, un sistema de PLN debe determinar a qué elemento está haciendo referencia el adjetivo. Para responder correctamente a este ejemplo en cuestión, el algoritmo debería seleccionar "trofeo" para el primer ejemplo y "maleta" para el segundo
Al principio, la prueba se diseñó bajo la idea de que dichos problemas no podrían responderse sin una comprensión semántica más profunda. Los modelos más avanzados de aprendizaje profundo actualmente pueden lograr una precisión cercana al 90 %, por lo que parece que el sistema de PLN se ha acercado a su objetivo. Pero los investigadores del Instituto Allen, cuyo trabajo recibirá el Premio de Estudio Excepcional en la próxima conferencia AAAI, cuestionan la efectividad del criterio y, por lo tanto, el nivel de progreso que el campo realmente ha logrado.
Los investigadores primero crearon un conjunto de datos mucho mayor, denominado WinoGrande, con 44.000 de preguntas del mismo tipo. Lo hicieron con un esquema de trabajo colaborativo a través del servicio Mechanical Turk de Amazon para crear y validar rápidamente nuevos pares de frases. (Parte de la razón por la cual el conjunto de datos de Winograd resulta tan pequeño es que fue creado a mano). Los trabajadores crearon las frases con las palabras requeridas seleccionadas aleatoriamente. Cada par de frases se enviaba a otros tres trabajadores y solo se mantenía si cumplía con tres criterios: al menos dos trabajadores respondieron correctamente, los tres consideraron que las opciones no eran ambiguas y las referencias del adjetivo no se podían deducir mediante simples asociaciones de palabras.
Luego analizaron el conjunto de datos a través de un algoritmo para eliminar el mayor número posible de "artefactos": patrones de datos no intencionales o correlaciones que podrían ayudar a un modelo de lenguaje a responder correctamente por motivos equivocados. Esto redujo la posibilidad de que un modelo pudiera aprender a usar ese conjunto de datos.
Cuando sometieron los modelos de última generación a estas nuevas preguntas, su rendimiento disminuyó a entre el 59,4 % y el 79,1 %. Por su parte, la eficacia de los trabajadores humanos fue del 94 %. Esto significa que es probable que la alta puntuación obtenida en la prueba original de Winograd esté exagerada. "Se trata de un logro específico con un conjunto de datos concreto, no con una tarea general", subraya la profesora asociada de la Universidad de Washington (EE. UU.) y directora general de investigaciones en AI2, Yejin Choi, quien dirigió esta investigación.
Choi espera que su conjunto de datos se convierta en el nuevo punto de referencia. Pero también espera que inspire a otros investigadores a mirar más allá del aprendizaje profundo. Los resultados muestran que los sistemas de PLN con un verdadero sentido común deberían incorporar otras técnicas, como los modelos de conocimiento estructurado. Su trabajo anterior ya demostró una importante promesa en esta dirección. La responsable afirma: "Tenemos que encontrar un plan de juego diferente de alguna manera ".
También es cierto que el trabajo ha recibido algunas críticas. El investigador Ernest Davis, que trabajó en el desafío original de Winograd, opina que muchos de los pares de frases de ejemplo enumerados en el documento son "seriamente defectuosos", con una gramática confusa. Y añade: "No se corresponden con la forma en la que las personas que hablan inglés realmente usan los adjetivos.
Pero Choi señala que un modelo verdaderamente sólido no debería necesitar una gramática perfecta para comprender una frase. Las personas que hablan inglés como segundo idioma pueden confundirse con la gramática pero siempre son capaces de expresar lo que quieren decir.
Choi concluye: "La gente puede entender fácilmente nuestras preguntas y elegir la respuesta correcta [refiriéndose a la precisión humana del 94 % de rendimiento]. Si los seres humanos son capaces de hacerlo, en mi opinión, las máquinas también deberían poder hacerlo".