Ms Tech | Unsplash

Inteligencia Artificial

El procesamiento del lenguaje natural ha perdido el foco totalmente

La mayoría de avances del campo se centran en superar el récord de un tipo de evaluación que no tiene en cuenta su comprensión del mundo real, lo que impide que las mejoras den lugar a aplicaciones útiles. Ofrecemos un nuevo sistema de evaluación para probar la capacidad de comprender los relatos

por Jesse Dunietz | traducido por Ana Milutinovic
04 Septiembre, 2020

En la típica reunión anual de la Asociación de Lingüística Computacional (ACL, por sus siglas en inglés), el programa está lleno de títulos como Un autocodificador variacional estructurado para la inflexión morfológica contextual. El mismo lenguaje técnico aparece en las ponencias, en las charlas de investigación y en muchas conversaciones en los pasillos.

Sin embargo, en la edición de este año, que tuvo lugar en julio, se notaba algo diferente, y no fue solo porque se hizo en formato virtual. Las conversaciones de los asistentes se centraron inusualmente en los métodos y objetivos centrales del procesamiento de lenguaje natural (PLN), la rama de la inteligencia artificial (IA) dedicada a crear sistemas que analicen o generen el lenguaje humano. Los trabajos en la nueva lista de "Temas" de este año planteaban las cuestiones como: ¿son los métodos actuales realmente suficientes para lograr los objetivos finales del campo? ¿Cuáles son esos objetivos?

Mis colegas de Elemental Cognition, la empresa de investigación de IA con oficinas en Connecticut y Nueva York (ambas en EE. UU.), y yo creemos que esta inquietud está justificada. De hecho, consideramos que este campo necesita una transformación, no solo en el diseño de los sistemas, sino en un tema menos glamuroso: su evaluación.

El PLN ha llegado a su contexto actual tras media década de constantes mejoras bajo el paradigma de una evaluación estándar. La capacidad de comprensión de los sistemas generalmente se ha medido en conjuntos de parámetros que consisten en miles de preguntas, cada una acompañada de párrafos que contienen la respuesta. Cuando las redes neuronales profundas ocuparon este campo a mediados de la década de 2010, provocaron un salto de rendimiento exponencial. Las rondas posteriores de trabajo mantuvieron las puntuaciones cada vez más cercanas al 100 % (o al menos a la paridad con los humanos).

Así que los investigadores empezaron a publicar nuevos conjuntos de datos con preguntas aún más difíciles, solo para ver que las redes neuronales todavía más grandes rápidamente daban impresionantes resultados. Gran parte de la investigación actual sobre su comprensión lectora implica los modelos cuidadosamente ajustados para obtener algunos puntos porcentuales más que los últimos conjuntos de datos. "La última tecnología" prácticamente se ha convertido en nombres propios: "¡Hemos vencido a la última generación de la tecnología en SQuAD por 2,4 puntos!"

Pero mucha gente d el sector está cada vez más cansada de esa carrera por unos cuantos puntos más. ¿Qué gana realmente el mundo cuando una red neuronal masiva supera a la versión anterior de la tecnología por un punto o dos? No es que a alguien le importe responder a estas preguntas por su propio bien; ganar en la clasificación es un ejercicio académico que puede no mejorar las herramientas del mundo real. De hecho, muchas aparentes mejoras no surgen de las habilidades de la comprensión general, sino de la extraordinaria habilidad de los modelos para explotar los patrones incorrectos en los datos. ¿De verdad los recientes "avances" sirven para resolver los problemas del mundo real?

Estas dudas representan algo más que una simple preocupación abstracta. La sociedad se beneficiaría mucho si los sistemas realmente dominaran la comprensión del lenguaje. Por supuesto, la "comprensión" implica un amplio conjunto de habilidades. Los métodos modernos funcionan bastante bien para aplicaciones simples, como extraer los datos de Wikipedia o analizar las opiniones de productos. Pero cuando las personas se imaginan a ordenadores que comprenden el lenguaje, se hacen imaginan unos comportamientos mucho más sofisticados: herramientas jurídicas que ayudan a las personas a analizar sus dilemas; asistentes de investigación que sintetizan la información de toda la web; y robots o personajes de videojuego que llevan a cabo instrucciones detalladas.

Los modelos actuales no están ni cerca de alcanzar ese nivel de comprensión, y no está claro si otro estudio de la última generación acerque aún más el campo a ese punto.

¿Cómo la comunidad del PLN ha acabado con esa brecha entre las evaluaciones sobre el papel y las capacidades en el mundo real? En un informe sobre la situación de ACL, mis colegas y yo argumentamos que en la búsqueda por alcanzar los difíciles parámetros, las evaluaciones han perdido de vista los objetivos reales: las sofisticadas aplicaciones posteriores. Citando una frase del informe, los investigadores del PLN se han estado entrenando para convertirse en velocistas profesionales "mirando alrededor del gimnasio y adoptando cualquier ejercicio que parezca difícil".

Para que las evaluaciones estén más en línea con los objetivos, sería útil considerar qué es lo que frena los sistemas actuales.

Un humano que lee un fragmento de texto construirá una representación detallada de las entidades, ubicaciones, acontecimientos y sus relaciones, un "modelo mental" del mundo descrito en el texto. El lector luego puede completar los detalles que faltan en el modelo, trasladar una escena hacia adelante o hacia atrás, o incluso crear hipótesis sobre las alternativas contrastadas.

Este tipo de modelado y razonamiento es precisamente lo que deben realizar los asistentes de investigación automatizados o los personajes de los videojuegos, y es lo que notablemente falta en los sistemas actuales. Un investigador del PLN generalmente puede crear un sistema de comprensión de lectura de vanguardia en unos pocos intentos. Una técnica fiable consiste en examinar el modelo del mundo del sistema, algo que podría demostrar que incluso el tan alabado balbuceo de GPT-3 no tiene sentido.

Lograr que los sistemas de lectura automática adquieran modelos del mundo requerirá importantes innovaciones en su diseño, tal y como se discutió en varias presentaciones de las ponencias del último ACL. Pero nuestro argumento es más básico: independientemente de cómo se implementen los sistemas, si necesitan tener modelos fieles del mundo, entonces las evaluaciones deberían analizar sistemáticamente si cuentan con esos modelos fieles del mundo.

Por muy obvio que parezca, este enfoque rara vez se lleva a cabo. Algunos grupos de investigación, como el Instituto Allen de IA, han propuesto otras formas de endurecer las evaluaciones, como dirigirlas a diversas estructuras lingüísticas, hacer preguntas basadas en múltiples pasos de razonamiento o incluso agregar muchos puntos de referencia. Otros investigadores, como el grupo de Yejin Choi de la Universidad de Washington (EE. UU.), se han centrado en comprobar el sentido común, que incorpora aspectos de un modelo del mundo. Tales esfuerzos son útiles, pero generalmente se siguen centrando en crear preguntas a las que los sistemas actuales responden con dificultades.

Por eso proponemos un cambio más fundamental: para crear evaluaciones más significativas, los investigadores del PLN deberían comenzar detallando qué debería contener el modelo del mundo de un sistema para que resulte útil en aplicaciones posteriores. Lo hemos denominado como "esquema de la comprensión".

Un banco de pruebas especialmente prometedor para este enfoque son los relatos de ficción. Los relatos originales contienen mucha información que no se puede buscar en Google y que resulta fundamental para muchas aplicaciones, lo que los convierte en una prueba ideal de habilidades de comprensión lectora. Basándose en la investigación sobre ciencia cognitiva en lectores humanos, nuestro CEO, David Ferrucci, ha propuesto un esquema de cuatro puntos para probar la capacidad de un sistema de inteligencia artificial para comprender los relatos.

Espacial: ¿Dónde se ubica todo y cómo se posiciona a lo largo del relato?
Temporal: ¿Qué ocurre y cuándo?
Causal: ¿Cómo los acontecimientos conducen mecánicamente a otros?
Motivacional: ¿Por qué los personajes deciden actuar de tal manera?

Al hacer estas preguntas sistemáticamente sobre todas las entidades y acontecimientos en un relato, los investigadores del PLN pueden calificar la comprensión de los sistemas de una manera basada en principios, explorando los modelos del mundo que los sistemas realmente necesitan.

Resulta alentador ver que la comunidad del PLN empieza reflexionar sobre lo que falta en las tecnologías actuales. Esperamos que este pensamiento conduzca a una inversión sustancial no solo en nuevos algoritmos, sino en nuevas formas más rigurosas de medir la comprensión de las máquinas. Ese trabajo puede que no genere tantos titulares, pero creemos que la inversión generará tantos avances como el próximo gran modelo.

Jesse Dunietz es investigador en Elemental Cognition, donde trabaja en el desarrollo de evaluaciones rigurosas para los sistemas de comprensión lectora. También es diseñador educativo para el Laboratorio de* Comunicación del MIT y escritor científico .

Inteligencia Artificial

El procesamiento del lenguaje natural ha perdido el foco totalmente

*Jesse Dunietz es investigador en Elemental Cognition, donde trabaja en el desarrollo de evaluaciones rigurosas para los sistemas de comprensión lectora. También es diseñador educativo para el Laboratorio de Comunicación del MIT y escritor científico .

Al habla con la IA: el reto de lograr voces más diversas e inclusivas

Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

Por qué la IA podría comerle la tostada a la computación cuántica

Jesse Dunietz es investigador en Elemental Cognition, donde trabaja en el desarrollo de evaluaciones rigurosas para los sistemas de comprensión lectora. También es diseñador educativo para el Laboratorio de* Comunicación del MIT y escritor científico .