Procesar vastas cantidades de palabras está creando una nueva ciencia lingüística que ve las palabras como vectores y mejora la traducción automática
La lingüística computacional ha cambiado de forma drástica el modo en que los investigadores estudian y entienden el lenguaje. La habilidad de procesar enormes cantidades de palabras por primera vez ha dado paso a maneras completamente nuevas de pensar en las palabras y las relaciones entre unas y otras.
Este procesamiento demuestra la frecuencia con la que una palabra aparece junta a otra, un importante factor para su uso. La palabra 'olimpiadas' puede aparecer junto a palabras como 'correr', 'saltar' o 'lanzar'- pero con menos frecuencia junto a palabras como 'electrón' o 'estegosaurio'. Este conjunto de relaciones se puede considerar como un vector multidimensional que describe cómo la palabra 'olimpiadas' se emplea dentro de un idioma, que en sí mismo se puede considerar como un espacio vectorial.
Y allí se encuentra este cambio masivo. Este nuevo enfoque permite tratar los idiomas como espacios vectoriales con propiedades matemáticas precisas. El estudio del lenguaje se está convirtiendo en un problema de matemáticas de espacio vectorial.
Timothy Baldwin y sus compañeros de la Universidad de Melbourne (Australia) están explorando una de las curiosas propiedades matemáticas de este espacio vectorial: el hecho de que añadir o eliminar vectores produce otro vector dentro del mismo espacio.
La cuestión que abarcan es esta: ¿qué significan estos vectores compuestos? Y al explorar esta pregunta encuentran que la diferencia entre vectores representa una potente herramienta para estudiar el lenguaje y la relación entre palabras.
Primero, unos antecedentes. La manera más fácil de evaluar las palabras y cómo se pueden añadir y restar como vectores es con un ejemplo. El más famoso es este: rey - hombre + mujer = reina. En otras palabras, añadir los vectores asociados con las palabras 'rey' y 'mujer' mientras se resta 'hombre' es igual al vector asociado con 'reina'. Esto describe una relación de género.
Otro ejemplo es: París - Francia + Polonia = Varsovia. En este caso, la diferencia vectorial entre 'París' y 'Francia' capta el concepto de la ciudad capital.
El equipo de Baldwin se pregunta cuán fiable será este enfoque y hasta qué punto se podrá desarrollar. Para ello, comparan cómo cambian las relaciones vectoriales según el corpus de las palabras estudiadas. Por ejemplo, ¿funcionan las mismas relaciones vectoriales en el corpus de palabras procedentes de Google News o la agencia de noticias Reuters?
Para averiguarlo, examinan los vectores asociados con una variedad de relaciones bien conocidas entre clases de palabras. Estas incluyen la relación entre una entidad y sus componentes, por ejemplo 'avión' y 'cabina'; una acción y el objeto involucrado, como 'cazar' y 'ciervo'; un sustantivo y su sustantivo colectivo como 'estrella' y 'constelación'. También incluyen un abanico de conexiones gramaticales - un sustantivo y su forma plural, como 'perro' y 'perros', un verbo y su conjugación en pasado, como 'conozco' y 'conocí'; y un verbo y su conjugación en tercera persona como 'aceptar' y 'acepta'.
Los resultados representan una lectura interesante. El equipo de Baldwin dice que la suma de vectores captada en estas relaciones generalmente forma estrechas agrupaciones dentro de los espacios vectoriales asociados con cada corpus.
Sin embargo, existen algunas excepciones donde las palabras tienen más de un significado por lo que tienen representaciones ambigüas en estos espacios vectoriales. Ejemplos en la agrupación de primera persona incluyen 'estudio', 'aumento' y 'recibo', todas ellas palabras que pueden ser tanto sustantivos como verbos, lo que distorsiona sus vectores en estos espacios.
Es un trabajo interesante que sigue este nuevo camino del estudio de las palabras y las relaciones entre unas y otras. "Este trabajo es el primero que pone a prueba la generalización del enfoque de vectores de diferencia en un amplio rango de relaciones léxicas", afirma el equipo.
Una cuestión importante que no ataja el equipo de Baldwin es cómo este entendimiento mejorado podría emplearse en el mundo real. Una repuesta obvia sería para ayudar a que las máquinas entiendan el lenguaje natural. Otra aplicación sería para ayudar con la traducción.
Merece la pena señalar que uno de los pioneros e impulsores de este campo es Google y su equipo de traducción de máquinas (ver Los ordenadores cada vez tienen más sentido común). Han descubierto que una relación de vector que aparece en inglés generalmente se aplica también en español, alemán, vietnamita, y de hecho en todos los idiomas.
Así es como Google realiza sus traducciones de máquinas. En esencia, considera que una frase es equivalente en dos idiomas si su posición dentro del espacio vectorial de cada idioma es igual. Con este enfoque, su significado tradicional es casi irrelevante (ver "Lost in Skype translation").
Pero debido a la naturaleza idiosincrásica del lenguaje, existen numerosas excepciones, y son estas precisamente las que causan problemas para los algoritmos de la traducción de máquinas.
Así que encontrar maneras de identificar las ambigüedades podría proporcionar un método útil para corregir estos problemas.
Ref: arxiv.org/abs/1509.01692 : Take and Took, Gaggle and Goose, Book and Read: Evaluating the Utility of Vector Differences for Lexical Relation Learning