La investigación ha conseguido identificar elementos comunes en los tiempos verbales de distintas lenguas poco habladas que la traducción automática y la comunicación amenazan con matar. Es un buen primer paso para conseguir traducirlas automáticamente y que no se pierdan
La mejor aproximación estima que los humanos actualmente hablamos alrededor de 6.900 idiomas distintos. Pero más de la mitad de la población global se comunica a través de sólo un puñado de ellos: chino, inglés, hindi, español y ruso. De hecho, el 95% de la población depende únicamente de 100 idiomas.
El resto son mucho menos comunes. De hecho, los lingüistas estiman que alrededor de un tercio de los idiomas del mundo sólo son hablados por menos de 1.000 personas y están en peligro de desaparecer a lo largo del próximo siglo, más o menos. Con ellos también se perderá el patrimonio cultural que encarnan: historias, dichos, chistes, remedios herbales y hasta emociones únicas.
Cuesta creer que el aprendizaje automático podría ayudar, ya que la traducción automática depende de enormes conjuntos de datos para trabajar.
Estos conjuntos de datos constan de un vasto cuerpo de libros, artículos y páginas web que han sido traducidos manualmente a otros idiomas. Esto sirve como Piedra Roseta para los algoritmos de aprendizaje automático, y cuanto más grande sea el conjunto de datos, mejor aprenden.
Foto: Un mapa que muestra cómo se agrupan los indicadores del tiempo pretérito para 100 de los idiomas abordados por el estudio.
Pero la mayoría de los idiomas simplemente no disponen de estos enormes conjuntos de datos. Por eso la traducción automática sólo funciona para una diminuta fracción de las lenguas más comunes. Google Translate, por ejemplo, solo habla alrededor de 90 idiomas.
Así que un importante reto para los lingüistas consiste en encontrar una manera de analizar automáticamente los idiomas menos comunes para entenderlos mejor.
Y una pajera de investigadores de la Universidad Ludwig-Maximilian University de Múnich (Alemania) afirman haber logrado justo eso. Ehsaneddin Asgari y Hinrich Schutze han desarrollado un enfoque que revela importantes elementos de casi cualquier idioma, los cuales podrían servir como un paso intermedio de la traducción automática.
Su técnica se basa en un único texto que ha sido traducido a al menos 2.000 idiomas distintos. Es la Biblia, y hace largo tiempo que los lingüistas reconocen su importancia para su disciplina.
Gracias a ella ha sido posible crear una base de datos llamada el Cuerpo Paralelo de la Biblia que consta de traducciones del Nuevo Testamento a 1.169 idiomas. Este conjunto de datos no es lo suficientemente grande para el tipo de aprendizaje automático industrial que realizan Google y otros. Así que Asgari y Schutze han elaborado otro enfoque basado en cómo se representan los tiempos verbales en distintos idiomas.
La mayoría de los idiomas emplean palabras o combinaciones de letras específicas para señalar los tiempos verbales. Así que el nuevo truco consiste en identificar estas señales en varios idiomas y después emplear el análisis de big data para buscar palabras o conjuntos de letras que jueguen el mismo papel dentro de otras traducciones.
Por ejemplo, en español, el presente puede ser señalado por las palabras "es" o "está"; el futuro por los sufijos de letras acentuadas como "-ré" o "-ró"; y el pasado por otros sufijos de letras como "-aba" o "-ía". Por supuesto, existen otros indicadores.
La idea de Asgari y Schutze consiste en encontrar todas esas señales dentro de la traducción de la Biblia en inglés junto con otros ejemplos procedentes de un puñado de otras traducciones. Después, se buscan palabras o conjuntos de letras que jueguen el mismo papel en otros idiomas. Por ejemplo, la palabra "fue" también puede representar el pasado en español.
Y dado que el inglés es un idioma relativamente antiguo y con muchas excepciones, algo que dificulta su aprendizaje, empezaron con un conjunto de idiomas criollos que han sido desarrollados a partir de una mezcla de otros idiomas. Al ser más nuevas, estas lenguas han tenido menos tiempo para desarrollar idiosincrasias lingüísticas. Y eso significa que generalmente contienen indicadores más claros de características lingüísticas como el tiempo. Los investigadores detallan: "Nuestro razonamiento es que los idiomas criollos son más regulares que otros idiomas porque son jóvenes y aún no han acumulado el 'bagaje histórico' que podría dificultar mucho más el análisis computacional".
Uno de estos idiomas es el criollo seychellense, que emplea la palabra "ti" para señalar el pasado. Por ejemplo, "mon travay" significa "yo trabajo" en este idioma, mientras que "mon ti travay" significa "yo trabajé" y "mon ti pe travay" significa "trabajaba". Así que "ti" representa un buen indicador del pasado.
Los resultados son interesantes. La técnica revela construcciones lingüísticas relacionadas con el tiempo en idiomas comunes como "-ed" en inglés y "-te" en alemán, además de palabras y frases que hacen la misma función en idiomas mucho menos comunes como el indicador del tiempo pasado "den" del idioma gourmanchéma de Burkina Faso, y "yi" del susu-yalunka, hablado en Mali.
Este trabajo permite a los investigadores crear mapas que muestran cómo se relacionan los idiomas que emplean construcciones del tiempo similares (ver diagrama).
Asgari y Schutze han desarrollado un método computacional para analizar cómo se usan los tiempos del pasado, presente y futuro en más de 1.000 idiomas. Se trata del mayor estudio computacional de idiomas distintos jamás realizado. De hecho, el número de idiomas incluidos es una orden de magnitud mayor que el resto de estudios.
El trabajo tiene una importante aplicación. El mapa de tiempos verbales por idioma permite a los investigadores identificar rápidamente las relaciones entre idiomas y determinar cómo están conectados. Eso podría ser aprovechado para entender mejor la evolución del lenguaje.
Y el mismo enfoque también podría ser aplicado a otras características lingüísticas. "Solo requerimos que una característica lingüística esté claramente marcada en todos los idiomas estudiados", señalan Asgari y Schutze.
Pero las implicaciones van aún más allá. La lingüística computación ha tenido un profundo impacto en nuestro entendimiento del lenguaje, la manera en la que varía por todo el mundo y cómo las máquinas podrán entenderlo. Esta disciplina emergente ha dado lugar a la traducción automática de muchos idiomas directamente a otros en forma escrita y hablada. De hecho, la promesa es que la traducción automática instantánea pronto igualará y después superará el rendimiento de los intérpretes humanos.
Pero la utilidad de la traducción automática para determinados idiomas los hace más populares a costa de otros idiomas que no son abarcados. Por tanto, la traducción automática podría acelerar la desaparición de idiomas en peligro de extinción. De hecho, los lingüistas han observado un fenómeno similar con otras formas de comunicación de masas, como los servicios de televisión por satélite. Generalmente emiten en un único idioma, que entonces se vuelve más deseable y popular que los que no son representados en las transmisiones.
El trabajo de Asgari y Schutze podría ayudar a revertir este patrón de declive. Por supuesto, hay un gran salto desde este trabajo hasta una traducción automática precisa, pero es un primer paso muy acertado.
Ref: arxiv.org/abs/1704.08914: Past, Present, Future: A Computational Investigation of the Typology of Tense in 1,000 Languages