Los idiomas que no se utilizan en línea corren el riesgo de ser olvidados. Una nueva tecnología de traducción de Google y Microsoft podría ayudar a que esto no ocurra.
A veces quizás sientas que no hay nada que valga la pena leer en Internet, pero al menos hay una gran cantidad de material que eres capaz de leer y entender. Millones de personas en todo el mundo, en cambio, hablan idiomas que están todavía escasamente representados en línea, a pesar del acceso generalizado a Internet y de la mejora de la tecnología de traducción.
Los gigantes Microsoft y Google están tratando de cambiar esta situación con tecnología de traducción dirigida a idiomas que están siendo olvidados (o tal vez incluso erradicados de forma activa) por Internet. Aunque ambas compañías llevan trabajado en la tecnología de traducción desde hace años, hasta ahora lo han hecho centrándose en los principales idiomas del comercio internacional, como el inglés, el español y el chino.
Las herramientas de traducción existentes de Microsoft y Google, ambas gratuitas, representan un triunfo dentro del manejo de datos. En lugar de aprender como un traductor humano, mediante el estudio de las reglas de las distintas lenguas, los algoritmos de una herramienta de traducción aprenden a traducir de un idioma a otro mediante la comparación estadística de miles o millones de documentos en línea que han sido traducidos por seres humanos.
Las dos compañías se han salido un poco de esa fórmula para dar servicio a las lenguas menos populares. Google ha lanzado recientemente apoyo experimental 'alfa' a una colección de cinco lenguas de la India (bengalí, guyarati, canarés, tamil y telugu) mediante la incorporación de algunas lecciones directas de gramática a su software, mientras que Microsoft ha lanzado un servicio que permite a una comunidad construir un sistema de traducción de su idioma mediante el suministro de su propio material fuente.
Google se dio cuenta por primera vez de que necesitaba dar a su sistema una lección de gramática cuando trató de pulir sus traducciones del japonés, afirma Ashish Venugopal, científico dedicado al desarrollo del software de traducción de Google. "Estábamos produciendo oraciones con el verbo en el centro, pero en japonés, tiene que ir al final", asegura Venugopal. El problema deriva de que el sistema en gran medida ignora la gramática. La revisión que se le ocurrió al equipo de Google (añadir un poco de comprensión de gramática) permitió el lanzamiento de los cinco idiomas de la India, todos ellos usados por millones de personas en el subcontinente, pero en gran medida ausentes de la web.
El sistema de Google aprendió gramática y se le añadió una gran cantidad de frases en las que las partes gramaticales habían sido clasificadas. Esto representa un mayor grado de instrucción del que reciben los algoritmos de traducción de Google por lo general.
Venugopal asegura que, hasta ahora, el sistema no puede manejar las lenguas marginadas del mismo modo en que la tecnología de traducción existente de Google maneja lenguajes más establecidos, como el francés y el alemán. No obstante, añade, tiene mucha importancia ofrecer apoyo a estas lenguas relativamente poco frecuentes en línea. "Una parte importante de nuestra misión es hacer que estos otros idiomas estén disponibles en Internet", señala. "No queremos que la gente tenga que decidir si publicar su blog en su propio idioma o en inglés. Queremos ayudar a que el mundo lea tu blog".
Microsoft también está interesada en ayudar a las lenguas de uso poco común, para evitar que sean marginadas y decaiga su uso, indica Kristin Tolle, directora de Microsoft Research. Su equipo ha lanzado recientemente un sitio web que ayuda a cualquier persona a crear su propio software de traducción, llamado Translation Hub. Está dirigido a comunidades que deseen asegurarse de que su idioma se utiliza en línea.
Para usar Translation Hub hay que crear una cuenta y después subir materiales en los dos idiomas que van a ser traducidos. Los algoritmos de aprendizaje de máquinas de Microsoft utilizan ese material fuente y más tarde pueden tratar de traducir cualquier texto escrito en el nuevo idioma. Microsoft puso a prueba esta tecnología en colaboración con los líderes de la numerosa comunidad Hmong de Fresno, California (Estados Unidos), para cuyo idioma no existe ningún sistema de traducción.
"Permitir que cualquier persona cree su propio modelo de traducción puede ayudar a las comunidades a salvar sus lenguas", señala Tolle. Los sistemas de traducción automática se han desarrollado para aproximadamente 100 de las 7.000 lenguas del mundo, añade.
"Hay mucho de verdad en lo que asegura Microsoft", explica Greg Anderson, director la organización sin fines de lucro Living Tongues, que documenta, investiga e intenta dar apoyo a lenguas que están desapareciendo. "La situación actual hace que sea necesario tener una presencia digital en línea, tanto si somos una comunidad o una compañía. Si no tienes presencia en Internet, de algún modo es como si no existieras". Anderson indica que las lenguas marginadas que están logrando reaparecer suelen ser de comunidades que se han sumado a la vida en línea usando su lenguaje.
Margaret Noori, profesora de la Universidad de Chicago (EE.UU.) que trabaja para preservar el idioma anishinaabemowin (o ojibwe), una lengua nativa de América, está de acuerdo, pero añade que la preservación de una lengua implica algo más que Internet. "Hay razones para estar en línea en el mundo actual, pero es absolutamente necesario equilibrarlo con canciones cantadas solo con la voz y ceremonias que nunca sean grabadas".
El sistema Translation Hub de Microsoft también tiene como objetivo permitir la traducción de términos técnicos especializados o de jerga, algo que en general no se le suele dar bien a las herramientas de traducción en línea. Las organizaciones sin fines de lucro podrían, por ejemplo, utilizarlo para traducir materiales sobre técnicas agrícolas, afirma Tolle, y la tecnología también puede ser útil para empresas que deseen agilizar la traducción de manuales de instrucción u otros materiales.
"Las empresas a menudo quieren que sus datos estén disponibles de forma privada y poder mantenerlos, en vez de dárselos a alguien para que entrene a un sistema de traducción", señala. Volvo y Mercedes han expresado su interés en poner a prueba el Translation Hub de Microsoft, concluye Tolle.