.

Tecnología y Sociedad

El nivel medio de Skype en todos los idiomas aún no amenaza a los traductores

1

Durante décadas, los expertos en aprendizaje de máquinas han intentado perfeccionar la traducción automatizada. Skype Translator se está acercando, pero aún le falta mucho

  • por George Anders | traducido por Teresa Woods
  • 05 Octubre, 2016

Katrina Rippel es una oradora cuidadosa que respeta todas las reglas. Hao Chen es un conversador más desenfadado. Y yo soy un alborotador sin límites que suelta por la boca todo lo que se me pase por la cabeza. Una mañana, los tres quedamos en el ciberespacio para averiguar lo bien (o mal) que podíamos comunicarnos en una mezcla de alemán, mandarín e inglés. Cada uno sólo habló en su idioma nativo.

Con los cascos puestos, activamos Skype Translator, una creación del equipo de investigaciones de Microsoft (casualmente mis interlocutores eran consultores de Microsoft, que estaban a miles de kilómetros de distancia). Cuando le pregunté a Chen dónde se crió, no me extrañó escucharle decir: "我在中国的家乡在东北,辽宁省,鞍山市". Varios segundos después, una simpática voz sintética dijo: "Mi pueblo natal se encuentra al noreste de China, en la provincia Lioning, Anshan".

Ojalá el resto de nuestra conversación hubiera sido tan fluida. Cuando Chen intentó hablar de sus viajes a Estados Unidos, Skype malinterpretó un ambiguo sustantivo mandarín al decirme que había visitado "el cuadro de Nueva York". Chen tuvo que cambiar su terminología para que Skype se decidiera a decir: "el estado de Nueva York". Cuando le pregunté a Rippel sobre su ciudad alemana natal, el software de Skype, que esperaba que yo hablase inglés, no alemán, me entendió "dressed" (vestido) en lugar de  el municipio alemán de "Dresde".  Así que creó una frase sinsentido, en la que figuró la palabra alemana bekleidet (vestido) en lugar del nombre de su ciudad.

Como demuestran tales tropiezos, la capacidad de las máquinas para traducir el lenguaje cotidiano en máquinas aún no se ha logrado, a pesar de llevar 30 años intentándolo. Realmente, es culpa nuestra. Si habláramos con la claridad y precisión de los diplomáticos de Naciones Unidas, entonces las herramientas de inteligencia artificial (IA) trabajarían con patrones bien establecidos. Cuanto más dependamos de palabras o sintaxis desconocidas para expresar nuestros pensamientos, más difícil resulta para el software de traducción acertar sin ayuda adicional.

Aun así, Microsoft, Google, Baidu, Facebook, IBM y muchos otros compiten por la supremacía en este complicado campo (ver Google ya traduce de inglés a español casi tan bien como un experto humano). Ofrecer un reconocimiento de voz y una traducción de primera categoría puede convertirse en una atractiva tarjeta de visita para asegurarse clientes en muchos otros servicios. Esta capacidad puede ser útil desde en las búsquedas de internet hasta en la computación en la nube, en la que el almacenamiento y el procesamiento de datos se proporcionan mediante servidores remotos y una conexión a internet.

El gasto global en infraestructuras y computación en la nube superó los 100.000 millones de euros el año pasado y está creciendo a un ritmo anual del 28%, según Synergy Research. La traducción en tiempo real puede ayudar a las líneas de servicios de computación en la nube de los competidores a destacar en un negocio de productos básicos en el que el elemento diferenciador es el precio. Por ahora, la mayoría de los servicios de traducción son gratuitos, pero puede que surjan alternativas de pago a medida que las empresas internacionales vayan necesitando herramientas de traducción que funcionen aún mejor.

Microsoft, en particular, trabaja para que los usuarios de una empresa puedan construir capacidades mayores sobre el básico motor Skype Translator que probamos Rippel, Chen y yo. El objetivo es que los clientes puedan cargar en el sistema miles de términos, documentos, conversaciones de muestra y locuciones peculiares especializadas por adelantado. De esa manera, problemas como el de "Dresde" deberían tener muchas menos probabilidades de producirse.

El software de traducción funciona mucho mejor si puede aprovecharse de una amplia base de datos de patrones del lenguaje. Esta información incluye aquello que es más posible que sea pronunciado por el orador, según explica el director de estrategia de investigación de Microsoft, Vikram Dendi. Los consultores de gestión pueden emplear términos como "delta" y "granularidad" en contextos que a los demás nos resultan impensables. Los químicos industriales pueden referirse a más de una docena de tipos distintos de ftalatos. Y dentro de cualquier empresa grande, los apodos de los proyectos, procesos y ejecutivos son infinitos.

Ofrecer un reconocimiento de voz y una traducción de primera categoría puede convertirse en una atractiva tarjeta de visita para asegurar clientes en muchos otros servicios. 

Desde 2011, Microsoft permite que sus grandes clientes suban sus propios glosarios y materiales escritos en las bases de datos de traducción de textos. El objetivo es producir unos resultados más fiables que los del servicio básico Bing de Microsoft, especialmente en densos materiales técnicos. Más de 10.000 usuarios han optado por la personalización, apunta Dendi. Los clientes ocasionales pueden llegar a gastar unos 36 euros al mes, usuarios frecuentes, como Adobe y Twitter, pueden pagar mucho más.

Microsoft ha probado una amplia variedad de estrategias para perfeccionar la traducción desde mediados de la década de 1990, cuando el fundador de la empresa, Bill Gates, predijo que el reconocimiento de voz estaría ampliamente disponible en los siguientes 10 años. Los primeros enfoques dependían de categorizar reglas específicas de la gramática y el uso. A partir de 2009, Microsoft amplió su énfasis. Las técnicas estadísticas han sido emparejadas con redes neuronales, sistemas de aprendizaje de máquinas basados en la estructura y la naturaleza autodidacta del cerebro humano.

Actualmente, Microsoft emplea cinco capas de redes neuronales para analizar el habla, explica el director de la división de investigaciones de la empresa, Peter Lee. Las primeras capas analizan los sonidos a un nivel tan rudimentario como el que usa el software de análisis de imágenes para detectar bordes y superficies, sin hacer ningún esfuerzo por determinar qué podrían ser los objetos. Al igual que muchos enfoques de inteligencia de máquinas avanzada, existe cierto misterio acerca de cómo funciona, incluso para los investigadores involucrados. "No tiene nada que ver con palabras ni fonemas", afirma Lee. El responsable detalla: "No creo que ninguno de nosotros entienda exactamente qué examina la capa inferior. Pero funciona sorprendentemente bien".

Los investigadores de Microsoft también han estado haciendo mayor uso de lo que se conoce como "memoria larga a corto plazo". Cuando reconocen la voz o traducen, las redes neuronales realizan una serie de conjeturas que revisan a medida que adquieren nueva infomación. A veces, un patrón propuesto de repente no funciona. En tales casos, las redes neuronales pueden reagruparse mejor para volver a elaborar las suposiciones que dieron paso a las conjeturas de varias palabras. Mantener un historial más largo de la memoria a corto plazo del sistema permite desandar lo andado y corregir.

Hacen falta al menos 4.000 horas de muestras habladas y millones de palabras escritas para que una red neuronal aprenda un nuevo idioma. El director del equipo de traducción de máquinas de Microsoft, Arul Menezes, esperaba encontrar más dificultades en idiomas como el árabe, en el que los acentos de las personas pueden variar ampliamente. Pero al recopilar muestras de suficientes voces de personas distintas, según Menezes, ha sido posible entrenar al "oído" de Skype Translator frente a diferentes entonaciones hasta tal punto que los acentos regionales ya no representan un problema. Lo mismo sucede con las diferencias entre las voces femeninas y masculinas.

Otras variaciones del lenguaje común son más complicadas. Las redes neuronales son muy sensibles a diferencias de micrófono (puede que a los humanos se nos dé bien detectar la diferencia entre las interferencias y el habla, pero resulta mucho más difícil de dominar para las máquinas). Las pausas del habla también son problemáticas. Como señala Menezes, "la gente normalmente no hace una pausa al final de una frase. Hace la pausa en otra parte. Las pausas acaban siendo inútiles para detectar cuándo empieza o acaba una frase. Hay que guiarse por las propias palabras".

Identificar las traducciones correctas para palabras ambiguas también es un reto infinito, reconoce el responsable. Mientras hablaba en alemán, Ripper emplea a menudo la palabra Sie, que puede significar ella, tú o ellos, en función de la situación. Skype Translator acierta alrededor del 80% del tiempo.

El programa también tiene algún traspié cuando Chen habla del tamaño de las familias en China. Sin importar las políticas gubernamentales, me cuenta Chen, el elevado coste de ser padre en China significa que "mucha gente sólo quiera dar a luz a un niño" [NdT: el texto original en inglés se lee así: "a lot of people only want to give birth to a child"]. Varios minutos después, desde el Edificio 99 de la sede central de Microsoft, Menezes y yo revisamos la transcripción de la conversación. Menezes señala con tristeza: "El 'un' de esa frase está mal, debería leerse 'one child' en lugar de 'a child'. Pero en chino [NdT: al igual que en español], no existe diferencia entre 'one' ['uno' en el sentido numérico, o en este caso 'un'] y 'a' [el determinante 'un']. Existe una diferencia en inglés, pero ha de inferirse totalmente del contexto".

Con una leve sonrisa, Menezes señala: "No creo que los traductores profesionales estén temblando de miedo por lo que estamos haciendo. Sus empleos aún estarán asegurados durante bastante tiempo".

Rippel, que es traductora profesional, no se muestra ni remotamente tan crítica. Siempre que se hable despacio y se eviten frases largas, dice, los servicios automatizados como Skype Translator pueden resultar muy útiles a la hora de superar barreras lingüísiticas.

En su opinión, "es muy importante que exista esta herramienta. Ahora es más importante que nunca que la gente de todas las comunidades puedan comunicarse entre sí".

Tecnología y Sociedad

Los avances tecnológicos están cambiando la economía y proporcionando nuevas oportunidades en muchas industrias.

  1. El éxodo a Bluesky marca el inicio de la era de las redes sociales descentralizadas

    Bluesky ha ganado terreno como alternativa a X, especialmente tras las últimas elecciones en EE UU. Sin embargo, este fenómeno no refleja el ascenso de un servicio ni el declive de otro, sino una tendencia hacia la descentralización

    Una persona entra a Bluesky desde su teléfono móvil
  2. La herramienta de Google DeepMind para "leer la mente" de la inteligencia artificial

    Un equipo de Google DeepMind ha creado Gemma Scope, una herramienta diseñada para desentrañar los procesos internos de una IA y comprender cómo llega a sus conclusiones. Este avance abre la puerta a algoritmos más transparentes y alineados con las expectativas humanas

    Google DeepMind tiene una nueva herramienta para explorar la IA
  3. El fundador de Oculus habla sobre la apuesta de EE UU por la realidad mixta en el campo de batalla

    El proyecto norteamericano de gafas militares está cuestionado, pero Palmer Luckey cree que los cascos dotados con IA y realidad aumentada serán clave en los ejércitos del futuro