Este software intérprete presenta grandes progresos en aprendizaje automático pero no domina las sutilezas de la comunicación humana
A veces parece que el mayor reconocimiento que puede recibir una tecnología innovadora es una comparación con Star Trek. El Oculus Rift es como el Holodeck; Las impresoras 3D son como replicadores de materia; Qualcomm incluso patrocina un concurso X-Prize para construir un tricorder funcional.
Y ahora todo el mundo compara Skype Translator, una aplicación de traducción de texto y voz en tiempo real disponible para usuarios de Windows 8.1 en formato de beta público, con el traductor universal utilizado por los capitanes Kirk y Picard para comunicarse sin esfuerzo con interlocutores alienígenas. Skype Translator es menos capaz de lo que parecería sugerir la comparación con la ciencia ficción, pero sus limitaciones son igual de fascinantes que sus formidables logros técnicos.
Skype Translator traduce instantáneamente las charlas de texto en más de 40 idiomas, pero su función estrella es la traducción en tiempo real de conversaciones de voz entre angloparlantes e hispanohablantes. (Microsoft, que es el dueño de Skype, no ha querido comentar qué idiomas más piensa incorporar al software o cuándo podríamos esperarlos).
Al contrario que el traductor ficticio de Star Ttrek, Skype Translator está diseñado para imitar a un intérprete humano que actúa como intermediario entre los dos participantes principales. Este intérprete virtual es personalizable: puedes escoger una voz masculina o femenina e incluso fijar su tolerancia para traducir obscenidades (aunque no puse esa función a prueba). Después, igual que haría un traductor humano, "escuchó" mi conversación, esperó una pausa y repitió mis palabras en español al consultor de Microsoft que tenía al otro lado de la línea. Ambos podíamos oír la traducción hablada. Y muchas veces era sorprendentemente precisa.
Sobre el papel, Skype Translator podría cambiar las reglas del juego. Es como una versión de la discreta traducción en vivo de la que disfrutan los líderes mundiales cuando visitan Naciones Unidas. En la práctica, sin embargo, puede ser más como tener a Siri de Apple (o Cortana de Microsoft) interrumpiéndote constantemente y pisando lo que dices.
Pero incluso una traducción automática así de burda es bastante sorprendente. A las máquinas aún les cuesta mucho reconocer palabras y frases con rapidez y precisión y Skype Translator consigue un nivel muy alto de rigor gracias una técnica que se conoce como aprendizaje profundo. El software que ejecutan los servidores de Microsoft se ha entrenado para reconocer palabras usando métodos de procesado de información que imitan en cierto sentido el funcionamiento de un cerebro biológico (ver Aprendizaje profundo).
El aprendizaje profundo permite a los ordenadores de Microsoft transformar con fiabilidad un flujo de lenguaje hablado en texto que a continuación se analiza usando métodos de traducción estándar. Cuando más gente empiece a usar el software, el sistema debería ser más eficaz reconociendo las idiosincrasias de los acentos y las cadencias, con el potencial de convertir a Skype Translator (y al propio Skype) en algo más útil.
El software de Microsoft intenta filtrar las "interrupciones del flujo" (como "eh", "ah" y las repeticiones) a nivel de palabra y de frase. Algunas de estas interrupciones no se filtraron, pero la traducción siguió adelante con una velocidad y precisión impresionantes.
Las limitaciones de Skype a la hora de traducir también resultan reveladoras puesto que demuestran lo difícil que le resulta incluso a la máquina más inteligente imitar las sutilezas de la conversación humana real. Decidir qué significado de una palabra es el adecuado en distintos contextos puede ser muy difícil. "Si el software está traduciendo entre el inglés americano y el británico y reconoce la palabra 'fútbol', también tiene que saber cuándo cambiar a 'soccer' y cuándo mantenerlo como 'fútbol' o 'campo de juego'", afirma el profesor de lingüística e informática del Grupo de Procesado de Lenguaje Natural de la Universidad de Stanford (EEUU), Christopher Manning.
Además, Skype Translator es sordo al ritmo de una conversación hablada normal, así que nunca estás seguro de cuándo entrará su voz robótica en juego y empezará a soltar su versión traducida, algo que supone un reto incluso para los humanos muchas veces. "Incluso en el caso de los traductores humanos, hay que aprender a hacer las pausas para permitir al intérprete absorber lo que acabas de decir y poder repetirlo", afirma el director de estrategia de Microsoft Research, Vikram Dendi.
Con práctica podría aprender el "ritmo" de Skype Translator, con lo que la experiencia me distraería menos. Introducir un avatar para el robot en la pantalla también serviría para reforzar la metáfora de una tercera persona presente en la llamada, quizá facilitando que los dos hablantes humanos modulasen su conversación de tal forma que permitieran un hueco al software que habla en su nombre.
Pero de hecho Skype Translator ya tiene una solución bastante elegante incorporada: la conversación hablada traducida en forma de texto en la pantalla, generado en tiempo real. Esta interfaz es mucho menos futurista que la traducción hablada, pero parece mucho más natural. Y los errores gordos son fáciles de corregir ya que cualquiera de los participantes puede teclear en la ventana del chat donde aparecen las traducciones.
Dendi admite que Skype y Microsoft aún no saben cuál es la experiencia de usuario ideal para el software. "Cuando vemos estas cosas en funcionamiento en la televisión [como en Star Trek], parece tan evidente: hablas y sale traducido", afirma. "Pero cuando empiezas a hurgar en la puesta en práctica real y lo colocas en las manos de la gente para que lo usen, hay tantos detallitos que pueden fastidiar o mejorar la experiencia".
Otros proyectos que se están llevando a cabo en el campo del aprendizaje profundo podrían servir de ayuda a Skype Translation. Investigadores de Google y la Universidad de Montreal (Canadá) están aplicando estos métodos a la traducción del propio lenguaje hablado (no al reconocimiento del lenguaje hablado) "con un éxito impresionante", según Manning de Stanford. Avances futuros podrían servir para lograr que la traducción automática en tiempo real acabe siendo prácticamente perfecta. O los progresos podrían estancarse. "Aún está por decidir", afirma Manning. "Creo que aún no están claros cuáles son los límites del aprendizaje profundo para resolver problemas cognitivos de procesado de alto nivel".
Desde luego Skype Translator aún no ha resuelto el problema. Pero es un fantástico comienzo para acabar con algunas barreras lingüísticas por ahora.