Aunque la traducción automática está mejorando a pasos agigantados, los profesionales ofrecen más calidad y fluidez que las máquinas a la hora de traducir un texto completo, según esta investigación, que además propone cambiar la forma de evaluar la calidad y la fluidez de las traducciones
Quizá no lo han celebrado por todo lo alto, pero en los últimos meses los lingüistas computacionales han empezado a asegurar que la traducción automática mediante redes neuronales ya ha alcanzado el mismo rendimiento que los traductores humanos.
Gracias a los continuos avances en aprendizaje automático e inteligencia artificial (IA), las redes neuronales capaces de traducir un texto de un idioma a otro han mejorado a pasos agigantados en los últimos años. Por eso, a nadie le sorprende que estas máquinas ya hayan alcanzado el mismo nivel que los profesionales. De hecho, los investigadores han ido publicando resultados para respaldar sus grandilocuentes afirmaciones (ver Google ya traduce de inglés a español casi tan bien como un experto humano).
Pero, el investigador la Universidad de Zúrich (Suiza) Samuel Laubli y un par de compañeros defienden que es pronto para celebrar este éxito de la IA. Aunque el equipo no cuestiona los resultados de sus colegas, sostiene que el protocolo de comprobación no tiene en cuenta la forma en la que los humanos leen los documentos completos. Los investigadores afirman que si se tienen en cuenta este factor, el rendimiento de las máquinas sigue siendo bastante inferior al de los traductores humanos.
Gráfico: El gráfico muestra el distinto rendimiento en calidad (a) y fluidez (b) de máquinas (izquierda y centro) y humanos (derecha) para frases sueltas (naranja) y documentos completos (azul)-
El problema no radica en cómo se evalúa la traducción automática. Para hacerlo, actualmente se usan dos medidas: la calidad y la fluidez. La calidad de una traducción es determinada por traductores humanos profesionales que leen tanto el texto original como la traducción para ver si el significado de la fuente está bien expresado. Después, los lectores monolingües controlan la fluidez leyendo únicamente el texto traducido para determinar si suena bien en su lengua.
Los lingüistas computacionales coindicen en que este sistema es útil. Pero según Laubli y sus compañeros, la metodología actual solo compara las traducciones de frases sueltas, mientras que los humanos también evalúan el texto a nivel documento.
Por eso, han desarrollado un nuevo protocolo para comparar el rendimiento de los traductores automáticos y humanos a nivel de documento. Pidieron a traductores profesionales que evaluaran tanto a sistemas de IA como a homólogos humanos. Todos ellos debían traducir al inglés más de 100 noticias escritas en chino. Los evaluadores calificaron cada traducción en función de la calidad y la fluidez de frases sueltas, pero también de todo el documento.
Los resultados son interesantes. Para empezar, Laubli y su equipo no encontraron diferencias significativas en la calidad de las frases sueltas traducidas por máquinas y humanos. Según esta medida, ambos traducen con la misma calidad, lo que coincide con los hallazgos previos.
Pero a la hora de evaluar todo el documento, las traducciones humanas fueron valoradas con mayor calidad y fluidez que las traducciones automáticas. "Cuando analizan documentos completos en lugar de frases sueltas, los evaluadores humanos de la calidad y la fluidez muestran una mayor preferencia por la traducción humana", afirma la investigación.
El propio trabajo incluye una posible explicación para este fenómeno: "Nuestra hipótesis es que evaluar un documento al completo permite detectar errores como palabras ambiguas o fallos de cohesión y coherencia del texto, cosas que son difíciles o imposibles de detectar cuando se analizan frases sueltas"..
El equipo comenta el ejemplo de una nueva aplicación llamada "微 信 挪,", que los humanos traducen como "WeChat Move the Car". Pero a la hora de traducir el nombre de la app, las máquinas suelen elegir nombres como "Twitter Move Car", "WeChat mobile" y "WeChat Move". Laubli y sus colegas creen que este tipo de incoherencia complica la compresión de un documento.
Este fenómeno sugiere que el método para evaluar el rendimiento de la traducción automática debe evolucionar más allá de un sistema en el que las máquinas traducen cada frase de forma aislada.
La investigación concluye: "A medida que la calidad de la traducción automática mejore, las traducciones serán más difíciles de diferenciar en términos de calidad, y es posible que haya llegado el momento de pasar a una evaluación a nivel de documento. Los analizadores tendrían más contexto para comprender el texto original y su traducción, y también se revelarían los errores de traducción relacionados con los fenómenos discursivos que no se ven en una evaluación a nivel de frases sueltas". Ese cambio debería ayudar a mejorar la traducción automática que, aunque sigue luchando superar la traducción humana, todavía no lo ha conseguido
Ref: arxiv.org/abs/1808.07048 : Has Machine Translation Achieved Human Parity? A Case for Document-level Evaluation