Inteligencia Artificial
Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas
La aplicación presentada por Meta nos acerca a la creación de un dispositivo de traducción universal similar al Pez de Babel de La guía del autoestopista galáctico, de Douglas Adams
Meta ha presentado un nuevo modelo de inteligencia artificial capaz de traducir el habla en 101 idiomas diferentes. Este avance representa un paso importante hacia la interpretación simultánea en tiempo real, en la que las palabras se traducen de inmediato en cuanto son pronunciadas.
Hoy en día, los modelos tradicionales de traducción del habla siguen varios pasos: primero convierten la voz en texto, luego lo traducen a otro idioma y, finalmente, transforman el texto traducido en habla. Este proceso puede ser ineficaz, ya que en cada etapa pueden surgir errores. Sin embargo, el nuevo modelo de Meta, SeamlessM4T, permite una traducción más directa entre idiomas. Este innovador sistema ha sido presentado en un artículo publicado en Nature.
SeamlessM4T es un 23% más preciso en la traducción que los mejores modelos existentes. Aunque AudioPaLM, de Google, puede traducir técnicamente más idiomas (113 frente a los 101 de SeamlessM4T), su capacidad se limita al inglés. En cambio, SeamlessM4T puede traducir a 36 idiomas.
La clave de este avance es un proceso llamado "minería paralela de datos", que utiliza datos recopilados en la web para identificar casos en los que el sonido de un vídeo o audio coincide con subtítulos en otro idioma. El modelo aprendió a asociar los sonidos de un idioma con los fragmentos de texto correspondientes en otro, y esto le permitió acceder a nuevos ejemplos de traducción para su entrenamiento.
"Meta ha logrado un gran avance al ofrecer una amplia variedad de opciones, como texto a voz, voz a texto e incluso reconocimiento automático del habla. El gran número de idiomas que soporta es un logro impresionante", afirma Chetan Jaiswal, profesor de Informática en la Universidad de Quinnipiac (EE UU).
Según los desarrolladores de esta herramienta, los traductores humanos siguen siendo esenciales en el proceso de traducción, ya que pueden entender los contextos culturales y asegurar que se conserve el significado al trasladar un mensaje de un idioma a otro. Este aspecto es crucial, según Lynne Bowker, Catedrática de Investigación en Traducción, Tecnologías y Sociedad de la Universidad Laval de Quebec (EE UU). "Las lenguas reflejan las culturas, y las culturas tienen sus propias formas de comprender el mundo", señala la docente.
En ámbitos como la medicina o el derecho, las traducciones automáticas deben ser revisadas cuidadosamente por un ser humano o, de lo contrario, pueden generar malentendidos. Un ejemplo de esto ocurrió en enero de 2021, cuando Google Translate se utilizó para traducir información sobre la vacuna contra la covid-19 del Departamento de Salud de Virginia. La herramienta tradujo "no obligatorio" al español como "no necesario", y modificó por completo el sentido del mensaje.
Por otro lado, los modelos de IA cuentan con muchas más referencias para entrenarse en algunos idiomas que en otros. Esto significa que pueden traducir fácilmente de idiomas como el griego al inglés, donde existen abundantes ejemplos, pero tienen dificultades para la interpretación del suajili al griego. Para abordar este problema, el equipo de Seamless entrenó previamente el modelo con millones de horas de audio en diferentes idiomas. Esto permitió al modelo reconocer patrones generales en el lenguaje y facilitó el procesamiento de lenguas menos habladas, ya que contaba con una base de referencia de cómo debe sonar el lenguaje.
El sistema es de código abierto y los investigadores esperan que motive a otros a aprovechar sus capacidades. No obstante, algunos permanecen escépticos respecto a su utilidad frente a las alternativas disponibles. "El modelo de traducción de Google no es tan abierto como Seamless, pero es mucho más ágil y rápido. Además, no tiene ningún coste académico", señala Jaiswal.
Lo más fascinante del sistema de Meta es que abre la puerta a un futuro donde exista la posibilidad de la interpretación instantánea de voz entre idiomas, como sucede con el mítico Pez de Babel en la novela La guía del autoestopista galáctico, de Douglas Adams. Aunque SeamlessM4T es más rápido que los modelos actuales, todavía no logra ofrecer traducción en tiempo real. No obstante, Meta afirma haber desarrollado una versión más avanzada que alcanza la velocidad de los intérpretes humanos.
"Si bien este tipo de traducción diferida es útil y tiene su valor, creo que la traducción simultánea será aún más relevante", afirma Kenny Zhu, director del Laboratorio de Lingüística Computacional Arlington en la Universidad de Texas (EE UU).