Los nuevos modelos de lenguaje podrían ayudar a crear aplicaciones de voz para muchas más lenguas de las que existen ahora
Meta ha creado modelos de inteligencia artificial que pueden reconocer y producir el habla de más de 1.000 lenguas, un avance que multiplica por diez la oferta actual. Se trata de un paso importante hacia la preservación de lenguas que corren el riesgo de desaparecer, afirma la empresa.
Meta pone sus modelos a disposición del público a través del servicio de alojamiento de código GitHub. Afirma que hacerlos de código abierto ayudará a los desarrolladores que trabajan en distintos idiomas a crear nuevas aplicaciones de lenguaje, como servicios de mensajería que entiendan a todo el mundo o sistemas de realidad virtual que puedan utilizarse en cualquier idioma.
En el mundo hay unas 7.000 lenguas, pero los modelos de reconocimiento del habla existentes solo cubren de forma exhaustiva unas 100. Esto se debe a que este tipo de modelos suelen requerir grandes cantidades de datos de entrenamiento etiquetados, que solo están disponibles para un pequeño número de idiomas, entre ellos el inglés, el español y el chino.
Los investigadores de Meta sortearon este problema reentrenando un modelo de IA existente desarrollado por la empresa en 2020 que es capaz de aprender patrones de lenguaje a partir de audio sin necesidad de grandes cantidades de datos etiquetados como pueden ser las transcripciones.
Lo entrenaron con dos nuevos conjuntos de datos: uno que contiene grabaciones de audio de la Biblia del Nuevo Testamento y su correspondiente texto extraídos de internet en 1.107 idiomas, y otro que contiene grabaciones de audio del Nuevo Testamento sin etiquetar en 3.809 idiomas. El equipo procesó el audio hablado y los datos de texto para mejorar su calidad antes de ejecutar un algoritmo diseñado para alinear las grabaciones de audio con el texto que las acompaña. A continuación, repitieron este proceso con un segundo algoritmo entrenado con los datos recién alineados. Con este método, los investigadores pudieron enseñar al algoritmo a aprender un nuevo idioma más fácilmente, incluso sin el texto que lo acompañaba.
"Podemos utilizar lo que ha aprendido ese modelo para construir rápidamente sistemas de voz con muy pocos datos", afirma Michael Auli, investigador científico de Meta que ha trabajado en el proyecto.
"Para el inglés tenemos montones y montones de buenos conjuntos de datos, y los tenemos para algunas lenguas más, pero no los tenemos para lenguas que hablan unas 1.000 personas".
Los investigadores afirman que sus modelos pueden conversar en más de 1.000 idiomas, pero reconocen más de 4.000.
Compararon los modelos con los de empresas competidoras, como OpenAI Whisper, y afirmaron que el suyo tenía la mitad de porcentaje de error, a pesar de abarcar 11 veces más idiomas.
Sin embargo, el equipo advierte de que el modelo sigue corriendo el riesgo de transcribir mal ciertas palabras o frases, y podría dar lugar a etiquetas inexactas o potencialmente ofensivas. También reconocen que sus modelos de reconocimiento de voz arrojaron más palabras sesgadas que otros modelos, aunque solo un 0,7% más.
Aunque el alcance de la investigación es impresionante, el uso de textos religiosos para entrenar modelos de IA puede ser controvertido, afirma Chris Emezue, investigador de Masakhane, una organización que trabaja en el procesamiento del lenguaje natural para lenguas africanas, y que no participó en el proyecto.
"La Biblia tiene muchos prejuicios y tergiversaciones", afirma.