Un esfuerzo masivo liderado por voluntarios para recopilar datos de entrenamiento en más idiomas, de personas de más edades y géneros, podría ayudar a que la próxima generación de IA de voz sea más inclusiva y menos explotadora.
Estamos en el umbral de un auge de la inteligencia artificial por voz, con empresas tecnológicas como Apple y OpenAI lanzando la próxima generación de asistentes con inteligencia artificial. Pero las voces predeterminadas de estos asistentes suelen ser estadounidenses blancos (británicos, si tienes suerte) y, sin duda, hablan inglés. Representan solo una pequeña proporción de los muchos dialectos y acentos del idioma inglés, que abarca muchas regiones y culturas. Y si eres una de los miles de millones de personas que no hablan inglés, mala suerte: estas herramientas no suenan tan bien en otros idiomas.
Esto se debe a que los datos que se han utilizado para entrenar estos modelos son limitados. En la investigación de IA, la mayoría de los datos utilizados para entrenar modelos se extraen de Internet en idioma inglés, que refleja la cultura angloamericana . Pero hay un esfuerzo masivo de base en marcha para cambiar este status quo y aportar más transparencia y diversidad a cómo suena la IA: la iniciativa Common Voice de Mozilla.
El conjunto de datos que Common Voice ha creado en los últimos siete años es uno de los recursos más útiles para quienes desean desarrollar IA de voz. Ha experimentado un aumento masivo en el número de descargas, en parte gracias al auge actual de la IA; recientemente alcanzó la marca de los 5 millones, frente a los 38.500 de 2020. Crear este conjunto de datos no ha sido fácil, principalmente porque la recopilación de datos depende de un ejército de voluntarios. Su número también ha aumentado, de poco menos de 500.000 en 2020 a más de 900.000 en 2024. Pero al regalar sus datos, argumentan algunos miembros de esta comunidad, Mozilla está animando a los voluntarios a realizar efectivamente un trabajo gratuito para las grandes tecnológicas.
Desde 2017, los voluntarios del proyecto Common Voice han recopilado un total de 31.000 horas de datos de voz en alrededor de 180 idiomas tan diversos como el ruso, el catalán y el maratí. Si has utilizado un servicio que utiliza inteligencia artificial de audio, es probable que haya sido entrenado al menos parcialmente en Common Voice.
La causa de Mozilla es noble. A medida que la IA se integra cada vez más en nuestras vidas y en las formas en que nos comunicamos, se vuelve más importante que las herramientas con las que interactuamos suenen como nosotros. La tecnología podría derribar barreras de comunicación y ayudar a transmitir información de una manera convincente, por ejemplo, a las personas que no saben leer. Pero, en cambio, un enfoque intenso en el inglés corre el riesgo de afianzar un nuevo orden mundial colonial y acabar con los idiomas por completo.
“Sería un gol en contra si, en lugar de crear finalmente modelos de traducción verdaderamente multimodales, multilingües y de alto rendimiento y crear un mundo más multilingüe, termináramos obligando a todos a operar en inglés o francés, por ejemplo”, dice EM Lewis-Jong, director de Common Voice.
Common Voice es de código abierto, lo que significa que cualquiera puede ver lo que se ha incluido en el conjunto de datos y los usuarios pueden hacer lo que quieran con él de forma gratuita. Este tipo de transparencia es inusual en la gobernanza de datos de IA. La mayoría de los grandes conjuntos de datos de audio simplemente no están disponibles públicamente y muchos consisten en datos extraídos de sitios como YouTube, según una investigación realizada por un equipo de la Universidad de Washington y las universidades Carnegie Mellon y Northwestern.
La gran mayoría de los datos lingüísticos son recopilados por voluntarios como Bülent Özden, un investigador de Turquía. Desde 2020, no solo ha estado donando su voz, sino que también ha creado conciencia sobre el proyecto para que más personas donen. Recientemente, pasó dos meses a tiempo completo corrigiendo datos y verificando errores tipográficos en turco. Para él, mejorar los modelos de IA no es la única motivación para hacer este trabajo.
"Lo hago para preservar las culturas, especialmente las lenguas con pocos recursos", dice Özden. Me cuenta que recientemente ha comenzado a recopilar muestras de las lenguas más pequeñas de Turquía, como el circasiano y el zaza.
Sin embargo, al analizar el conjunto de datos, me di cuenta de que la cobertura de idiomas y acentos es muy desigual. Solo hay 22 horas de voces en finlandés de 231 personas. En comparación, el conjunto de datos contiene 3.554 horas de inglés de 94.665 hablantes. Algunos idiomas, como el coreano y el punjabi, están incluso menos representados. A pesar de que tienen decenas de millones de hablantes, solo representan un par de horas de datos registrados.
Este desequilibrio ha surgido porque los esfuerzos de recopilación de datos se inician desde abajo hacia arriba por las propias comunidades lingüísticas, dice Lewis-Jong.
“Estamos tratando de darles a las comunidades lo que necesitan para crear sus propios conjuntos de datos de entrenamiento de IA. Nos enfocamos particularmente en hacer esto para comunidades lingüísticas donde no hay datos, o donde tal vez las organizaciones tecnológicas más grandes podrían no estar tan interesadas en crear esos conjuntos de datos”, dice Lewis-Jong. Esperan que con la ayuda de voluntarios y varias subvenciones, el conjunto de datos de Common Voice tenga cerca de 200 idiomas para fin de año.
La licencia permisiva de Common Voice significa que muchas empresas confían en ella; por ejemplo, la startup sueca Mabel AI, que crea herramientas de traducción para proveedores de atención médica. Uno de los primeros idiomas que utilizó la empresa fue el ucraniano; creó una herramienta de traducción para ayudar a los refugiados ucranianos a interactuar con los servicios sociales suecos, dice Karolina Sjöberg, fundadora y directora ejecutiva de Mabel AI. Desde entonces, el equipo se ha expandido a otros idiomas, como el árabe y el ruso.
El problema con muchos otros datos de audio es que consisten en personas leyendo libros o textos. El resultado es muy diferente de cómo habla la gente en realidad, especialmente cuando está angustiada o siente dolor, dice Sjöberg. Como cualquiera puede enviar oraciones a Common Voice para que otros las lean en voz alta, el conjunto de datos de Mozilla también incluye oraciones que son más coloquiales y se sienten más naturales, dice.
No es que sea perfectamente representativo. El equipo de IA de Mabel pronto descubrió que la mayoría de los datos de voz en los idiomas que necesitaba habían sido donados por hombres más jóvenes, lo que es bastante típico para el conjunto de datos.
“Los refugiados con los que pretendíamos utilizar la aplicación no eran precisamente hombres jóvenes”, afirma Sjöberg. “Por lo tanto, los datos de voz que necesitábamos no coincidían exactamente con los que teníamos”. El equipo empezó a recopilar sus propios datos de voz de mujeres ucranianas, así como de personas mayores.
A diferencia de otros conjuntos de datos, Common Voice pide a los participantes que compartan su género y detalles sobre su acento. Asegurarse de que los diferentes géneros estén representados es importante para combatir el sesgo en los modelos de IA, dice Rebecca Ryakitimbo, becaria de Common Voice que creó el plan de acción de género del proyecto. Una mayor diversidad conduce no solo a una mejor representación, sino también a mejores modelos. Los sistemas que se entrenan con datos limitados y homogéneos tienden a arrojar resultados estereotipados y dañinos.
“No queremos un caso en el que tengamos un chatbot que lleve el nombre de una mujer pero que no dé la misma respuesta a una mujer que a un hombre”, afirma.
Ryakitimbo ha recopilado datos de voz en suajili en Tanzania, Kenia y la República Democrática del Congo. Me cuenta que quería recopilar voces de un grupo socioeconómicamente diverso de hablantes de suajili y se ha puesto en contacto con mujeres jóvenes y mayores que viven en zonas rurales, que tal vez no siempre sepan leer y escribir o incluso no tengan acceso a dispositivos.
Este tipo de recopilación de datos es todo un reto. La importancia de recopilar datos de voz de IA puede parecer algo abstracto para muchas personas, especialmente si no están familiarizadas con las tecnologías. Ryakitimbo y los voluntarios se acercaban a las mujeres en entornos en los que se sentían seguras al principio, como presentaciones sobre higiene menstrual, y les explicaban cómo la tecnología podía, por ejemplo, ayudar a difundir información sobre la menstruación. A las mujeres que no sabían leer, el equipo les leía frases que ellas repetían para la grabación.
El proyecto Common Voice se sustenta en la convicción de que las lenguas forman una parte muy importante de la identidad. “Creemos que no se trata solo de la lengua, sino de transmitir la cultura y el patrimonio y valorar el contexto cultural particular de las personas”, afirma Lewis-Jong. “Existen todo tipo de expresiones idiomáticas y frases hechas que simplemente no se pueden traducir”, añade.
Según Willie Agnew, investigador de la Universidad Carnegie Mellon que ha estudiado conjuntos de datos de audio, Common Voice es el único conjunto de datos de audio en el que no predomina el inglés. “Estoy muy impresionado con lo bien que lo han hecho y con lo bien que han creado este conjunto de datos que, en realidad, es bastante diverso”, afirma Agnew. “Parece que están muy por delante de casi todos los demás proyectos que analizamos”.
Pasé un tiempo verificando las grabaciones de otros hablantes de finlandés en la plataforma Common Voice. Cuando sus voces resonaron en mi estudio, me sentí sorprendentemente conmovido. Todos nos habíamos unido en torno a la misma causa: hacer que los datos de IA sean más inclusivos y asegurarnos de que nuestra cultura y nuestro idioma estén representados adecuadamente en la próxima generación de herramientas de IA.
Pero tenía algunas grandes dudas sobre qué pasaría con mi voz si la donaba. Una vez que estuviera en el conjunto de datos, no tendría control sobre cómo podría usarse después. El sector tecnológico no es precisamente conocido por dar el crédito que se merece a las personas, y los datos están disponibles para que los use cualquiera.
“Por mucho que queramos que beneficie a las comunidades locales, existe la posibilidad de que las grandes empresas tecnológicas también puedan hacer uso de los mismos datos y crear algo que luego salga como producto comercial”, dice Ryakitimbo. Aunque Mozilla no comparte quién ha descargado Common Voice, Lewis-Jong me cuenta que Meta y Nvidia han dicho que lo han utilizado.
El acceso abierto a estos datos lingüísticos tan difíciles de conseguir y tan poco comunes no es algo que todos los grupos minoritarios deseen, afirma Harry H. Jiang, investigador de la Universidad Carnegie Mellon, que formó parte del equipo que realizó la investigación de auditoría. Por ejemplo, los grupos indígenas han expresado sus inquietudes.
El “extractivismo” es algo en lo que Mozilla ha estado pensando mucho durante los últimos 18 meses, dice Lewis-Jong. Más adelante este año, el proyecto trabajará con comunidades para probar licencias alternativas, incluida la Licencia de Datos Abiertos Nwulite Obodo , que fue creada por investigadores de la Universidad de Pretoria para compartir conjuntos de datos africanos de manera más equitativa. Por ejemplo, a las personas que quieran descargar los datos se les podría pedir que escriban una solicitud con detalles sobre cómo planean usarlos, y se les podría permitir obtener una licencia solo para ciertos productos o por un tiempo limitado. También se les podría pedir a los usuarios que contribuyan a proyectos comunitarios que respalden la reducción de la pobreza, dice Lewis-Jong.
Lewis-Jong afirma que el proyecto piloto es un ejercicio de aprendizaje para explorar si la gente querrá datos con licencias alternativas y si son sostenibles para las comunidades que los gestionan. La esperanza es que pueda dar lugar a algo parecido a un “código abierto 2.0”.
Al final, decidí donar mi voz. Recibí una lista de frases para decir, me senté frente a mi computadora y presioné Grabar. Un día, espero, mi esfuerzo ayude a una empresa o investigador a crear una IA de voz que suene menos genérica y más como yo.
Esta historia ha sido actualizada.