una persona con auriculares percibe a una persona resaltada con un círculo verde en medio de una multitud en Woodstock

STEPHANIE ARNETT/MITTR | PUBLIC DOMAIN, ENVATO

Inteligencia Artificial

Los auriculares con cancelación de ruido utilizan IA para dejar pasar una sola voz

Podrían ayudar a los usuarios a concentrarse en voces concretas en entornos ruidosos, como la de un amigo entre la multitud o la de un guía turístico en medio del bullicio urbano

por Rhiannon Williams | traducido por
31 Mayo, 2024

La vida moderna es ruidosa. Si no te gusta, los auriculares con supresión de ruido pueden reducir los sonidos de tu entorno. Pero amortiguan los sonidos de forma indiscriminada, por lo que es fácil que acabes perdiéndote algo que realmente quieres oír.

Un nuevo prototipo de sistema de inteligencia artificial para estos auriculares pretende solucionar este problema. Denominado Target Speech Hearing (audición de habla objetivo), el sistema permite a los usuarios seleccionar a una persona cuya voz seguirá siendo audible aunque se anulen todos los demás sonidos.

Aunque la tecnología es actualmente una prueba de concepto, sus creadores dicen que están en conversaciones para incorporarla a marcas populares de auriculares con cancelación de ruido y también están trabajando para que esté disponible para audífonos.

"Escuchar a determinadas personas es un aspecto fundamental de nuestra forma de comunicarnos e interactuar con otros seres humanos", afirma Shyam Gollakota, profesor de la Universidad de Washington (Seattle, Washington, EE UU) que ha trabajado en el proyecto. "Pero puede llegar a ser realmente difícil, incluso si no tienes problemas de pérdida de audición, centrarte en personas concretas cuando se trata de situaciones ruidosas".

Los mismos investigadores consiguieron anteriormente entrenar una red neuronal para reconocer y filtrar determinados sonidos, como el llanto de los bebés, el piar de los pájaros o el sonido de las alarmas. Pero separar las voces humanas es un reto más difícil, que requiere redes neuronales mucho más complejas.

Esa complejidad es un problema cuando los modelos de IA tienen que funcionar en tiempo real en unos auriculares con una potencia de cálculo y una autonomía limitadas. Para ello, las redes neuronales debían ser pequeñas y de bajo consumo. Así que el equipo utilizó una técnica de compresión de IA llamada destilación de conocimiento. Esto consistió en tomar un modelo de IA enorme que había sido entrenado con millones de voces (el "profesor") y hacer que entrenara a un modelo mucho más pequeño (el "alumno") para imitar su comportamiento y rendimiento con el mismo nivel de exigencia.

A continuación, se enseñó al alumno a extraer los patrones vocales de voces concretas del ruido ambiental captado por micrófonos conectados a un par de auriculares con cancelación de ruido disponibles en el mercado.

Para activar el sistema Target Speech Hearing, el usuario mantiene pulsado un botón de los auriculares durante varios segundos mientras mira a la persona en la que se quiere concentrar. Durante este proceso de "registro", el sistema capta una muestra de audio de ambos auriculares y utiliza esta grabación para extraer las características vocales del hablante, incluso cuando hay otros hablantes y ruidos en las proximidades.

Estas características se introducen en una segunda red neuronal que funciona en un ordenador microcontrolador conectado a los auriculares mediante un cable USB. Esta red funciona continuamente, separando la voz elegida de las de otras personas y reproduciéndola al oyente. Una vez que el sistema se ha fijado en un interlocutor, sigue dando prioridad a la voz de esa persona, incluso si el usuario se da la vuelta. Cuantos más datos de entrenamiento obtenga el sistema centrándose en la voz de un hablante, mejor será su capacidad para aislarla.

Por ahora, el sistema solo es capaz de registrar con éxito a un hablante cuya voz sea la única fuerte presente, pero el equipo pretende que funcione incluso cuando la voz más fuerte en una dirección determinada no sea la del hablante objetivo.

Identificar una sola voz en un entorno ruidoso es muy difícil, afirma Sefik Emre Eskimez, investigador principal de Microsoft que trabaja en el campo del habla y la inteligencia artificial, pero que no ha participado en la investigación. "Sé que las empresas quieren hacerlo", afirma. "Si lo consiguen, se abrirán muchas aplicaciones, sobre todo en reuniones".

Aunque la investigación sobre separación del habla suele ser más teórica que práctica, este trabajo tiene claras aplicaciones en el mundo real, dice Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon (Pittsburgh, Pensilvania, EE UU), que no trabajó en la investigación. "Creo que es un paso en la dirección correcta", afirma Cornell. "Es un soplo de aire fresco".

Inteligencia Artificial

Los auriculares con cancelación de ruido utilizan IA para dejar pasar una sola voz

El gobierno de EE UU pone bajo la lupa a las empresas de IA por publicidad engañosa

Las emisiones de la IA están a punto de dispararse aún más

La IA llega al campo de batalla para redefinir la toma de decisiones en la guerra moderna