ERICA SNYDER/MITTR | UNSPLASH/PIXABAY

Inteligencia Artificial

La nueva IA de Google puede componer una canción con solo oír un trozo

La técnica, denominada AudioLM, genera sonidos naturalistas sin necesidad de intervención humana

por Tammy Xu | traducido por Ana Milutinovic
13 Octubre, 2022

Un nuevo sistema de inteligencia artificial (IA) puede crear voz y música con un sonido natural después de recibir unos segundos de audio.

AudioLM, desarrollado por los investigadores de Google, genera audio que se adapta al estilo del ejemplo recibido, incluidos algunos sonidos complejos como música de piano o personas hablando, de una manera que es casi indistinguible de la versión original. La técnica se muestra prometedora para acelerar el proceso de entrenamiento de la IA para generar audio, y más adelante se podría usar para generar música automáticamente para acompañar distintos tipos de vídeos.

(Puede oír todos los ejemplos aquí)

El audio generado por IA es algo ya bastante común: las voces de los asistentes domésticos como Alexa utilizan el procesamiento del lenguaje natural. Los sistemas de música de IA como Jukebox de OpenAI ya han generado resultados impresionantes, pero la mayoría de las técnicas existentes necesitan a personas para preparar las transcripciones y etiquetar los datos de entrenamiento basados en texto, lo que requiere mucho tiempo y trabajo. Jukebox, por ejemplo, utiliza datos basados en texto para generar letras de canciones.

AudioLM, descrito el mes pasado en un artículo no revisado por pares, es diferente: no requiere ni transcripción ni etiquetado, sino que utiliza el aprendizaje automático para comprimir los archivos de audio (procedentes de bases de datos previamente introducidas) en forma de fragmentos de sonido, llamados "tokens", sin perder mucha información en el proceso. Estos datos de entrenamiento tokenizados se introducen en a continuación un modelo de aprendizaje automático que utiliza el procesamiento del lenguaje natural para aprender los patrones del sonido.

Para generar el audio, se introducen unos segundos de sonido a AudioLM y éste, a continuación, predice lo que seguiría. El proceso es similar a la forma en la que los modelos de lenguaje como GPT-3 predicen qué frases y palabras suelen seguir unas a otras.

Los clips de audio publicados por el equipo suenan bastante naturales. En particular, la música de piano generada con AudioLM suena más fluida que la música de piano generada con técnicas ya existentes de inteligencia artificial, que suele sonar más caótica.

El investigador de música generada por ordenador de la Universidad Carnegie Mellon (EE UU) Roger Dannenberg cree que AudioLM ya tiene una calidad de sonido mucho mejor que los anteriores programas de generación de música. En concreto, señala que AudioLM es sorprendentemente bueno en recrear algunos de los patrones repetitivos inherentes a la música creada por personas. Para generar música de piano realista, AudioLM tiene que capturar muchas de las vibraciones sutiles de cada nota cuando se tocan las teclas del piano. La música también tiene que mantener sus ritmos y armonías durante un período de tiempo.

"Eso es realmente impresionante, en parte porque indica que están aprendiendo algún tipo de estructura en múltiples niveles", afirma Dannenberg.

AudioLM no se limita solo a la música. Debido a que se entrenó en una biblioteca de grabaciones de frases humanas habladas, el sistema también puede generar un discurso que continúa con el acento y la cadencia del hablante original, aunque en este punto esas frases aún pueden parecer incongruentes y no tienen mucho sentido. AudioLM está entrenado para aprender qué tipos de fragmentos de sonido ocurren juntos con frecuencia, y utiliza el proceso inverso para producir frases. También tiene la ventaja de poder aprender las pausas y exclamaciones que son inherentes a los idiomas hablados pero que no se traducen fácilmente a texto.

El investigador de ciencias de la información y del lenguaje de la Universidad Northeastern (EE UU) Rupal Patel opina que los trabajos anteriores que usaron IA para generar audio podían capturar esos matices solo si se anotaban explícitamente en los datos de entrenamiento. Por el contrario, AudioLM aprende esas características de los datos introducidos automáticamente, lo que contribuye al efecto realista.

"Hay mucho de lo que podríamos llamar información lingüística que no está en las palabras que pronunciamos, sino es otra forma de comunicación basada en la manera en la que decimos las cosas para expresar una intención específica o una emoción concreta", asegura el cocreador de AudioLM Neil Zeghidour. Por ejemplo, alguien se puede reír después de decir algo para indicar que era una broma. "Todo eso hace que el habla sea natural", indica.

Más adelante, la música generada por IA se podría usar para proporcionar bandas sonoras de fondo con un sonido más natural para vídeos y presentaciones de diapositivas. La tecnología de generación de voz que suena más natural podría ayudar a mejorar las herramientas de acceso a internet y los bots que funcionan en los entornos de atención médica, según Patel. El equipo también espera crear sonidos más sofisticados, como una banda con diferentes instrumentos o sonidos que imiten una grabación de una selva tropical.

Sin embargo, se deberían considerar las implicaciones éticas de esta tecnología, advierte Patel. En especial, es importante determinar si los músicos que producen los clips utilizados como datos de entrenamiento obtendrán atribución o royalties del producto final, un problema que ha surgido con las IA de generación de imagen a partir de texto. El discurso generado por IA que es indistinguible del real también se podría volver tan convincente que permita más fácilmente la difusión de la desinformación.

En su artículo, los investigadores aseguran que ya están considerando estos problemas y trabajando para mitigarlos, por ejemplo, mediante el desarrollo de técnicas para distinguir los sonidos naturales de los sonidos producidos con AudioLM. Patel también sugirió incluir marcas de agua de audio en los productos generados por IA para que sean más fáciles de distinguir del audio natural.

Inteligencia Artificial

La nueva IA de Google puede componer una canción con solo oír un trozo

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025