Inteligencia Artificial

Actores de voz de IA: más humanos que nunca

Varias 'start-ups' utilizan el aprendizaje profundo con el fin de crear intérpretes vocales sintéticos. Eso no significa que los dobladores humanos vayan a desaparecer: son más expresivos y creativos, e incluso están trabajando con estas compañías para defender sus derechos

por Karen Hao | traducido por Ana Milutinovic
02 Agosto, 2021

La publicación del blog de la empresa WellSaid Labs rebosa el entusiasmo de un infomercial estadounidense de la década de 1990 y describe lo que los clientes pueden esperar de sus "ocho nuevos actores de voz digitales". Tobin es "enérgico y penetrante". Paige es "serena y expresiva". Ava es "refinada, segura de sí misma y profesional".

Cada uno se basa en un actor de voz real, cuya imagen (con consentimiento) se ha conservado en el uso de la inteligencia artificial (IA). Las empresas pueden disponer de estas voces para decir lo que quieran. Simplemente introducen algún texto en el motor de voz, y luego saldrá un clip de audio nítido de una interpretación que suena natural.

WellSaid Labs, la start-up con sede en Seattle (EE. UU.) que surgió de la organización sin ánimo de lucro Allen Institute of Artificial Intelligence, es una de las nuevas empresas que ofrecen voces de IA a sus clientes. Por ahora, se especializa en voces para vídeos corporativos de e-learning. Otras start-ups crean voces para asistentes digitales, operadores de centros de llamadas e incluso para personajes de videojuegos.

Un actor de voz de WellSaid AI en un estilo promocional

Hace poco, esas voces deepfake tenían una pésima reputación por su uso en las llamadas fraudulentas y engaños en internet. Pero la mejora de su calidad ha despertado el interés de un creciente número de empresas. Los recientes avances en el aprendizaje profundo han hecho posible replicar muchos matices del habla humana. Estas voces se detienen y respiran en las pausas adecuadas. Pueden cambiar su estilo o la emoción. Es posible detectar la diferencia si hablan durante demasiado tiempo. Pero, en los clips de audio cortos, algunas de esas voces se han vuelto indistinguibles de las humanas.

Las voces de IA también son baratas, escalables y es fácil trabajar con ellas. A diferencia de una grabación de un actor de voz humano, las voces sintéticas también pueden actualizar su guion en tiempo real, abriendo nuevas oportunidades para personalizar la publicidad.

Pero el auge de las voces falsas hiperrealistas no está libre de consecuencias. Los actores de voz humanos, especialmente, se preguntan qué significa esto para sus medios de vida.

Cómo fingir una voz

Las voces sintéticas llevan tiempo existiendo. Pero las de antes, incluidas las voces originales de Siri y Alexa, simplemente unían las palabras y sonidos con un efecto robótico y torpe. Conseguir que suenen más naturales fue una laboriosa tarea manual.

El aprendizaje profundo cambió eso. Los desarrolladores de voz ya no tenían que manejar el ritmo, la pronunciación o la entonación exactos del discurso generado. En cambio, podían introducir unas pocas horas de audio en un algoritmo y hacer que el algoritmo aprenda esos patrones por sí solo.

"Si soy Pizza Hut, desde luego que no puedo sonar como Domino's, y tampoco como Papa John's", Rupal Patel, fundadora y CEO de VocaliD

A lo largo de los años, los investigadores han utilizado esta idea básica para construir motores de voz cada vez más sofisticados. El de WellSaid Labs, por ejemplo, utiliza dos modelos principales de aprendizaje profundo. El primero predice, a partir de un pasaje de texto, los puntos generales de cómo sonará el hablante, incluidos el acento, el tono y el timbre de voz. El segundo completa los detalles, como las respiraciones y la manera en la que la voz resuena en su entorno.

Sin embargo, crear una voz sintética convincente requiere algo más que presionar un botón. Parte de lo que hace que una voz humana sea tan humana es su inconsistencia, la expresividad y la capacidad de pronunciar las mismas frases en estilos completamente diferentes, según el contexto.

Capturar estos matices implica encontrar unos buenos actores de voz para proporcionar los datos de entrenamiento adecuados y ajustar los modelos de aprendizaje profundo. WellSaid afirma que el proceso requiere al menos una o dos horas de audio y algunas semanas de trabajo para desarrollar una réplica sintética que suene realista.

Un agente de atención al cliente de Resemble.ai

Un actor de voz de Resemble.ai en estilo conversacional

Las voces de IA se han vuelto especialmente populares entre las marcas que buscan mantener un sonido consistente en millones de interacciones con los clientes. Con la ubicuidad de los altavoces inteligentes en la actualidad y el aumento de los agentes automatizados de servicio al cliente, así como de los asistentes digitales integrados en los coches y dispositivos inteligentes, puede que las empresas tengan que producir más de cien horas de audio al mes. Pero ya no quieren seguir usando las voces genéricas que ofrece la tecnología tradicional de conversión de texto a voz, que es la tendencia que se intensificó durante la pandemia a medida que cada vez más clientes dejaban atrás las interacciones en las tiendas físicas para interactuar virtualmente con las empresas.

"Si soy Pizza Hut, desde luego que no puedo sonar como Domino's, y tampoco como Papa John's", explica la profesora de la Universidad Northeastern (EE. UU.) y fundadora y CEO de VocaliD, Rupal Patel, que promete crear voces personalizadas que coinciden con la identidad de la marca de cada empresa. "Estas marcas han pensado en sus colores y en sus fuentes. Ahora también deben empezar a pensar en cómo suena su voz".

Una muestra de anuncio de VocaliD con voz masculina

Una muestra de anuncio de VocaliD con voz femenina

Mientras que las empresas tenían que contratar antes diferentes actores de voz para distintos mercados (el noreste frente al sur de EE. UU. o unos para Francia y otros para México), algunas compañías de IA de voz pueden manipular el acento o cambiar el idioma de una sola voz de varias maneras. Esto abre la posibilidad de adaptar los anuncios en las plataformas de streaming en función de quién esté escuchándolos, cambiando no solo las características de la voz sino también las palabras que se pronuncian. Un anuncio de cerveza podría decirle a un oyente que pase por un pub diferente dependiendo de si se emite en Nueva York (EE. UU.) o en Toronto (Canadá), por ejemplo. Resemble.ai, que diseña voces para anuncios y asistentes inteligentes, asegura que ya trabaja con los clientes para lanzar ese tipo de anuncios de audio personalizados en Spotify y Pandora.

Las industrias del videojuego y del entretenimiento también están comprobando los beneficios de esta tecnología. La empresa Sonantic, que se especializa en voces de emociones que pueden reír y llorar o susurrar y gritar, trabaja con los creadores de videojuegos y varios estudios de animación para proporcionar las voces de sus personajes. Muchos de sus clientes utilizan las voces sintetizadas solo en la preproducción y cambian a actores de voz reales para la producción final. Pero Sonantic resalta que algunos clientes han empezado a usarlos durante todo el proceso, quizás para los personajes que hablan menos. Resemble.ai y otras compañías también han trabajado con empresas de cine y algunos programas de televisión para arreglar las actuaciones de los actores cuando pronuncian mal algunas palabras o hablan de forma incomprensible.

Pero existen limitaciones sobre hasta dónde puede llegar la IA. Todavía resulta difícil mantener el realismo de una voz durante los largos períodos de tiempo que pueden ser necesarios para un audiolibro o un pódcast. Y hay poco margen de control del desempeño de una voz de IA en relación con cómo un director puede guiar a un intérprete humano. "Aún estamos en los primeros tiempos del habla sintética", subraya el fundador y CEO de Resemble.ai, Zohaib Ahmed, comparándolo con los tiempos en los que la tecnología CGI se usaba principalmente para los retoques y no para crear mundos completamente nuevos a partir de las pantallas verdes.

Un toque humano

En otras palabras, los actores de voz humanos aún no van a desaparecer. Las personas aún son mejores para los proyectos expresivos, creativos y de larga duración. Y por cada voz sintética creada por estas empresas, un actor de voz también debe proporcionar los datos de entrenamiento originales.

Pero algunos actores se preocupan cada vez más por sus medios de vida, según el portavoz de SAG-AFTRA, el sindicato que representa a los actores de voz en EE. UU. Aunque no tienen miedo de ser automatizados por la IA, les preocupa ser recompensados injustamente o perder el control sobre sus voces, que constituyen su marca y su reputación.

Esta es la causa de una demanda contra TikTok presentada por la actriz de voz canadiense Bev Standing, quien alega que la función de voz en off incorporada de la app usa una copia sintética de su voz sin su permiso. La experiencia de Standing también se hace eco de la voz original de la Siri estadounidense, Susan Bennett, a quien se le pagó por sus grabaciones iniciales pero no por el uso continuo de su imagen vocal en millones de dispositivos de Apple.

Algunas empresas buscan ser más responsables en la forma en la que se relacionan con el sector de los actores de voz. Según afirma el representante de SAG-AFTRA, las mejores empresas han contactado al sindicato para encontrar la mejor manera de compensar y respetar a los actores de voz por su trabajo.

Actualmente, varias de estas empresas utilizan un modelo de participación en las ganancias para pagar a los actores cada vez que un cliente utiliza su voz sintética, lo que ha abierto una nueva corriente de ingresos pasivos. Otras involucran a los actores en el proceso de diseño de su versión IA y les otorgan el poder de veto sobre los proyectos en los que se utilizará. SAG-AFTRA también está presionando para la creación de normativas con las que proteger a los actores de las réplicas ilegítimas de su voz.

Pero para Patel, de VocaliD, el objetivo de las voces de IA no es, en última instancia, replicar el desempeño humano o automatizar el existente trabajo de voz. En cambio, la promesa consiste en abrir unas posibilidades completamente nuevas. ¿Y si en el futuro las voces sintéticas pudieran usarse para adaptar rápidamente los materiales educativos online a diferentes públicos? "Si quiere llegar a un grupo de niños del centro de la ciudad, por ejemplo, ¿no sería genial si esa voz realmente sonara como si fuera de su comunidad?".

Inteligencia Artificial

Actores de voz de IA: más humanos que nunca

Cómo fingir una voz

Un toque humano

Al habla con la IA: el reto de lograr voces más diversas e inclusivas

Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

Por qué la IA podría comerle la tostada a la computación cuántica