Dos nuevos trabajos muestran avances importantes en el esfuerzo por traducir la actividad cerebral en habla
"¿Qué le parece mi voz artificial?", pregunta una mujer en la pantalla de un ordenador, con los ojos verdes ligeramente abiertos. La imagen está claramente informatizada y la voz es entrecortada, pero no deja de ser un momento extraordinario. La imagen es un avatar digital de una persona que perdió la capacidad de hablar tras sufrir un derrame cerebral hace 18 años. Ahora, como parte de un experimento que incluye un implante cerebral y algoritmos de inteligencia artificial (IA), puede hablar con una réplica de su propia voz e incluso transmitir una gama limitada de expresiones faciales a través de su avatar.
Un par de artículos publicados en Nature la semana pasada por dos equipos de investigación independientes muestran lo rápido que avanza este campo, aunque estas pruebas de concepto están aún muy lejos de la tecnología disponible para el gran público. En cada estudio participaba una mujer que había perdido la capacidad de hablar de forma inteligible: una tras un derrame cerebral y la otra a causa de la esclerosis lateral amiotrófica (ELA), una enfermedad neurodegenerativa progresiva.
A cada una de las participantes se le implantó un tipo distinto de dispositivo de grabación en el cerebro y ambas consiguieron hablar a un ritmo de entre 60 y 70 palabras por minuto. Es decir, aproximadamente la mitad del ritmo del habla normal, pero más de cuatro veces más rápido de lo que se había observado hasta ahora. Un equipo dirigido por Edward Chang, neurocirujano de la Universidad de California en San Francisco (EE UU), también captó las señales cerebrales que controlan pequeños movimientos que proporcionan las expresiones faciales, algo que les permitió crear el avatar que representaba el habla de la participante en el estudio casi en tiempo real.
Los trabajos "representan una ciencia y una ingeniería del cerebro elegantes y rigurosas", afirma Judy Illes, neuroeticista de la Universidad de Columbia Británica en Vancouver (Canadá), que no participó en ninguno de los dos estudios. Illes apreció la incorporación de un avatar expresivo. "La comunicación no consiste sólo en palabras entre personas. Se trata de palabras y mensajes que se comunican a través de la tonalidad, la expresión, el acento, el contexto", sostiene. "Creo que fue creativo y bastante reflexivo intentar aportar ese componente de persona a lo que en realidad es ciencia fundamental, ingeniería, neurotecnología".
Chang y su equipo llevan más de una década trabajando en este problema. En 2021 demostraron que podían captar la actividad cerebral de una persona que había sufrido un derrame cerebral y traducir esas señales en palabras y frases escritas. En el último trabajo, el equipo utilizó un implante más grande con el doble de electrodos —un dispositivo del tamaño de una tarjeta de crédito— para capturar señales del cerebro de otra paciente, llamada Ann, que perdió la capacidad de hablar tras sufrir un ictus hace casi dos décadas.
El implante no registra los pensamientos, capta las señales eléctricas que controlan los movimientos musculares de los labios, la lengua, la mandíbula y la laringe, es decir, todos los movimientos que permiten hablar. Por ejemplo, "si emites un sonido P o un sonido B, tienes que juntar los labios. Eso activaría una cierta proporción de los electrodos que controlan los labios", explica Alexander Silva, autor del estudio y estudiante de posgrado en el laboratorio de Chang. Un puerto situado en el cuero cabelludo permite al equipo transferir esas señales a un ordenador, donde los algoritmos de IA las descodifican y un modelo lingüístico ayuda a proporcionar funciones de autocorrección para mejorar la precisión. Con esta tecnología, el equipo tradujo la actividad cerebral de Ann en palabras escritas a un ritmo de 78 palabras por minuto, utilizando un vocabulario de 1.024 palabras, con una tasa de error del 23%.
El grupo de Chang también consiguió decodificar las señales cerebrales en habla, una primicia para cualquier grupo. Y las señales musculares que captaron permitieron al participante, a través del avatar, expresar tres emociones diferentes —feliz, triste y sorprendido— con tres niveles distintos de intensidad. "Hablar no es sólo comunicar palabras, sino también quiénes somos. Nuestra voz y nuestras expresiones forman parte de nuestra identidad", afirma Chang. La participante en el ensayo espera convertirse en asesora. Es "mi meta", dijo a los investigadores. Cree que este tipo de avatar podría hacer que sus clientes se sintieran más a gusto. El equipo utilizó una grabación del vídeo de su boda para reproducir su voz, de modo que el avatar suena incluso como ella.
El segundo equipo, dirigido por investigadores de Stanford, publicó por primera vez sus resultados como preimpresión en enero. Los investigadores colocaron a un participante con ELA, llamado Pat Bennett, cuatro implantes mucho más pequeños —cada uno del tamaño de una aspirina— que pueden registrar señales de neuronas individuales. Bennett entrenó el sistema leyendo sílabas, palabras y frases a lo largo de 25 sesiones.
A continuación, los investigadores probaron la tecnología haciéndole leer frases que no se habían utilizado durante el entrenamiento. Cuando esas frases se extrajeron de un vocabulario de 50 palabras, la tasa de error fue de alrededor del 9%. Cuando el equipo amplió el vocabulario a 125.000 palabras, que abarcan gran parte de la lengua inglesa, la tasa de error se elevó al 24%.
El habla a través de estas interfaces no es fluida. Sigue siendo más lento que el habla normal y, aunque la tasa de error del 23% o 24% es mucho mejor que los resultados anteriores, sigue sin ser excelente. En algunos casos, el sistema replicó frases perfectamente. En otros, "¿Cómo está tu resfriado?" se reprodujo como "Tu viejo".
Pero los científicos están convencidos de que pueden hacerlo mejor. "Lo emocionante es que, a medida que se añaden más electrodos, el rendimiento del descodificador aumenta", afirma Francis Willett, neurocientífico y autor del artículo de Stanford. "Si podemos conseguir más electrodos y más neuronas, deberíamos ser capaces de ser aún más precisos".
Los sistemas actuales no son prácticos para uso doméstico. Como dependen de conexiones por cable y de un sistema informático para gestionar el procesamiento, las mujeres no pueden utilizar los implantes cerebrales para comunicarse fuera del experimento. "Aún queda mucho trabajo por hacer para convertir estos conocimientos en algo útil para personas con necesidades no cubiertas", afirma Nick Ramsey, neurocientífico del UMC Utrecht Brain Center de Ámsterdam y autor de un comentario adjunto.
Illes también advierte de que los resultados de cada equipo proceden de un solo individuo y pueden no ser válidos para otras personas, incluso con afecciones neurológicas similares. "Se trata de una prueba de concepto", afirma. "Sabemos que las lesiones cerebrales son muy complejas y heterogéneas. La aplicabildiad, incluso dentro de la población con ictus o ELA, es posible, pero no segura".
Pero abre la posibilidad de una solución tecnológica para las personas que pierden la capacidad de comunicarse. "Lo que hemos hecho es demostrar que es posible y que hay una vía para hacerlo", afirma Chang.
Poder hablar es crucial. La participante en el estudio de Chang solía utilizar un tablero de cartas para comunicarse. "Mi marido estaba harto de tener que levantarse y traducirme el tablero", explica a los investigadores. "No discutíamos, porque él no me daba la oportunidad de replicarle. Como pueden imaginar, esto me frustraba enormemente".