Cadenas de bloques y aplicaciones

Interfaces para hablar con las máquinas

La comunicación verbal es rápida y eficiente, por eso la empresa china Baidu está haciendo enormes progresos que evitarían las complicaciones de teclear, por ejemplo, en mandarín

por Will Knight | traducido por Teresa Woods
24 Febrero, 2016

Avance

Combinar el reconocimiento de voz y del lenguaje natural para crear eficaces interfaces de voz para el mercado de internet más grande del mundo.

Por qué es importante

Interactuar con un ordenador mediante un teclado puede requerir mucho tiempo y resultar frustrante.

Actores clave

- Baidu

- Google

- Apple

- Nuance

- Facebook

Disponibilidad

Ya.

Al dar un paseo por Sanlitun, un bullicioso barrio de Pekín lleno de turistas, bares de karaoke y tiendas de lujo, se observa a mucha gente que utiliza los últimos smartphones de Apple, Samsung o Xiaomi. Pero si nos fijamos un poco más puede que nos demos cuenta de que algunos ignoran las pantallas táctiles de esos dispositivos. En lugar de eso usan algo mucho más eficiente e intuitivo: su propia voz.

Un creciente número de los 691 millones de usuarios de smartphone de China están empezando a dejar de lado los clics, los deslizamientos y las caricias en la pantalla. Sobre todo cuando hacen consultas en su popular buscador: Baidu. China es un lugar ideal para el despegue de las interfaces de voz, porque los caracteres chinos para nada se diseñaron con las diminutas pantallas de smartphone en mente. Pero los usuarios de todo el mundo deberían beneficiarse del impulso que Baidu está dando a tecnología de voz y su desarrollo de interfaces más prácticas y útiles. Eso podría facilitar que cualquiera se comunique con las máquinas que nos rodean.

El director científico de Baidu y un profesor adjunto de la Universidad de Stanford (EEUU), Andrew Ng, explica: "Creo que la voz está a punto de ser tan fiable que podamos simplemente utilizarla sin pensar en ello". Ng detalla: "La mejor tecnología a menudo es invisible, y mientras se vuelva más fiable, espero que también se vaya camuflando con el entorno". Las interfaces de voz han sido un sueño de los tecnólogos (por no hablar de los autores de ciencia ficción) durante muchas décadas. Pero en años recientes, gracias a algunos logros impresionantes del aprendizaje de máquinas, el control de voz se ha vuelto mucho más práctico.

Los sistemas ofrecen un atisbo de un futuro en el que exista una menor necesidad de aprender a utilizar una interfaz distinta para cada dispositivo.

Ahora que el control por voz no se limita a un pequeño conjunto de comandos predeterminados, funciona incluso en un entorno ruidoso como las calles de Pekín o cuando se habla desde el otro lado de una habitación. Ahora la mayoría de los smartphones incorporan asistentes personales activados por voz como Siri de Apple, Cortana de Microsoft y Google Now. Y los dispositivos más nuevos, como Alexa de Amazon, ofrecen una sencilla manera de buscar información, reproducir canciones y hacer listas de la compra con la voz. Estos sistemas distan mucho de ser perfectos (a veces su incapacidad de interpretar los comandos resulta cómica) pero están mejorando a un ritmo constante, y permiten divisar un futuro elegante en el que la necesidad de aprender a manejar cada nueva interfaz de un dispositivo se va reduciendo.

Baidu está logrando unos progresos especialmente impresionantes, sobre todo en la precisión de su reconocimiento de voz. La compañía tiene la escala adecuada para poder avanzar aún más. Fundada en 2000 como la respuesta china a Google, que actualmente está capado en China, domina el mercado nacional de búsquedas, con el 70% de todas las consultas realizadas. Y ha evolucionado hasta convertirse en proveedor de muchos servicios, desde streaming musical y de vídeo hasta banca y seguros.

Una interfaz móvil más eficiente sería de gran ayuda en China. Los smartphones son mucho más abundantes que los ordenadores de sobremesa y portátiles, y aun así navegar la web, enviar mensajes y realizar otras tareas puede resultar dolorosamente lento y frustrante. Existen miles de caracteres chinos, y aunque un sistema llamado Pinyin permite que sean generados fonéticamente a partir de caracteres latinos, muchos usuarios, sobre todo los que superen los 50 años de edad, desconocen este sistema. En China también es muy frecuente el uso de apps de mensajería como WeChat para realizar todo tipo de tareas, como pagar la cuenta en un restaurante. Pero en muchas de las regiones más pobres, donde quizás existan mayores oportunidades para que internet tenga uno enorme impacto económico y social, los niveles de alfabetismo aún son bajos.

"Es un reto y una oportunidad", afirma Ng, que fue nombrado uno de los Innovadores Menores de 35 de MIT Technology Review en 2008 por su trabajo en la inteligencia artificial y la robótica en la Universidad de Stanford. "En lugar de tener que entrenar a la gente acostumbrada a trabajar con un ordenador de sobremesa a las nuevas funciones de los móviles, muchos pueden aprender los mejores métodos desde cero". Ng cree que el reconocimiento de voz pronto podrá ser lo suficientemente fiable para interactuar con todo tipo de dispositivos. Los robots y los electrodomésticos inteligentes podrían ser más fáciles de manipular si pudiéramos simplemente hablar con ellos. La empresa dispone de equipos de investigación en su sede central de Pekín y en las instalaciones de Silicon Valley (EEUU) dedicados a potenciar la precisión del reconocimiento de voz que trabajan para mejorar la capacidad de los ordenadores para analizar el significado de las frases.

Foto: En la sede central de Baidu en Pekín están trabajando en un asistente virtual que pueda mantener una conversación.

El experimentado investigador científico del Instituto Tecnológico de Massachusetts (MIT, EEUU) Jim Glass, que lleva varias décadas trabajando en las tecnologías de voz, está de acuerdo en que este puede ser por fin el momento del control por voz. "La comunicación verbal ha llegado a un punto de inflexión en nuestra sociedad", explica y añade: "En mi experiencia, cuando la gente tiene la oportunidad de hablar con un dispositivo en lugar de comunicarse mediante un control remoto, lo prefiere".

El pasado mes de noviembre, Baidu alcanzó un hito importante con su tecnología de voz, al anunciar que su laboratorio de Silicon Valley había desarrollado un potente motor de reconocimiento de voz nuevo llamado Deep Speech 2. Consiste en una red neuronal muy grande o "profunda" que aprende a asociar los sonidos con palabras y frases gracias a millones de ejemplos de transcripciones. Deep Speech 2 puede reconocer las palabras habladas con una precisión asombrosa. De hecho, los investigadores encontraron que a veces puede transcribir fragmentos de mandarín con mayor precisión que una persona. Esto es incluso más impresionante porque el mandarín es fonéticamente complejo y emplea tonos de voz que transforman el significado de la palabra. Deep Speech 2 también es llamativo porque pocos de los investigadores del laboratorio de California (EEUU) donde se desarrolló la tecnología hablan mandarín, cantonés ni ninguna otra variedad del chino. El motor funciona en esencia como un sistema de lenguaje universal, aprendiendo inglés también cuando es alimentado con suficientes ejemplos.

Pocas de las personas involucradas en Deep Speech 2 hablan mandarín ni cantonés. Es un motor de lenguaje universal.

La mayoría de los comandos de voz que escucha actualmente el motor de búsquedas de Baidu son consultas sencillas (previsiones del tiempo o los niveles de contaminación, por ejemplo). Para estas consultas, el sistema normalmente es increíblemente preciso. Pero, los usuarios están empezando a plantear preguntas cada vez más complejas. Para abordarlas, el año pasado la empresa lanzó su propio asistente personal controlado por voz, llamado DuEr, como parte de su principal app móvil. DuEr puede ayudar a los usuarios a encontrar las carteleras de los cines y reservar mesa en un restaurante.

El mayor reto para Baidu será enseñar a sus sistemas de inteligencia artificial a entender y responder de forma inteligente a unas frases habladas más complejas. Finalmente, a Baidu le gustaría que DuEr participara en conversaciones bidireccionales, incorporando distintas informaciones al diálogo. Para ello, un grupo de investigación de la sede de Pekín de Baidu está dedicado a mejorar el sistema que interpreta las preguntas de los usuarios. Esto incluye el uso del tipo de tecnología de redes neuronales que Baidu ha aplicado al reconocimiento de voz, pero también requiere otros trucos. Y Baidu ha contratado un equipo para analizar las consultas que alimentaron DuEr y corregir los errores, entrenando gradualmente así al sistema para que rinda mejor. Ng detalla: "En el futuro, me encantaría que todos pudiésemos hablar con todos nuestros dispositivos y que nos entiendan", y concluye: "Espero que algún día mis nietos se sientan perplejos acerca de cómo, allá por el año 2016, si le decías 'Hola' a tu microondas, se quedaba ahí plantado, ignorándote de forma descortés sin contestarte".

Esta es la lista completa de Las 10 Tecnologías Emergentes de 2016

Cadenas de bloques y aplicaciones

Interfaces para hablar con las máquinas

Ciberguerra, 'ransomware' y robo de criptodivisas: la claves en ciberseguridad para 2023

Descentralización contra regulación: el debate de las criptomonedas en 2023

Ethereum abandona la criptominería y adopta la prueba de participación