Extraerá información de internet para mantener una conversación natural con el usuario, una tendencia al alza en el mercado
El gigante de internet chino, Baidu, lanzó un servicio de asistente personal conversacional llamado Duer en un evento corporativo celebrado en Pekín (China) el pasado martes. Esta es sólo la señal más reciente de que quizás pronto podamos olvidar los teclados y ratones para charlar en su lugar con nuestros ordenadores.
Este servicio de asistente está diseñado para proporcionar un acceso rápido y cómodo a los varios servicios de internet de Baidu y para entablar conversación con los usuarios en lugar de limitarse a ser controlado por voz. Duer incorpora un conjunto de las últimas versiones de las apps de smartphone de Baidu.
El éxito de Duer dependerá de su habilidad a la hora de emplear un lenguaje natural. Esto resulta notoriamente difícil, aunque los investigadores han logrado avances significativos en años recientes tanto en el reconocimiento de voz como, en menor grado, en el procesamiento del lenguaje natural gracias a una potente técnica de aprendizaje de máquinas conocida como aprendizaje profundo. Empresas como Facebook consideran el lenguaje natural como un reto clave de la minería de información y la comunicación con los usuarios (ver El hombre que enseña a las máquinas a entender el lenguaje).
Según Baidu, Duer extraerá el significado de información procedente de internet. Baidu recopilará información acerca de un restaurante, por ejemplo, y Duer inferirá si acepta mascotas o dispone de terraza. Por el contrario, la mayoría de las apps de voz simplemente hacen uso de los motores de búsqueda convencionales, que no intentan extraer el significado de la información online.
Andrew Ng, el director científico de Investigaciones Baidu en Silicon Valley (EEUU) y un experto en el campo del aprendizaje profundo, ha dicho que pronto los avances recientes posibilitarán formas más capacitadas e inteligentes del control de voz, y que esto a su vez iniciará una nueva era de la interacción con ordenadores.
Otras empresas también están haciendo incursiones agresivas en la computación mediada por voz. Con la previsión de que aumente la demanda de la interacción por voz, muchas empresas tecnológicas esperan proporcionar competentes servicios de voz para aumentar su ventaja competitiva, o al menos para no perder terreno frente a sus rivales.
Las empresas estadounidenses Apple, Google y Microsoft incluyen asistentes de voz en sus sistemas operativos móviles. Y en noviembre del año pasado, el gigante estadounidense del ecomercio Amazon lanzó un dispositivo doméstico llamado Echo que incluye un avatar de voz llamado Alexa. Cuando se lance, Echo podría emplearse para buscar información en internet, reproducir podcasts o música de la biblioteca de Amazon del usuario y añadir artículos a una lista de compra.
Amazon lanzó una interfaz para la programación de aplicaciones para Echo este año, que permite que los desarrolladores conecten el dispositivo con apps y servicios externos y lo doten de nuevas habilidades. También anunció 100 millones de dólares (unos 88 millones de euros) en financiación para start-ups que trabajen en servicios de voz para conectarlos con Echo.
Matt Lease, un profesor adjunto de la Universidad de Tejas en Austin (EEUU) especializado en los ordenadores de análisis sintáctico, dice que las interfaces de voz están avanzando gracias a progresos fundamentales en áreas como el aprendizaje profundo en combinación con la ubicuidad de los dispositivos móviles, que han familiarizado a los usuarios con el control de voz. "No creo que se haya logrado un avance enorme y fundamental", dice Lease. "Pero me encuentro más cómodo hablando con mi móvil y estoy más cómodo hablando con esta cosa en mi salón".