Cadenas de bloques y aplicaciones
Disparar un láser a la cara ayudaría a Siri a entender mejor lo que se le dice
La 'start-up' VocalZoom está desarrollando un sensor que mide las vibraciones de la cara del usuario y compararlas con el registro de audio para mejorar la precisión del control de voz
Ya sea Siri, Alexa o Cortana, lo cierto es que hablamos con los asistentes virtuales más que nunca. Aunque todos ellos todavía luchan por entender las instrucciones más sencillas, como reproducir música o buscar una ruta en mapa, especialmente cuando existe mucho ruido de fondo.
En lugar de centrarse en limpiar la señal de audio que capta su voz, la start-up israelí VocalZoom cree que podrá mejorar todo tipo de aplicaciones de reconocimiento de voz con el uso de un diminuto láser de bajo consumo que mide las pequeñísimas vibraciones de la piel del usuario al hablar.
La empresa, que ya ha recaudado unos 12,5 millones de dólares (unos 11 millones de euros) en financiación de capital riesgo, está desarrollando un sensor que incorpora un pequeño láser que inicialmente será integrado en cascos, donde será empleado junto a existentes tecnologías de reconocimiento de voz que dependen de micrófonos para reducir los malentendidos.
El fundador y CEO de VocalZoom, Tal Bakish, cree que de primeras será utilizado en cascos de moto o los que portan los trabajadores de almacén. Se podría pedir información acerca de la ruta a seguir a lomos de una Harley Davidson, por ejemplo. Una empresa china de reconocimiento de voz llamada iFlytek tiene planes de hacer disponible un prototipo de casco hacia finales de agosto. Bakish también cree que VocalZoom será incorporado a los coches para 2018 para procesar los comandos por voz de los conductores. La empresa ha firmado acuerdos de desarrollo colaborativo con varias empresas automovilísticas, aunque rehúsa nombrarlas, y le interesa integrar la tecnología en los smartphones, también.
En una bullicisiosa cafetería en Boston (EEUU), Bakish me enseñó una versión no operativa del primer producto de VocalZoom, programado para lanzarse este verano: un diminuto sensor con un láser que dirige su haz a la cara del usuario (afirma que cumple con los estándares de seguridad ocular de la Agencia de Alimentos y Medicamentos de Estados Unidos). Al utilizar uno de estos sensores integrado en un casco para preguntar cómo llegar a un restaurante, por ejemplo, mediría la velocidad de las vibraciones de la piel de su cara, mientras el micrófono captaría la señal de audio mediante el micrófono; el software compararía después las dos señales para identificar la mejor aproximación de lo que intenta decir.
Bakish explica que los sensores de VocalZoom pueden medir las vibraciones de la piel desde los ojos hasta el cuello, y que también es posible hacerlo desde atrás, al analizar las vibraciones que se producen detrás de las orejas. El alcance del láser es de un metro, aunque para un casco basta con cinco centímetros.
Bakish asegura que cuando ha sido empleado junto a tecnologías estándares de análisis de audio y reconocimiento de voz, VocalZoom ha logrado reducir la tasa de errores del reconocimiento de voz entre un 60% y un 80%.
El alumno de postgrado del Laboratorio de Informática e Inteligencia Artificial del Instituto Tecnológico de Massachusetts (MIT, EEUU) Abe Davis, cuyo trabajo se ha centrado en identificar el audio de los vídeos al analizar las diminutas vibraciones en varios objetos, cree que resultaría difícil lograr que VocalZoom funcione en un coche, donde sospecha que podría verse dificultado por cosas como los movimientos de la cabeza. En un casco, sin embargo, sí reconoce su utilidad.
"Sólo es cuestión de si se puede asegurar que el láser esté correctamente dirigido", concluye.