.

Tecnología y Sociedad

Business Impact: El futuro del reconocimiento de voz

1

Las interfaces controladas por voz se están instalando en los teléfonos móviles, televisores y automóviles. Una empresa cree que es capaz de darle voz a casi todo.

  • por Will Knight | traducido por Francisco Reyes (Opinno)
  • 30 Mayo, 2012

Hasta hace poco, la idea de mantener una conversación con un ordenador parecía pura ciencia ficción. Pedirle a una máquina que 'abriera las compuertas' era algo que solo se veía en las películas.

Pero las cosas están cambiando y rápido. Cada vez más personas hablan con sus teléfonos móviles inteligentes para pedirles que envíen correos electrónicos y mensajes de texto, o que busquen direcciones o encuentren información en la web.

"Estamos en un punto de transición donde la voz y la comprensión del lenguaje natural han cobrado de pronto mucha importancia", señala Vlad Sejnoha, director de tecnología de Nuance Communications, una empresa con sede en Burlington, Massachusetts (Estados Unidos), que domina el mercado del reconocimiento de voz con su software Dragon y otros productos. "Creo que el reconocimiento de voz realmente va a modificar la interfaz de los ordenadores".

El progreso se ha producido en parte gracias a un avance constante en las tecnologías necesarias para ayudar a las máquinas a entender el lenguaje humano, lo que incluye el aprendizaje por parte de las máquinas y las técnicas de minería de datos estadísticos. Hoy día ya es común usar una sofisticada tecnología de voz en los centros de llamadas, para permitir a los usuarios navegar por los menús y ayudar a identificar a clientes iracundos a los que hay que conectar con un representante de servicio al cliente real.

En la actualidad, el rápido ascenso de los dispositivos móviles de gran potencia está haciendo que las interfaces de voz sean aún más útiles y omnipresentes.

Jim Glass, un investigador del MIT (Instituto Tecnológico de Massachusetts, EE.UU.) que ha estado trabajando en interfaces de voz desde la década de los 80, afirma que los teléfonos inteligentes de hoy tienen tanta potencia de procesamiento como las máquinas de laboratorio con las que él trabajaba en los años 90. Los teléfonos inteligentes también tienen un gran ancho de banda para las conexiones de datos con la nube, donde los servidores pueden hacer todo el intenso trabajo que precisa el reconocimiento de voz y la comprensión de las consultas orales. "La combinación de una mayor cantidad de datos y de más potencia de computación nos permite hacer cosas que antes no podíamos", explica Glass. "Se pueden utilizar modelos estadísticos más sofisticados".

El ejemplo más destacado de interfaz de voz móvil es, por supuesto, Siri, el asistente personal activado por voz incorporado en el último iPhone. Sin embargo, la funcionalidad de voz también forma parte de Android, la plataforma Windows Phone y la mayoría de los otros sistemas móviles, así como de muchas aplicaciones. Aunque estas interfaces aún tienen limitaciones considerables, estamos cada vez más cerca de conseguir interfaces hombre-máquina con las que realmente podamos hablar.

Nuance se encuentra en el corazón del auge de la tecnología de voz. La compañía fue fundada en 1992 bajo el nombre de Visioneer y ha adquirido desde entonces decenas de empresas de tecnología de voz. Actualmente cuenta con más de 6.000 empleados en 35 lugares por todo el mundo, y sus ingresos en el segundo trimestre de 2012 fueron de 390,3 millones de dólares (312 millones de euros), un aumento del 22,4 por ciento respecto al mismo periodo de 2011.

En los últimos años, Nuance ha aplicado con destreza su experiencia en el reconocimiento del habla dentro del mercado emergente de las interfaces de voz. La empresa provee tecnología de reconocimiento de voz para muchas otras empresas, y se cree que proporciona el componente de voz de Siri.

Según señala el director de tecnología de Nuance, el habla es ideal para la informática móvil en parte porque los usuarios tienen las manos y los ojos ocupados, aunque también porque un solo comando hablado puede realizar tareas que normalmente requieren una gran cantidad de gestos con los dedos. "De pronto tenemos este nuevo bloque de construcción, esta nueva dimensión que podemos aportar al problema", indica Sejnoha. "Y vamos a diseñar la interfaz de usuario básica para los dispositivos modernos con eso en mente".

Inspirada por el éxito que ha tenido el software de reconocimiento de voz en los teléfonos móviles, Nuance espera aplicar sus interfaces de voz en muchos lugares más, sobre todo en la televisión y en el automóvil, ya que ambos sectores son populares y maduros para la innovación.

En la actualidad, para encontrar un programa de televisión, o para programar una grabación con el DVR (grabadora de video digital), los espectadores tienen que navegar por complicados menús utilizando un control remoto que no ha sido diseñado para introducir consultas de texto. Los productos que se suponía iban a hacer la búsqueda de un programa más fácil, como Google TV, han resultado ser demasiado complejos para aquellas personas que solo quieren relajarse y entretenerse por la noche.

En los laboratorios de investigación de Nuance, Sejnoha ha hecho una demostración de un software llamado Dragon TV en una televisión colocada dentro de una maqueta de una sala de estar. Cuando un colega dijo en voz alta: "Dragon TV, encuentra películas protagonizada por Meryl Streep", la interfaz inmediatamente escaneó las listas de canales para seleccionar varias películas adecuadas. Una versión de esta tecnología ya se encuentra en algunos televisores vendidos por Samsung.

Se rumorea que Apple está desarrollando su propia televisión y se especula que estará controlada por Siri. La idea ha sido impulsada por la biografía de Walter Isaacson sobre Steve Jobs, en la que se señala que el antiguo director general afirmó haber "resuelto definitivamente" la interfaz de la televisión.

Mientras tanto, el sistema de entretenimiento Sync de los automóviles Ford ya utiliza la tecnología de Nuance para que los conductores soliciten direcciones, información meteorológica y canciones. Cerca de cuatro millones de coches Ford poseen el sistema Sync con reconocimiento de voz. La semana pasada, Nuance presentó un software llamado Dragon Drive que permitirá a otros fabricantes de automóviles añadir características de control de voz a los vehículos.

Todos estos nuevos contextos presentan dificultades. Una de las razones por las que las interfaces de voz se han hecho populares en los teléfonos inteligentes es porque los usuarios hablan directamente al micrófono del dispositivo. Para asegurarse de que el sistema funcione bien en televisores y automóviles, donde hay más ruido de fondo, la compañía está experimentando con matrices de micrófonos y tecnología de eliminación de ruido.

Nuance tiene una serie de kits de desarrollo de software (SDK, por sus siglas en inglés) disponibles para cualquier persona que quiera incluir la tecnología de reconocimiento de voz en una aplicación. Montrue Technologies, una compañía con sede en Ashland, Oregon, en EE.UU., ha usado el SDK móvil médico de Nuance para desarrollar una aplicación para iPad que permite a los facultativos dictar notas.

"Es increíblemente precisa", señala Brian Phelps, director general y cofundador de Montrue y médico de urgencias. "El habla ha avanzado mucho, ha llegado a un punto de gran precisión".

A su vez, los kits refuerzan la posición de Nuance, ayudando a la compañía a mejorar su reconocimiento de voz y los algoritmos de procesamiento de lenguaje mediante el envío de cada vez más datos de voz a través de sus servidores. Tal y como afirma Glass desde el MIT, "hay un dicho dentro de la comunidad del reconocimiento de voz: 'Cuantos más datos, mejor'". Nuance afirma que los almacena en un formato anónimo para proteger la privacidad.

Sejnoha cree que dentro de pocos años, las interfaces móviles de voz serán mucho más potentes y omnipresentes. "Debería poder hablar con el dispositivo sin tener que tocarlo", señala. "Constantemente estará a la escucha para captar palabras que generen acciones como mostrar un calendario o preparar un mensaje de texto, o un navegador que nos lleve a donde queremos ir".

Tal vez la gente incluso hable con ordenadores que lleve puestos, como las gafas para sacar fotos que está desarrollando Google. Fuentes en Nuance señalan que están planificando activamente el modo de diseñar la tecnología de voz para que pudiera incorporarse en ordenadores portátiles.

Tecnología y Sociedad

Los avances tecnológicos están cambiando la economía y proporcionando nuevas oportunidades en muchas industrias.

  1. El éxodo a Bluesky marca el inicio de la era de las redes sociales descentralizadas

    Bluesky ha ganado terreno como alternativa a X, especialmente tras las últimas elecciones en EE UU. Sin embargo, este fenómeno no refleja el ascenso de un servicio ni el declive de otro, sino una tendencia hacia la descentralización

    Una persona entra a Bluesky desde su teléfono móvil
  2. La herramienta de Google DeepMind para "leer la mente" de la inteligencia artificial

    Un equipo de Google DeepMind ha creado Gemma Scope, una herramienta diseñada para desentrañar los procesos internos de una IA y comprender cómo llega a sus conclusiones. Este avance abre la puerta a algoritmos más transparentes y alineados con las expectativas humanas

    Google DeepMind tiene una nueva herramienta para explorar la IA
  3. El fundador de Oculus habla sobre la apuesta de EE UU por la realidad mixta en el campo de batalla

    El proyecto norteamericano de gafas militares está cuestionado, pero Palmer Luckey cree que los cascos dotados con IA y realidad aumentada serán clave en los ejércitos del futuro