Una tecnología de habla y traducción en nube permitiría controlar con la voz cualquier aplicación.
En un esfuerzo por hacer que el habla sea la forma principal con que la gente controle la tecnología, AT&T está haciendo que su sistema de reconocimiento de voz pueda ser usado por terceros. A partir de junio, los ingenieros de software podrán acceder a un servicio en nube ofrecido por la empresa para hacer que cualquier dispositivo capaz de conectarse a Internet pueda responder a la voz de su dueño.
AT&T cree que la tecnología podría ser utilizada en última instancia para una gran variedad de propósitos, desde aplicaciones de teléfonos inteligentes y juegos en línea hasta automóviles y electrodomésticos. Aunque la oferta inicial solo convertirá la voz en texto, y en los comandos correspondientes, la compañía está considerando un conjunto más amplio de ofertas en el futuro, entre ellas traducciones de textos en inglés a otros seis idiomas y viceversa, además de sintetizar textos traducidos.
"Mucha gente inteligente podría crear aplicaciones y servicios que nunca se nos habrían ocurrido", asegura Mazin Gilbert, vicepresidente de investigación de sistemas inteligentes en AT&T Labs, con sede en Florham Park, Nueva Jersey (EE.UU.). Para utilizar la tecnología, los desarrolladores incluyen código en su software para utilizar una API (interfaz de programación de aplicaciones) especificada por AT&T. Este código hace que una aplicación envíe voz a AT&T a través de Internet, para después convertirla en texto y devolver el resultado al dispositivo. Las nuevas API se anunciaron la semana pasada. AT&T afirma que la tecnología tiene un 95 por ciento de precisión captando voz en inglés y transformándola en texto. Asimismo, la empresa señala que su precisión en la conversión del significado del texto en inglés a otros idiomas oscila entre el 70 y el 80 por ciento.
La tecnología de voz que ofrece AT&T ya se utiliza en muchas de sus propias aplicaciones, entre ellas la aplicación de traducción para teléfonos Android e iOS, así como el directorio de búsquedas móviles por voz que proporciona Yellow Pages."Quiero que, en vez de solo varios centenares, haya un millón de aplicaciones que usen nuestra plataforma", afirma Gilbert. "Cualquiera que sea tu idea, queremos darte una API que se ajuste a ella. Francamente, no sé para qué las va a utilizar la gente".
La tecnología de AT&T se basa en décadas de innovación en los laboratorios Bell antes de la división de AT&T y la posterior creación de sus propios laboratorios. Sin embargo, la empresa debe competir con proveedores más establecidos de tecnología de reconocimiento de voz, especialmente en el ámbito de los teléfonos inteligentes.
Por ejemplo, Nuance ofrece capacidades de reconocimiento de voz para muchas compañías, entre ellas, según se ha dicho, Apple y su asistente personal Siri. Google ofrece su tecnología de reconocimiento de voz a través de su sistema operativo Android para teléfonos inteligentes, y en cualquier aplicación escrita para uno de estos dispositivos. Microsoft también posee una tecnología de reconocimiento de voz, integrada en su sistema operativo Windows Phone y en los productos de socios como Ford, con su sistema Sync orientado al entretenimiento en el automóvil.
Krish Prabhu, director general de AT&T Labs, cree que hacer que la tecnología esté ampliamente disponible permitirá que la computación móvil pueda crecer más y a mayor velocidad. "En el contexto de un mundo en el que hemos resuelto en gran medida los problemas de conectividad y alcance, aunque todavía haya cuestiones por resolver, esta apuesta por el reconocimiento de voz proviene de la convicción de que la interfaz para conectarse a la red tiene que ser más simple", señaló Prabhu en una demostración de laboratorio en Nueva York la semana pasada. "Estamos tratando de allanar el camino para que la tecnología no se convierta en un obstáculo".
La API de AT&T para convertir voz en texto, que se lanzará en junio, constará de siete versiones adaptadas a usos específicos, tales como dictar mensajes de texto, buscar negocios locales, responder a preguntas, convertir los mensajes de voz en texto y llevar a cabo labores generales de dictado. En el futuro, se añadirán API específicas para juegos en línea y redes sociales.
Más tarde, podría haber API disponibles para traducir texto entre el inglés y otros seis idiomas: español, francés, italiano, alemán, chino y japonés. Otras lenguas, entre ellas el coreano y el árabe, están en camino, aunque AT&T se posicionará muy por detrás de sus competidores. Por ejemplo, Google ya ofrece herramientas para desarrolladores capaces de traducir entre más de mil parejas de idiomas.
Gilbert señala que el uso de todas las API implicaría una cuota de inscripción de 99 dólares (75 euros) en 2012, y que para después de 2012 los planes no se han hecho públicos aún. Google cobra por sus propias API de traducción.
Mejorar la precisión del software de reconocimiento de voz o de traducción requiere obtener más datos para entrenar a los algoritmos subyacentes. Para dicho proceso, AT&T podría llegar a solicitar la opinión de las personas que utilicen productos con tecnología de traducción y habla incorporada. "El crowdsourcing permitiría realizar esta labor y llegar a niveles mucho más altos de precisión, lo cual a su vez impulsaría una adopción más amplia y una mayor satisfacción de los usuarios", afirma Sam Ramji, informático y vicepresidente de estrategia en Apigee, que construye plataformas para API y está trabajando en el proyecto de AT&T.
Ramji cree que poner una buena tecnología de reconocimiento de voz a disposición del público poco a poco podría hacer que los menús e interfaces tradicionales basados en texto acabaran siendo algo del pasado. "Las interfaces de usuario actuales son como árboles por los que tenemos que navegar para reflejar la estructura del programa. Lo que tendría que suceder es que los dispositivos analizaran la orden que sale de nuestras bocas", concluye el informático.