.

Otros

Hablando con el teléfono

1

Una startup se une a la carrera por construir el asistente personal virtual.

  • por Erica Naone | traducido por Francisco Reyes (Opinno)
  • 16 Julio, 2010

Los teléfonos inteligentes prometen ofrecer una gran cantidad de potencia de proceso y conectividad, permitiéndonos hacer búsquedas en internet y comunicarnos desde cualquier lugar. Sin embargo puede resultar difícil hacer pleno uso de todas estas capacidades en pequeñas pantallas con botones diminutos. En la actualidad, asistimos a una nueva ola de aplicaciones que combinan el reconocimiento de voz y la inteligencia artificial para ayudar a los usuarios a llevar a cabo tareas simples con sus dispositivos móviles.

El último servicio de este tipo, creado por Vlingo, una compañía dedicada a la creación de aplicaciones de reconocimiento de voz, trata de ir más allá de las aplicaciones anteriores, combinando órdenes de voz del usuario con los datos personales y la información almacenada en internet. Conocido como "SuperDialer", el servicio puede, por ejemplo, permitir que un usuario "Llame a una pizzería" y, posteriormente, se le presente una lista de pizzerías cercanas extraída a partir de la libreta de direcciones del usuario y de internet.

SuperDialer es el primer servicio dentro de una serie de lanzamientos previstos por Vlingo. Todos están destinados a añadir una columna vertebral de inteligencia artificial más fuerte al software de reconocimiento de voz de la compañía.

En agosto, Vlingo espera lanzar una aplicación de red social capaz de conectarse con una variedad de cuentas de usuarios, incluyendo las relativas a sitios tales como los servicios Foursquare y Loopt, basados en la localización. Los usuarios podrían, por ejemplo, preguntar en voz alta dónde están sus amigos y obtener respuestas.

Un servicio distinto y en el que se está trabajando actualmente, Vlingo Answers, respondería a preguntas específicas hechas por el usuario, como por ejemplo "¿Qué edad tiene Kiefer Sutherland?" Vlingo trataría de obtener las respuestas a través de resultados de búsqueda en internet estándar, así como del análisis de sitios de información especializada tales como Wolfram Alpha y True Knowledge.

En la superficie, las aplicaciones de este tipo pueden parecer simples, aunque el director general, Dave Grannan, afirma que requieren unos niveles de tecnología sofisticados. En primer lugar, la aplicación tiene que reconocer lo que el usuario está diciendo. Después, hay que distinguir lo que el usuario quiere decir—por ejemplo, decidir cómo interpretar palabras que podrían tener varios significados, como "vets" ('veteranos' o 'veterinarios', en inglés). Por último, tiene que obtener la información que necesita el usuario y proporcionar una interfaz fácil sobre la que actuar.

Grannan afirma que el objetivo de Vlingo es ayudar a que los usuarios transformen las palabras en acciones, para que la gente no tenga que pensar en qué botón presionar o cómo decir exactamente lo que necesitan que haga el dispositivo.

Esta idea es similar al asistente virtual para el iPhone que ofrece Siri, una compañía adquirida recientemente por Apple por una cantidad no revelada. El director general de Siri, Dag Kittlaus, a menudo se refería a la tecnología de su compañía como un "motor para hacer cosas", y ponía mucha atención a la hora de diferenciar su capacidad para realizar tareas a través de las familiares funciones de búsqueda de internet.

Grannan reconoce que la profunda tecnología de inteligencia artificial de Siri, surgida a partir de una investigación en SRI International, en Menlo Park, California, supera a la inteligencia artificial que Vlingo utiliza en la actualidad. Sin embargo, aún cree que existen grandes oportunidades para que Vlingo deje su propia huella. En lugar del enfoque del tipo "una pulgada de ancho, una milla de profundidad" que cree que caracteriza a Siri, Grannan espera que Vlingo pueda ofrecer un tipo de inteligencia artificial que sea de "una milla de ancho y una pulgada de profundidad". En otras palabras, afirma, la tecnología de Siri es experta en un conjunto muy limitado de temas, tales como ayudar a la gente a hacer reservas en restaurantes, aunque él desea que Vlingo maneje una gama más amplia de áreas.

La versión básica de Vlingo es libre; la compañía, con sede en Cambridge, Massachusetts, obtiene ingresos mediante la venta de publicidad dirigida, así como por cobrar a los usuarios por la capacidad de realizar funciones más sofisticadas, como el reconocimiento de voz para enviar mensajes de texto. Su aplicación está disponible para los teléfonos Android, iPhone, BlackBerry, Nokia, y Windows Mobile.

La idea del agente personal inteligente que representan aplicaciones como Vlingo y Siri ha sido un importante objetivo de investigación durante décadas.

El reconocimiento de voz y el procesamiento del lenguaje natural han dado pasos agigantados en la última década, permitiendo a los ordenadores entender mejor lo que dice la gente. Sin embargo, uno de los principales problemas para llevar la tecnología a los teléfonos inteligentes ha residido en el hecho de que los usuarios necesitan ver que el dispositivo reacciona a la voz en pocos segundos para sentir que la aplicación funciona, afirma Mazin Gilbert, director ejecutivo de investigación técnica en AT&T Labs, así como experto en estas tecnologías. Los teléfonos inteligentes no poseen la potencia de procesamiento necesaria para un reconocimiento y análisis de voz sofisticados; cualquier dispositivo con este tipo de aplicación sólo se dedica a absorber el sonido y enviarlo por la red. Hasta hace muy poco, afirma Gilbert, las bajas velocidades de red provocaban unos embotellamientos que hacían que aplicaciones como SuperDialer fueran poco prácticas.

Las aplicaciones de reconocimiento de voz y gestión de tareas actuales también se benefician del acceso a una abundancia de datos por internet, así como de interfaces de programación de aplicaciones que permiten a los servicios conectarse entre sí. Gilbert cree, sin embargo, que el software podría ser mucho más sofisticado a la hora de interpretar las intenciones de los usuarios. Está entusiasmado por la oleada de aplicaciones para teléfonos inteligentes, ya que prometen ofrecer mucha más información sobre cómo los usuarios desean interactuar con los asistentes personales. Eso podría alimentar nuevos avances dentro del campo del aprendizaje de máquinas y el procesamiento del lenguaje natural, haciendo que las aplicaciones futuras fueran aún más inteligentes y fáciles de usar.

Otros

  1. La difícil tarea de señalar quién debe pagar por el cambio climático

    Los mayores contaminadores del mundo, en cifras.

  2. Esto es lo que está sobre la mesa en la conferencia del clima (COP29) de este año

    Las conversaciones se centran en la financiación climática, pero los resultados de las elecciones de EE UU son de gran importancia

  3. Qué va a suceder con los derechos reproductivos en EE UU tras la reelección de Trump

    Siete estados se disponen a implementar leyes que respalden el acceso al aborto, pero el futuro de los derechos reproductivos en EE UU no está claro