Otros

¿Puede Google conseguir control de Internet por voz?

Las búsquedas generadas mediante voz son una idea futurista y puede requerir cierto tiempo acostumbrarse a ello.

por Tom Simonite | traducido por Francisco Reyes (Opinno)
29 Junio, 2011

La idea de pedir información a un ordenador en voz alta resulta familiar a través de la ciencia ficción pero está cerca de ser real. Google está tratando de posibilitar el reconocimiento de voz en su motor de búsqueda y el lanzamiento de una tecnología que permitiría a cualquier navegador, sitio web o aplicación utilizar la función.

Sin embargo, ¿estamos dispuestos a renunciar a nuestros teclados y usar la voz con Google?

Durante las últimas dos semanas, la entrada de datos mediante voz en Google se ha ido extendiendo a cada persona que utiliza su navegador Chrome. Un icono de un micrófono aparece en el extremo derecho del icónico cuadro de búsqueda. Si se dispone de un micrófono integrado o conectado al ordenador, al hacer clic en el icono se crea una conexión directa de audio con los servidores de Google, que convertirán sus palabras habladas en texto.

Durante casi tres años ha sido posible usar la voz para consultas de búsqueda en Google usando un teléfono inteligente; desde el año pasado, los Android han sido capaces de tomar la entrada de voz en cualquier situación donde se utilizaría normalmente un teclado. "Ha sido toda una transformación, dado que la gente ha dejado de preocuparse sobre cuándo se podía y no podía hablar con el teléfono", afirma Vincent Vanhoucke, que lidera el equipo de ingeniería de búsqueda por voz de Google. En los últimos 12 meses, el número de entradas de habla, para búsquedas o de otro tipo, a través de dispositivos Android, ha subido seis veces. ,Cada día decenas de miles de horas de grabación de audio se introducen en los servidores de Google. "En Android, una gran parte del uso se debe a personas que dictan e-mails y SMS", afirma Vanhoucke.

El equipo de Vanhoucke quiere que usar la voz en la web sea tan fácil como lo es en Android. "Es una gran apuesta", asegura. "La búsqueda de voz para equipos de sobremesa es el buque insignia, aunque queremos llevar la voz a todas partes".

El reconocimiento de voz es técnicamente más difícil en un ordenador de sobremesa o portátil, afirma Vanhoucke, ya que requiere algoritmos de supresión de ruido que no son necesarios para el reconocimiento de voz móvil. Estos algoritmos filtran sonidos como el del ventilador del ordenador o el aire acondicionado. "La calidad del audio es de suma importancia para los fabricantes de teléfonos, y nos los colocamos cerca de la boca", explica Vanhoucke. "En un PC, el micrófono es algo secundario, y estamos situados más lejos. No se consigue la mejor calidad".

Google ha pedido a miles de personas que lean frases en voz alta en sus ordenadores para recoger datos sobre las condiciones que su tecnología de reconocimiento de voz tendría que manejar. A medida que las personas utilizan el servicio de forma real, éste se entrena cada vez más, afirma Vanhoucke, y esto debería aumentar su popularidad. Los datos de los usuarios de servicios de búsqueda móviles con voz muestran que las personas son mucho más propensas a usar la característica de nuevo cuando funciona con precisión la primera vez.

Un desafío mayor para conseguir que los usuarios adopten el reconocimiento de voz en el escritorio podrían ser las herramientas existentes para la introducción de información, afirma Keith Vertanen, profesor de la Universidad de Princeton dedicado a investigar la tecnología de reconocimiento de voz. "En el escritorio, te enfrentas a un medio muy rápido y eficiente de entrada de datos con el teclado", afirma. "En un teléfono, eso no está disponible, y a menudo estamos en situaciones de manos u ojos libres en las que la entrada de voz es de gran ayuda".

Vertanen señala que las personas son menos tolerantes a fallos en el reconocimiento de voz en un ordenador de escritorio, debido a la familiaridad de un método de introducción de datos como el textual, que ya ha probado su eficacia. Afirma que los usuarios podrían encontrar el reconocimiento de voz más convincente en otros dispositivos conectados a Internet en el hogar. "Dispositivos no convencionales como un DVR, la televisión o la consola de juegos no suelen tener buenas entrada de datos textuales", señala. Los dispositivos de Google TV ya son capaces de tomar entradas habladas a través de una conexión de teléfono Android.

Vanhoucke admite que el reconocimiento de voz responde a una necesidad más inmediata en los teléfonos, pero argumenta que los usuarios están listos para hacer lo mismo en los ordenadores convencionales. "La gente lo va a usar de formas que nos sorprenderán", advierte. "En este momento, es todavía un experimento". Aquellas situaciones en las que la se tengan las manos ocupadas son un ejemplo, afirma Vanhoucke (aunque debe tenerse en cuenta que la búsqueda mediante voz en equipos de escritorio todavía consiste en utilizar el ratón para activar la función).

Google no se está realizando este experimento en solitario. La empresa está presionando al cuerpo de estándares web W3C para introducir un conjunto estándar de código HTML que permita a cualquier sitio web o aplicación usar el reconocimiento de voz a través del navegador web, y ya ha habilitado una versión de este código en el navegador Chrome. Por el momento, Google es la única compañía importante con un navegador capaz de utilizar la función prototipo, aunque Mozilla, Microsoft y AT&T están trabajando con la iniciativa del W3C.

"Es un esfuerzo de colaboración del que forman parte otros fabricantes de navegadores", afirma Vanhoucke. "Cualquier diseñador puede agregarlo a su página web. Es algo que cualquiera puede utilizar". Ya existen extensiones para el navegador Chrome que hacen uso de la entrada de voz (como ésta), y se pueden emplear para introducir texto en cualquier página web.

Sin embargo, estas extensiones revelan que aunque el reconocimiento de voz de escritorio de Google es preciso para las consultas de búsqueda, no es muy bueno para tareas como escribir correos electrónicos.

Permitir que el sistema aprenda las peculiaridades personales de pronunciación de cada persona, una característica que ya está habilitada en los teléfonos Android, podría resolver ese problema. Vertanen señala que la personalización aprendida a través de las búsquedas móviles podría fácilmente trasportarse al escritorio para aquellas personas que estén conectadas a su cuenta de Google. También podría permitir que la tecnología surgiese en otros lugares. "La ventaja del enfoque de red de Google es que un modelo [de voz] en la nube puede adaptarse a nuestra voz en lugares diferentes y seguirnos allá donde vayamos, ya sea a la sala de estar o al coche".

Otros

¿Puede Google conseguir control de Internet por voz?

Mark Zuckerberg y el poder de los medios de comunicación

Neuralink ante las promesas de Musk: más voluntarios y algunos avances

Robotaxis