.

Cadenas de bloques y aplicaciones

Google trabaja en una inteligencia artificial 'tonta' que solo entiende cuatro palabras

1

La empresa quiere que podamos comunicarnos mínimamente con todos nuestros aparatos. Su enfoque consiste en aplicar sistemas de IA muy básicos en chips sencillos de bajo coste que funcionen a pilas, aunque sólo sean capaces de responder a comandos como "encender" y "apagar"

  • por Jamie Condliffe | traducido por Patricia R. Guevara
  • 04 Octubre, 2017

Pete Warden quiere que tire a la basura su hardware de reconocimiento de voz. Y que luego compre más, y más, y más. Este ingeniero de Google intenta que el reconocimiento de voz sea un producto tirado de precio.

Su idea es bastante simple: acabar con las redes neuronales que normalmente se utilizan para procesar el sonido y esperar hasta que sean lo suficientemente eficientes como para funcionar con chips económicos y ligeros. Durante el reciente ARM Research Summit celebrado en Cambridge (Reino Unido), Warden afirmó: "Lo que quiero es un chip de 50 céntimos que haga reconocimiento de voz simple y que funcione durante un año con una pila de botón. Aún no estamos ahí, pero realmente creo que incluso se podría hacer con la tecnología actual que tenemos".

A un precio tan bajo, el hardware podría ser de usar y tirar, lo que permitiría aplicarlo en situaciones que ahora mismo ni se plantean. Por ejemplo, los dispositivos se podrían incorporar en muñecos de bajo coste que contesten a los hijos o para electrónica casera sencilla, como las lámparas activadas por voz. Pero Warden también señala que podrían encontrar un uso en entornos industriales para escuchar ruidos en vez de voces (cientos de sensores detectan señales de audio de chirridos de ruedas en equipos de fábricas o sonidos de grillos en campos agrícolas).

Warden, que lidera el equipo de Google centrado en aplicaciones móviles para la herramienta de inteligencia artificial (IA) en la nube de la compañía, llamada TensorFlow, sabe que se ha propuesto un desafío. Por ejemplo, exprimir la inteligencia artificial del asistente de IA de Amazon, Alexa, para que funcione con chips sencillos a pila no es viable. Eso se debe, en parte, a que Alexa tiene que interpretar muchos sonidos diferentes, pero también porque la mayoría de los sistemas de reconocimiento de voz de IA utilizan redes neuronales que necesitan muchos recursos computacionales, por lo que Alexa hace su procesamiento en la nube.

Así que el investigador ha decidido limitar su esfuerzo a identificar, únicamente, un puñado de comandos estratégicos, como "encender", "apagar", "inicio", "detener", etcétera. También está trabajando en algoritmos genéricos de reconocimiento de voz. Para ello, toma un clip de audio, lo divide en fragmentos pequeños, y luego calcula la frecuencia de cada contenido. Entonces alinea cada uno de los diagramas de frecuencias para crear una imagen 2-D de la frecuencia del contenido a lo largo del tiempo, y aplica algoritmos de reconocimiento visual para identificar la firma distintiva en la que alguien pronuncia una sola palabra.

Los primeros intentos del equipo requirieron ocho millones de cálculos para analizar un clip de audio de un segundo con un 89% de precisión. Eso podría ejecutarse en un teléfono inteligente moderno y sería lo suficientemente rápido como para ser interactivo (lo que es mejor que tener que enviar el procesamiento a la nube) pero no funcionaría bien en un chip de bajo consumo. Después de que el equipo tomara prestados los trucos algorítmicos que ayudan a los teléfonos Android a reconocer la frase "OK, Google", el sistema fue capaz de analizar un segundo de discurso con un 85% de precisión en sólo 750.000 cálculos.

El equipo ha publicado su código en el sitio web de TensorFlow para que otras personas lo puedan utilizar. En la actualidad el software se puede ejecutar en chips como los utilizados en los smartphones y los Raspberry Pis, el ordenador ultra barato de una tarjeta. El objetivo es que funcionen en chips más pequeños, como los que se encuentran en las placas de Arduino.

El exinvestigador de IA en la Universidad de Cambridge y actual jefe técnico de Speechmatics, Tony Robinson, afirma que la ambición de Warden es buena, y su enfoque de bajo coste ayudará a que el reconocimiento de voz se vuelva omnipresente los próximos años. Sin embargo, ve un problema con la construcción de tales inteligencias artificiales limitadas. "La gente no se ajusta al guión", dice, explicando que es poco probable que los usuarios sean lo suficientemente pacientes como para hacer uso de un conjunto de instrucciones tan restringido.

En su lugar, sugiere que los chips con una potencia ligeramente más alta pueden reunir más capacidades lingüísticas similares a las que se encuentran en Google Assistant y en Alexa de Amazon, y pueden adaptarse mejor a las aplicaciones destinadas al consumidor.

Cadenas de bloques y aplicaciones

Qué significa estar constantemente contectados unos a otros y disponer de inmensas cantidades de información al instante.

  1. Ciberguerra, 'ransomware' y robo de criptodivisas: la claves en ciberseguridad para 2023

    "Cuando se trata de eliminar el 'ransomware' desde la fuente, creo que dimos un paso atrás", asegura un experto

  2. Descentralización contra regulación: el debate de las criptomonedas en 2023

    Este año habrá una lucha por el alma de las finanzas descentralizadas

  3. Ethereum abandona la criptominería y adopta la prueba de participación

    Nadie sabe exactamente qué le depara a la industria de las criptomonedas tras esta esperada actualización