Un novedoso enfoque respecto a la inteligencia artificial está preparado para mejorar muchos productos de Google.
Este verano Google estableció un nuevo hito en el campo de la inteligencia artificial con un programa de software que aprendía a reconocer gatos, personas y otras cosas simplemente viendo vídeos de YouTube. Ahora esa tecnología, modelada sobre la forma de funcionar de las células cerebrales, se está aplicando para hacer que los productos de Google sean más listos, y el reconocimiento de voz es el primer servicio que se beneficiará de ello.
El software de aprendizaje de Google está basado en simular grupos de células cerebrales interconectadas que se comunican entre ellas e influyen unas a otras. Cuando estos grupos, denominados redes neuronales, se exponen a datos, las relaciones entre las distintas neuronas pueden cambiar. Eso hace que la red desarrolle la capacidad de reaccionar de determinada maneras ante un tipo concreto de datos entrantes. Es entonces cuando puede afirmarse que la red ha aprendido algo.
Hace décadas que se usan las redes neuronales en áreas en las que se aplica el aprendizaje automático, como por ejemplo el software para jugar al ajedrez o la detección facial. Los ingenieros de Google han encontrado la forma de reforzar este enfoque con más potencia computacional de lo que era posible hasta ahora, creando redes neuronales capaces de aprender sin ayuda humana y con la resistencia suficiente como para poder usarse de forma comercial, no solo como demostraciones de laboratorio.
Son las propias redes neuronales de la empresa quienes deciden por sí mismas a qué características de los datos quieren prestar atención y qué patrones importan, en vez de que haya un humano que decida, por ejemplo, qué colores y formas concretas son interesantes para un software que intenta identificar objetos.
Ahora Google está usando estas redes para reconocer el habla con mayor precisión, una tecnología cada vez más importante para Android, el sistema operativo para teléfonos inteligentes de Google, así como para la aplicación de búsqueda que pone a disposición de los aparatos de Apple. “Hemos conseguido una mejora de entre el 20 y el 25 por ciento en los errores de palabras”, sostiene Vincent Vanhoucke, que dirige los esfuerzos de Google en el campo del reconocimiento de voz. “Eso significa que mucha más gente tendrá una experiencia perfecta sin errores”. De momento la red neuronal solo funciona con inglés norteamericano y Vanhoucke afirma que se podrán introducir mejoras parecidas para otros dialectos e idiomas.
Probablemente otros productos de Google también mejorarán con el tiempo gracias al nuevo software. Las herramientas de búsqueda de imágenes de la empresa, por ejemplo, podrían comprender mejor lo que contiene una foto sin depender del texto que la rodea. Y los coches sin piloto de Google o su ordenador móvil integrado en unas gafas podrían beneficiarse de un software capaz de buscar el mejor sentido a los datos del mundo real.
La nueva tecnología llegó a las portadas de los periódicos en junio de este año cuando los ingenieros de Google publicaron los resultados de un experimento en el que lanzaron 10 millones de imágenes grabadas de vídeos de YouTube a sus células cerebrales simuladas y pusieron en marcha 16.000 procesadores en mil ordenadores a lo largo de 10 días sin descanso.
Rasgos medios: Este colaje de imágenes representa el estímulo ideal para que el software de Google detecte una cara humana en una foto.
Crédito: Google
“La mayor parte de la gente alberga su modelo en una única máquina, pero nosotros queríamos experimentar con redes neuronales muy grandes”, explica Jeff Dean, uno de los ingenieros involucrados en la investigación en Google. “Si aumentas de escala tanto el modelo como la cantidad de datos con que lo entrenas, se pueden aprender distinciones más sutiles o características más complejas”.
Las redes neuronales que salen de ese proceso son más flexibles. “Típicamente, estos modelos son capaces de admitir mucho más contexto”, afirma Dean, poniendo un ejemplo del mundo del reconocimiento de voz. Si, por ejemplo, el sistema de Google cree que ha oído “Voy a comerme un lichi”, pero la última palabra está ligeramente distorsionada, puede confirmar su intuición basándose en experiencias de frases pronunciadas en el pasado, ya que “lichi” es una fruta y se usa en el mismo contexto que “manzana” o “naranja”.
Dean afirma que su equipo también está probando modelos que entienden las imágenes y los textos en combinación. “Si dices: 'delfín', te ofrece imágenes de delfines. Si le das una foto de un delfín, te da ‘delfín’ como palabra”.
El siguiente paso podría ser que el mismo modelo también aprendiera el sonido de las palabras. Ser capaz de usar distintas formas de datos como esas podría dar lugar a un reconocimiento de voz que recoge, por ejemplo, indicios extra procedentes de vídeo, y podría potenciar las capacidades de los coches sin piloto de Google al ayudarlos a comprender su entorno combinando los numerosos flujos de datos que recogen, desde escáneres hechos con láser de los obstáculos próximos hasta información sobre el motor del coche.
El trabajo de Google en la creación de redes neuronales nos acerca un paso más hacia uno de los objetivos últimos de la inteligencia artificial: crear un software comparable a la inteligencia animal, o puede que incluso humana, según Yoshua Bengio, profesor de la Universidad de Montreal (Canadá) que trabaja en técnicas parecidas de aprendizaje automático. “Este es el camino para crear una inteligencia artificial más general, es imposible conseguir una máquina inteligente si no es capaz de asimilar un gran volumen de conocimiento sobre el mundo”, afirma.
De hecho, el funcionamiento de las redes neuronales de Google es parecido a lo que los neurocientíficos saben sobre el córtex visual en los mamíferos, la parte del cerebro que procesa la información visual, explica Bengio. “Resulta que las redes de aprendizaje de características que está usando Google son parecidas a los métodos que usa el cerebro para ser capaz de descubrir objetos existentes".
Sin embargo, se apresura a dejar claro que las redes neuronales de Google son mucho más pequeñas que el cerebro, y que no pueden llevar a cabo muchos procesos necesarios para que exista la inteligencia, como razonar con información recogida del mundo exterior.
Dean también tiene cuidado en no dar por sentado que las inteligencias limitadas que él construye están cerca de compararse a cualquier cerebro biológico. Pero no puede resistirse a señalar que, si se escoge el concurso adecuado, las redes neuronales de Google ganan a los humanos por goleada.
“Hemos observado un rendimiento mejor que el de los humanos en algunas tareas visuales”, afirma, poniendo como ejemplo el etiquetado de imágenes, donde los números de las casas aparecen en fotos tomadas por el coche de Google Street View, un trabajo que solía destinarse a un grupo grande de humanos.
"Están empezando a usar redes neuronales para decidir si una mancha [en una imagen] es el número de un portal o no”, afirma Dean. Y resulta que rinden mejor que los humanos. Es una pequeña victoria, pero pone de relieve el retraso que llevan las redes neuronales artificiales respecto a las de nuestra cabeza. “Probablemente se debe a que no es una tarea muy emocionante y un ordenador nunca se cansa”, afirma Dean. Para aburrirse, hace falta tener inteligencia real.