Squakenet

Inteligencia Artificial

La nueva IA de Uber domina dos videojuegos que parecían imposibles

Hasta ahora, 'Montezuma's Revenge' y 'Pitfall!' se habían escapado al control de los algoritmos, ya que ninguno ofrece recompensas identificables por el aprendizaje reforzado. Así que Uber ha diseñado un nuevo enfoque que podría ser muy útil en el mundo real

por Will Knight | traducido por Ana Milutinovic
13 Febrero, 2019

Un nuevo tipo de algoritmo de aprendizaje automático acaba de dominar un par de videojuegos que, hasta ahora, se habían convertido en una auténtica pesadilla para la inteligencia artificial (IA). Los que están al tanto sabrán la IA ya ha superado a los mejores jugadores humanos del mundo en el antiguo y elegante juego de estrategia Go, uno de los más difíciles que se pueda imaginar. Pero Montezuma's Revenge y Pitfall!, dos videojuegos clásicos pixelados para ordenadores de ocho bits, tenían bloqueados a los investigadores de la IA.

Esta aparente contradicción está justificada. Aunque en apariencia son bastante simples, hasta ahora, tanto Montezuma's Revenge como Pitfall! habían sido inmunes al dominio del aprendizaje reforzad o, una técnica de las técnicas más populares para enseñar a las máquinas a conquistar los videojuegos. DeepMind, una filial de Alphabet centrada en inteligencia artificial, la utilizó para desarrollar algoritmos capaces de aprender a jugar varios videojuegos clásicos a nivel experto. Los algoritmos de aprendizaje reforzado funcionan bien con la mayoría de los juegos, ya que van modificando su comportamiento en respuesta a una retroalimentación positiva: el aumento de la puntuación. El éxito de este método hizo creer que los algoritmos de IA serían capaces de enseñarse a sí mismos a hacer todo tipo de cosas útiles que actualmente son imposibles para las máquinas.

El problema con ambos videojuegos es que ofrecen pocas señales de recompensa fiables. Los dos plantean escenarios típicos: los protagonistas exploran mundos de bloques llenos de criaturas y trampas mortales. Pero en ambos, muchos comportamientos necesarios para avanzar no aumentan la puntuación hasta mucho más tarde. Así que, hasta ahora, los algoritmos ordinarios de aprendizaje reforzado no habían logrado superar la primera fase de Montezuma´s Revenge, ni habían conseguido ningún punto en Pitfall!

Los nuevos algoritmos que han conseguido doblegarlos son obra del equipo de investigación de IA de Uber en San Francisco (EE.UU.), dirigido por el profesor asociado de la Universidad de Wyoming (EE.UU.) Jeff Clune. El equipo demostró un enfoque fundamentalmente diferente de aprendizaje automático en un entorno que ofrece pocas pistas que indiquen al algoritmo qué tal va.

Este planteamiento podría tener varias aplicaciones prácticas interesantes, como el entrenamiento de robots, según detallan Clune y su equipo en una publicación de blog. Esto se debe a que los futuros robots necesitarán descubrir qué hacer en entornos complejos que ofrecen pocas recompensas.

Uber inauguró su laboratorio de Inteligencia Artificial en diciembre de 2016, con el objetivo de lograr avances fundamentales útiles para su negocio. Unos mejores algoritmos de aprendizaje reforzado podrían, por ejemplo, impulsar la conducción autónoma y la optimización de las rutas de los vehículos.

Los investigadores de IA han tratado de abordar ambos videojuegos enseñando a los algoritmos de aprendizaje reforzado a explorar las pantallas de forma aleatoria y recompensando este comportamiento, lo que se conoce como "motivación intrínseca". Pero los investigadores de Uber creen este enfoque no capta un aspecto importante de la curiosidad humana. Su texto detalla: "Tenemos la hipótesis de que un importante punto débil de los actuales algoritmos de motivación intrínseca es la indiferencia. Los algoritmos se olvidan de las áreas prometedoras que han visto, y por eso no regresan para ver si les pueden llevar a nuevos estados".

La nueva familia de algoritmos de aprendizaje reforzado de este equipo, denominada Go-Explore, recuerda dónde han estado para regresar más adelante en busca de ayuda para obtener mejores resultados generales. Los investigadores también han descubierto que agregar un poco de conocimiento del terreno, por ejemplo, cuando los jugadores humanos resaltan áreas interesantes o importantes, acelera bastante el aprendizaje y el progreso de los algoritmos. Esta colaboración es crucial porque un algoritmo y una persona deberían trabajar juntos para resolver una tarea difícil en muchas situaciones reales.

Su código ha obtenido una media de 400.000 puntos en Montezuma´s Revenge, un orden de magnitud superior a la media de los expertos humanos. En Pitfall! la puntuación promedio de Go-Explore es de 21.000 puntos, mucho mejor que la mayoría de los jugadores humanos.

"Estos resultados son impresionantes", opina la profesora asistente en la Universidad de Stanford (EE.UU.) Emma Brunskill, especialista en el aprendizaje reforzado. La experta opina que resulta sorprendente y apasionante que estas técnicas hayan logrado ventajas tan grandes.

Otros investigadores de inteligencia artificial también se han centrado en estos complicados videojuegos. En octubre, un equipo de la organización sin ánimo de lucro OpenAI presentó un algoritmo capaz de hacer un progreso significativo en Montezuma´s Revenge. Por su parte, el equipo de Brunskill en Stanford recientemente logró un progreso más modesto en Pitfall! utilizando un enfoque similar al de Uber.

Ahora que los algoritmos de IA son capaces de resolver estos videojuegos, el desafío es salir de las recreaciones para resolver problemas del mundo real. Brunskill coincide en que el trabajo podría tener un gran impacto en la robótica. Pero advierte que otras situaciones del mundo real, especialmente aquellas que suponen modelar el comportamiento humano, son mucho más difíciles. La experta afirma: "Será muy interesante ver cómo funciona este método en situaciones más complicadas".

Sin embargo, no todos están fascinados con la investigación de Uber. El ingeniero de software especializado en aprendizaje automático y robótica de Google Alex Irpan escribió una entrada en su blog en la que cuestiona el hecho de que el equipo de IA de Uber no haya proporcionado el documento técnico junto al comunicado de prensa para dar más detalles sobre su trabajo.

Irpan también señala que al alterar el estado del juego para facilitar su enfoque, los investigadores de Uber podían haber cambiado el campo de juego de una manera significativa. Debido a esto, el investigador pone en duda lo práctico que podría llegar a ser su planteamiento. "El blog subraya que el método podría usarse para las tareas simuladas de robótica y luego combinarse con la transferencia de la simulación a la realidad para llegar a las normas del mundo real. En este contexto, soy bastante pesimista", concluye.

Inteligencia Artificial

La nueva IA de Uber domina dos videojuegos que parecían imposibles

DeepSeek cuestiona la idea de que la IA necesita más energía

El hambre de energía de la IA alimenta el resurgir nuclear

La carrera por la IA entre EE UU y China pone en peligro la paz mundial