Cuando los humanos disponen de información relevante sobre el mundo, su proceso de aprendizaje es mucho más rápido que el de las máquinas. Pero sin esta información, las cosas cambian. El conocimiento básico que damos por sentado es el que nos da ventaja sobre el aprendizaje automático
En 2013, DeepMind Technologies, que en aquel entonces era una compañía poco conocida, publicó un innovador documento en el que demostraba que una red neuronal era capaz de aprender a jugar a videojuegos de la década de 1980 con el mismo mecanismo que empleamos los humanos: mirando la pantalla. Más tarde, estas redes llegaron a derrotar a los mejores jugadores humanos.
Unos meses más tarde, Google compró la compañía por unos 323 millones de euros. Desde entonces, DeepMind ha aplicado sus técnicas de aprendizaje profundo en una amplia gama de situaciones. La más famosa fue en 2016, cuando su algoritmo AlphaGo derrotó al 18 veces campeón de Go, Lee Sedol.
El trabajo de DeepMind es impresionante, no obstante, también revela una de las limitaciones más importantes del aprendizaje profundo. En comparación con los humanos, las máquinas que utilizan esta tecnología tardan más tiempo en aprender. ¿Qué características del aprendizaje humano son las que nos permite funcionar tan bien con relativamente poca experiencia?
El investigador de la Universidad de California (EE. UU.) Rachit Dubey y algunos de sus compañeros acaban de obtener una respuesta a esta pregunta. El equipo de investigación ha estudiado cómo los humanos interactúan con los videojuegos para descubrir el tipo de conocimiento previo necesario para aprender.
El equipo concluyó que los humanos utilizamos una gran cantidad de conocimientos previos cada vez que nos enfrentamos a un nuevo juego. Y esto hace que los juegos sean mucho más fáciles de jugar. Así que cuando un juego no depende de información previa, los humanos son bastante torpes, mientras que las máquinas aprenden al mismo ritmo.
Preste atención al juego de ordenador que hay en la parte izquierda (el juego original) de la imagen superior. Este juego se basa en el clásico llamado Montezuma's Revenge, lanzado en 1984 para el ordenador Atari de 8 bits. El juego carece de manual e instrucciones, ni siquiera especifica qué personaje controla el jugador. Y para obtener comentarios es necesario terminar el juego con éxito.
¿Cree ue sería capaz de hacerlo? ¿Cuánto tiempo tardaría? Puede poner a prueba sus capacidades en esta página web (junto con los otros juegos mencionados en el documento). Lo más probable es que solo tarde un minuto en completar el juego, y durante ese tiempo probablemente llevará a cabo unas 3.000 acciones con el teclado. Eso es lo que Dubey y su equipo descubrieron cuando pidieron a 40 trabajadores del servicio colaborativo Mechanical Turk de Amazon que completaran el juego a cambio de cerca de un euro.
La investigación explica: "Estos resultados no nos sorprenden demasiado ya que uno podría adivinar fácilmente que el objetivo del juego es dirigir al robot hacia la princesa y que en el camino tendrá que pisar objetos como ladrillos y utilizar escaleras para alcanzar las plataformas más altas mientras se esquiva a un enfadado cubo de color rosa y otros objetos de fuego".
Pero a diferencia de los humanos, a las máquinas les cuesta mucho jugar a este juego. Muchos algoritmos estándar de aprendizaje profundo fueron incapaces de resolverlo porque no hay forma de que un algoritmo evalúe el progreso dentro del juego cuando la retroalimentación solo está disponible cuando se finaliza el juego.
La máquina que mejores resultados obtuvo estaba equipada con un algoritmo de aprendizaje reforzado con una especie de curiosidad. Pero tuvo que realizar unas cuatro millones de acciones con el teclado para finalizar el juego. Eso es equivalente a unas 37 horas de juego ininterrumpido.
Así que, ¿cuáles son los elementos que hacen que a los humanos se les dé mucho mejor? La clave está en que cuando nosotros llegamos a este juego tenemos mucha información de contexto. Un humano sabe que tiene el control sobre el robot y que el robot debe evitar el fuego, subir escaleras, saltar brechas y evitar que un enemigo con cara de enfado alcance a la princesa. Y sabe todo esto gracias al conocimiento previo de que ciertos objetos son buenos mientras que otros (como los que tienen el ceño fruncido o llamas) son malos, que las plataformas sostienen objetos mientras se suben escaleras, que las cosas que parecen iguales se comportan de la misma manera, que la gravedad tira de los objetos e incluso qué son los "objetos". Todas estas cosas son independientes unas de otras y tienen diferentes propiedades.
Pero una máquina no tiene este tipo de conocimientos.
Así que Dubey y su equipo remodelaron el juego para que la información de contexto resultara irrelevante para aprender a jugar. Después, analizaron cuánto tardaban los colaboradores de Amazon en aprender a jugar a la nueva versión. El equipo asumió que cualquier aumento en el tiempo necesario para superar la partida era un indicativo de la importancia de la información.
La investigación detalla: "Creamos diferentes versiones del videojuego con diferentes renderizados para varias entidades como escaleras, enemigos, llaves, plataformas, utilizando texturas alternativas". El objetivo del cambio de textura era ocultar varias formas de conocimiento previo. También alteraron las propiedades físicas del juego, como el efecto de la gravedad y la forma en la que el agente interactúa con su entorno. Pero en todas las nuevas versiones del juego el objetivo era el mismo.
Los resultados son fascinantes. El texto afirma: "Hemos descubierto que al eliminar algunos conocimientos previos, la velocidad con la que los jugadores humanos resuelven el juego se reduce drásticamente". De hecho, el tiempo que tardan los humanos en resolver el juego aumenta de un minuto a más de 20 minutos a medida que se eliminan diferentes tipos de información previa.
Pero en el caso de las máquinas, no se nota la diferencia de aprendizaje a la hora de abordar las nuevas versiones del juego.
En función del aumento del tiempo que provoca la supresión de cada tipo de información, el equipo incluso puede clasificarla según su influencia en el proceso de aprendizaje. Eliminar la parte semántica de los objetos, como una cara fruncida o un símbolo de fuego, hace que los jugadores humanos tarden más tiempo en terminar. Pero enmascarar el concepto de "objeto" complica las cosas mucho más, de hecho algunos colaboradores de Amazon se negaron a jugar. Dubey confirma: "Tuvimos que aumentar a unos 1,82 euros para convencer a los participantes de que no abandonaran el juego".
Esta clasificación sobre la importancia de cada tipo de información en el proceso de aprendizaje muestra un vínculo interesante con la forma en la que los humanos aprenden. Los psicólogos han descubierto que, a los dos meses de edad, los bebés poseen una noción primitiva de los objetos que quieren mover como totalidades conectadas. Pero a esta edad los bebés no distinguen las distintas categorías de objetos.
Entre los tres meses y los cinco meses de edad, los bebés aprenden a reconocer las categorías de objetos; entre el año y medio y los dos años, aprenden a reconocer objetos individuales. Aproximadamente en este momento, también descubren cosas sobre las propiedades de los objetos (objetos permitidos, como los llaman los psicólogos) y así aprenden la diferencia entre lo fácil que resulta dar un paso a lo largo de un terreno llano pero que es imposible hacerlo en un acantilado.
Resulta que los experimentos de Dubey y su equipo clasifican este tipo de información aprendida exactamente en el mismo orden en que los bebés la aprenden. "Es muy interesante ver que el orden en que los bebés aumentan su conocimiento coincide con la importancia de los diferentes objetos anteriores", dicen los investigadores. Y añaden: "Nuestro trabajo da los primeros pasos hacia la cuantificación de la importancia de varios antecedentes que los seres humanos emplean en la resolución de videojuegos y en la comprensión de cómo el conocimiento previo hace que los humanos sean buenos en tareas tan complejas".
Esto sugiere un camino interesante para que los científicos informáticos aborden futuros avances de inteligencia artificial. Ahora, pueden programan sus entrenamientos con los mismos conocimientos básicos que los humanos adquieren a una edad temprana. De esta forma, las máquinas deberían poder alcanzar a los humanos en su velocidad de aprendizaje y, tal vez, incluso superarlos.
Quedamos pendientes de nuevos resultados.
Ref: arxiv.org/abs/1802.10217: Investigating Human Priors for Playing Video Games