La IA podría ayudar a los robots a aprender nuevas habilidades y adaptarse rápidamente al mundo real
El perro robot mueve sus patas en el aire como un escarabajo desesperado. Después de 10 minutos de lucha, encuentra la manera de rodar y ponerse de pie. Media hora más tarde, el robot da sus primeros pasos torpes, como un ternero recién nacido. Pero al pasar una hora, el robot se pasea por el laboratorio con confianza.
Lo que hace que este robot de cuatro patas sea especial es que aprendió a hacer todo esto por sí solo, sin que se le mostrara qué hacer en una simulación por ordenador.
Danijar Hafner, investigador de la Universidad de California en Berkeley, junto con sus colegas, ha utilizado una técnica de inteligencia artificial (IA) llamada aprendizaje reforzado, que entrena los algoritmos recompensando las acciones deseadas. Así ha entrenado al robot para que aprenda a caminar desde cero en el mundo real. El equipo usó el mismo algoritmo para entrenar con éxito a otros tres robots, incluido uno que logró recoger pelotas y moverlas de una bandeja a otra.
Tradicionalmente, los robots se entrenan en un simulador de ordenador antes de intentar hacer algo en el mundo real. Por ejemplo, el robot bípedo Cassie se enseñó a sí mismo a caminar mediante el aprendizaje reforzado, pero solo después de haberlo hecho en una simulación.
"El problema es que el simulador nunca será tan preciso como el mundo real. Siempre habrá algunos aspectos del mundo que no aparecen ahí", señala Hafner, quien trabajó en el proyecto con sus colegas Alejandro Escontrela y Philipp Wu y actualmente es pasante en DeepMind. Adaptar las lecciones del simulador al mundo real también requiere ingeniería adicional, afirma Hafner.
El algoritmo del equipo, denominado Dreamer, utiliza las experiencias pasadas para construir un modelo del mundo circundante. Dreamer también permite que el robot realice cálculos de prueba y error en un programa de ordenador en vez del mundo real, al predecir posibles resultados futuros de sus posibles acciones. Esto le permite aprender más rápido de lo que podría simplemente haciéndolo. Después de que el robot aprendiera a caminar, siguió aprendiendo para adaptarse a las situaciones inesperadas, como resistirse a ser derribado por un palo.
"Enseñar a los robots a través de prueba y error es un problema difícil, y aún más debido a los largos tiempos de entrenamiento que eso requiere", indica Lerrel Pinto, profesor asistente de ciencias de la computación en la Universidad de Nueva York y especialista en robótica y aprendizaje automático. Dreamer muestra que el aprendizaje reforzado profundo y los modelos del mundo pueden enseñar a los robots nuevas habilidades en un período de tiempo realmente corto, según añade Pinto.
Jonathan Hurst, profesor de robótica de la Universidad Estatal de Oregón, cree, por su parte, que los hallazgos, que aún no han sido revisados por pares, "dejan en claro que el aprendizaje reforzado será una herramienta fundamental en el futuro del control de robots".
Eliminar el simulador del entrenamiento de robots tiene muchas ventajas. El algoritmo podría ser útil para enseñar a los robots cómo aprender distintas habilidades en el mundo real y adaptarse a las situaciones como fallos de hardware, explica Hafner. Por ejemplo, un robot podría aprender a caminar con un motor que funciona mal en una pierna.
El enfoque también podría tener un gran potencial para cosas más complicadas como la conducción autónoma, que requieren simuladores complejos y costosos, destaca Stefano Albrecht, profesor asistente de inteligencia artificial en la Universidad de Edimburgo. Una nueva generación de algoritmos de aprendizaje reforzado podría "captar rápidamente en el mundo real cómo funciona el entorno", sostiene Albrecht.
Pero existen algunos grandes problemas sin resolver, de acuerdo con Pinto.
Con el aprendizaje reforzado, los ingenieros deben especificar en su código qué comportamientos son buenos y, por lo tanto, resultan recompensados, y cuáles son indeseables. En este caso, lograr darse la vuelta y caminar es bueno, mientras que no caminar es malo. "Un especialista en robótica deberá hacer esto para todas y cada una de las tareas [o] problemas que quiera que el robot resuelva", señala Pinto. Eso requiere mucho tiempo y es difícil programar los comportamientos para algunas situaciones inesperadas.
Aunque los simuladores pueden ser imprecisos, también lo pueden ser los modelos del mundo, asegura Albrecht. "Los modelos del mundo parten de la nada, por lo que, al principio, las predicciones de los modelos estarán completamente dispersas", indica. Se necesita tiempo hasta que obtengan suficientes datos para volverse precisos.
Hafner opina que sería bueno enseñarle en el futuro al robot a comprender los comandos hablados y afirma que el equipo también quiere conectar cámaras al perro robot para darle visión. Esto le permitiría navegar en las situaciones complejas en el espacio interior, como entrar en una sala, encontrar objetos e incluso jugar.