Los vídeos 'online' son una fuente inmensa e inexplorada de datos de entrenamiento, y OpenAI tiene una nueva forma de usarlos
OpenAI ha creado el mejor bot para jugar a Minecraft hasta el momento después de hacerle ver 70.000 horas de vídeos de personas jugando a este popular juego de ordenador. Es el ejemplo de una técnica nueva y poderosa que se podría usar para entrenar máquinas con el fin de llevar a cabo una amplia variedad de tareas viendo sitios como YouTube, esa fuente inmensa e inexplorada de datos de entrenamiento.
El modelo de inteligencia artificial (IA) de Minecraft aprendió a realizar secuencias complicadas de teclado y ratón para distintas tareas en el videojuego, como talar árboles y fabricar herramientas. Es el primer bot que puede crear las denominadas herramientas de diamante, algo que puede llevar a los buenos jugadores humanos 20 minutos de clics a mucha velocidad, o alrededor de 24.000 acciones.
Este resultado es un gran avance para la técnica conocida como aprendizaje por imitación, en la que las redes neuronales se entrenan para realizar tareas al observar a las personas hacerlas. El aprendizaje por imitación se puede utilizar para entrenar a la IA para controlar brazos robóticos, conducir coches o navegar por las páginas web.
Hay una gran cantidad de vídeos online que muestran a personas haciendo diferentes tareas. Al aprovechar este recurso, los investigadores esperan hacer por el aprendizaje por imitación lo que GPT-3 hizo por los grandes modelos de lenguaje. "En los últimos años, hemos visto el surgimiento de este paradigma GPT-3 donde las increíbles capacidades provienen de grandes modelos entrenados en enormes secciones de internet", explica Bowen Baker, científico de OpenAI y uno de los miembros del equipo detrás del nuevo bot de Minecraft. "Gran parte de eso se debe a que estamos modelando lo que hace la gente cuando está en internet".
El problema con los enfoques existentes para el aprendizaje por imitación es que las demostraciones en vídeo se deben etiquetar en cada paso (esta acción hace que esto suceda, esa otra acción hace que ocurra lo otro, y así sucesivamente). Anotar a mano de esta manera es mucho trabajo y, por lo tanto, estos conjuntos de datos tienden a ser pequeños. Baker y sus colegas querían encontrar una forma de convertir los millones de vídeos que están disponibles online en un nuevo conjunto de datos.
El enfoque de este equipo, llamado Video Pre-Training (VPT), evita ese obstáculo en el aprendizaje por imitación entrenando otra red neuronal para etiquetar los vídeos automáticamente. Primero, los investigadores contrataron a trabajadores colectivos para jugar a Minecraft y grabaron los clics del teclado y del ratón junto con el vídeo de sus pantallas. Esto les dio 2.000 horas de juego Minecraft etiquetado, que usaron para entrenar un modelo para hacer coincidir las acciones con los resultados en pantalla. Al hacer clic en un botón del ratón en una situación determinada, el personaje levanta su hacha, por ejemplo.
El siguiente paso fue usar este modelo para generar etiquetas de acción para 70.000 horas de vídeos sin etiquetar tomados de internet y luego entrenar al bot de Minecraft en este conjunto de datos más grande.
"El vídeo es un recurso de entrenamiento con mucho potencial", señala Peter Stone, director ejecutivo de Sony AI America, quien ha trabajado previamente en el aprendizaje por imitación.
El aprendizaje por imitación es una alternativa al aprendizaje reforzado, en el que una red neuronal aprende a realizar una tarea desde cero mediante prueba y error. Esta es la técnica detrás de muchos de los mayores avances en IA de los últimos años. Se ha utilizado para entrenar modelos que pueden vencer a las personas en los juegos, controlar un reactor de fusión y descubrir una forma más rápida de realizar operaciones matemáticas fundamentales.
El problema consiste en que el aprendizaje reforzado funciona mejor para las tareas que tienen un objetivo claro, donde las acciones aleatorias pueden conducir a un éxito accidental. Los algoritmos de aprendizaje reforzado recompensan esos éxitos accidentales para que sea más probable que vuelvan a ocurrir.
Pero Minecraft es un videojuego sin un objetivo claro. Los jugadores son libres de hacer lo que quieran: deambular por un mundo generado por ordenador, extraer diferentes materiales y combinarlos para crear distintos objetos.
La naturaleza abierta de Minecraft lo convierte en un buen entorno para entrenar la IA. Baker fue uno de los investigadores detrás de un experimento llamado Hide & Seek (el escondite). En este proyecto, los bots se soltaban en un patio virtual de juegos donde usaban el aprendizaje reforzado para descubrir cómo cooperar y usar herramientas para ganar a juegos simples. Pero los bots pronto superaron su entorno. "Los agentes se apoderaron del universo; no tenían nada más que hacer", indica Baker. "Queríamos expandirlo y pensamos que Minecraft era un gran ámbito para trabajar".
No son los únicos. Minecraft se está convirtiendo en un importante banco de pruebas para las nuevas técnicas de IA. MineDojo, un entorno de Minecraft con docenas de desafíos prediseñados, ganó este año un premio en NeurIPS, una de las mayores conferencias de IA.
Usando VPT, el bot de OpenAI pudo llevar a cabo tareas que habrían sido imposibles solo con el aprendizaje reforzado, como crear tablones y convertirlos en una mesa, lo que implica alrededor de 970 acciones consecutivas. Aun así, el equipo descubrió que los mejores resultados procedían del uso conjunto del aprendizaje por imitación y el aprendizaje reforzado. Tomar un bot entrenado con VPT y ajustarlo con aprendizaje reforzado permitió realizar tareas que involucraban más de 20.000 acciones consecutivas.
Los investigadores afirman que su enfoque se podría usar para entrenar a la IA para que realice otras tareas. Para empezar, se podría utilizar para los bots que usan teclado y ratón para navegar por los sitios web, reservar vuelos o comprar comida online. Pero, en teoría, se podría usar para entrenar robots para que realicen tareas físicas del mundo real copiando vídeos en primera persona de gente haciendo esas cosas. "Es razonable", opina Stone.
Sin embargo, Matthew Guzdial, profesor de la Universidad de Alberta en Canadá, quien ha utilizado vídeos para enseñar a la IA las reglas de juegos como Super Mario Bros, no cree que eso suceda pronto. Las acciones en los juegos como Minecraft y Super Mario Bros se realizan presionando botones. Las acciones en el mundo físico son mucho más complicadas y difíciles de aprender para una máquina. "Abre todo un lío de nuevos problemas de investigación", considera Guzdial.
"Este trabajo es otro testimonio de la posibilidad de escalar los modelos y entrenar en los conjuntos de datos masivos para obtener un buen rendimiento", resalta la investigadora Natasha Jaques, quien trabaja en aprendizaje reforzado de múltiples agentes en Google y en la Universidad de California en Berkeley (EE UU).
Grandes conjuntos de datos del tamaño de internet sin duda abrirán nuevas capacidades para la IA, señala Jaques: "Lo hemos visto una y otra vez, y es un gran enfoque". Pero OpenAI confía mucho en el poder de los grandes conjuntos de datos por sí solos, advierte: "Personalmente, soy un poco más escéptica con la idea de que los datos puedan resolver cualquier problema".
Aun así, Baker y sus colegas creen que recopilar más de un millón de horas de vídeos de Minecraft hará que su IA sea aún mejor. Es probablemente el mejor bot para jugar a Minecraft hasta el momento, concluye Baker: "Pero con una mayor cantidad de datos y modelos más grandes, yo esperaría que pareciera como si estuviéramos viendo a una persona jugar, en vez de una IA bebé que intenta imitar a un ser humano".