El nuevo agente de Google DeepMind podría enfrentarse a una variedad de juegos que nunca antes había visto observando a jugadores humanos
¡Vuela, cabra, vuela! Un nuevo agente de IA de Google DeepMind puede jugar a diferentes juegos, incluidos algunos que nunca había visto antes, como Goat Simulator 3, un divertido juego de acción con una física exagerada. Los investigadores consiguieron que siguiera órdenes de texto para jugar a siete juegos diferentes y moverse en tres entornos de investigación 3D distintos. Es un paso hacia una IA más generalizada que pueda transferir habilidades a través de múltiples entornos.
Google DeepMind ha tenido un gran éxito en el desarrollo de sistemas de IA de juego. Su sistema AlphaGo, que derrotó al mejor jugador profesional Lee Sedol en el juego Go en 2016, fue un hito importante que demostró el poder del aprendizaje profundo. Pero a diferencia de los sistemas de IA de juego anteriores, que solo dominaban un juego o solo podían seguir objetivos o comandos únicos, este nuevo agente es capaz de jugar a una variedad de juegos diferentes, incluidos Valheim y No Man's Sky. Se llama SIMA, acrónimo de “agente multimundo escalable e instruible”, por sus siglas en inglés.
En el entrenamiento de sistemas de IA, los juegos son un buen sustituto de las tareas del mundo real. "Un agente general que juegue podría, en principio, aprender mucho más sobre cómo navegar por nuestro mundo de lo que nunca podría aprender nada en un único entorno", afirma Michael Bernstein, profesor asociado de informática en la Universidad de Stanford, que no participó en la investigación.
"Uno podría imaginar que un día, en lugar de tener agentes sobrehumanos contra los que jugar, podríamos tener agentes como SIMA jugando a tu lado en juegos contigo y con tus amigos", dice Tim Harley, ingeniero de investigación de Google DeepMind que formó parte del equipo que desarrolló el agente.
Según Frederic Besse, ingeniero de investigación de Google DeepMind, el equipo entrenó a SIMA con muchos ejemplos de humanos jugando a videojuegos, tanto individualmente como en colaboración, junto con entradas de teclado y ratón y anotaciones de lo que los jugadores hacían en el juego.
Después utilizaron una técnica de IA llamada aprendizaje por imitación para enseñar al agente a jugar como lo harían los humanos. SIMA puede seguir 600 instrucciones básicas, como "Gira a la izquierda", "Sube la escalera" y "Abre el mapa", cada una de las cuales puede completarse en menos de 10 segundos aproximadamente.
El equipo descubrió que un agente SIMA entrenado en muchos juegos era mejor que un agente que aprendía a jugar a uno solo. Esto se debe a que fue capaz de aprovechar los conceptos compartidos entre los juegos para aprender mejores habilidades y mejorar en la ejecución de instrucciones, dice Besse.
"Se trata de una propiedad clave muy interesante, ya que tenemos un agente que puede jugar a juegos que nunca había visto", explica.
Ver este tipo de transferencia de conocimientos entre juegos es un hito importante para la investigación en IA, afirma Paulo Rauber, profesor de Inteligencia Artificial de la Universidad Queen Mary de Londres.
La idea básica de aprender a ejecutar instrucciones a partir de ejemplos proporcionados por humanos podría dar lugar a sistemas más potentes en el futuro, especialmente con conjuntos de datos más grandes, afirma Rauber. El conjunto de datos relativamente limitado de SIMA es lo que está frenando su rendimiento, afirma.
Aunque el número de entornos de juego en los que se ha entrenado sigue siendo pequeño, SIMA va por buen camino, afirma Jim Fan, investigador científico de Nvidia que dirige la Iniciativa de Agentes de IA.
Pero el sistema de IA aún no se acerca al nivel humano, afirma Harley. Por ejemplo, en el juego No Man's Sky, el agente de IA sólo podía hacer el 60% de las tareas que podían hacer los humanos. Y cuando los investigadores eliminaron la posibilidad de que los humanos dieran instrucciones a SIMA, descubrieron que el agente funcionaba mucho peor que antes.
Según Besse, el equipo está trabajando para mejorar el rendimiento del agente. Los investigadores quieren que funcione en tantos entornos como sea posible y aprenda nuevas habilidades, y quieren que la gente pueda chatear con el agente y obtener una respuesta. El equipo también quiere que SIMA tenga habilidades más generalizadas, que le permitan aprender rápidamente juegos que nunca ha visto antes, como un humano.
Los humanos "pueden generalizar muy bien en entornos y situaciones desconocidos", dice Besse. "Y queremos que nuestros agentes sean iguales".
SIMA nos acerca al "momento ChatGPT" de los agentes autónomos, dice Roy Fox, profesor adjunto de la Universidad de California en Irvine.
Pero está muy lejos de la IA autónoma real. Eso sería "algo totalmente distinto", afirma.