Los investigadores de DeepMind quieren que la inteligencia artificial aprenda a dominar el Hanabi, que requiere entender la teoría de la mente y disponer de un nivel de razonamiento mayor que el de Go o el ajedrez. Con las técnicas actuales, su rendimiento es pésimo
Si alguna vez ha jugado al juego de cartas Hanabi, me entenderá cuando digo que no se parece a ningún otro. Es un juego colaborativo en el que el cada jugador ve las cartas de todos los demás menos las suyas.
Para ganar el juego, cada jugador debe dar sugerencias a los demás sobre sus cartas en un número limitado de rondas para poner todas las cartas en un orden específico. Es un intenso ejercicio de estrategia, deducción y cooperación. Es por eso que los investigadores de Google Brain y DeepMind creen que es el juego perfecto para entrenar a una inteligencia artificial (IA).
A diferencia de los otros juegos que la IA ha conquistado, como el ajedrez, el Go y el póker, en su nuevo artículo, los investigadores defienden que el Hanabi requiere dominar la teoría de la mente y un mayor nivel de razonamiento. La teoría de la mente consiste en comprender los estados mentales de los demás y en aceptar que pueden ser distintos que los nuestros. Es una habilidad fundamental que los humanos utilizan para actuar de manera eficaz en el mundo y que normalmente aprendemos cuando somos muy jóvenes.
La información del Hanabi está limitada tanto por la cantidad de pistas de las que disponen los jugadores en cada juego como por lo que se puede comunicar en cada pista. Como resultado, para ganar, la IA también debe entender la información implícita de las acciones de los otros jugadores, un desafío al que no se había enfrentado hasta ahora.
Además, tiene que aprender a proporcionar la máxima información posible a través de sus propias sugerencias y acciones para ayudar a los demás jugadores a tener éxito. Los investigadores creen que si la inteligencia artificial logra manejarse bien en un entorno de información tan imperfecto, estará un paso más cerca de cooperar eficazmente con los humanos.
Son nuevos retos para la comunidad de investigadores que requerirán nuevos avances algorítmicos que vinculen el trabajo de varios subcampos de la IA, incluido el aprendizaje reforzado, la teoría de juegos y la comunicación emergente: el estudio de cómo surge la comunicación entre múltiples sistemas de IA para colaborar entre sí.
Para confirmar esta hipótesis, el equipo de Google probó todos los algoritmos actuales de aprendizaje reforzado de última generación y descubrió que su rendimiento fue pésimo. En respuesta, lanzaron un entorno Hanabi de código abierto para impulsar el trabajo dentro de la comunidad investigadora.
El coautor del artículo Jakob Foerster afirma: "Siendo investigador, me ha fascinado cómo los sistemas de inteligencia artificial pueden aprender a comunicarse y cooperar entre sí y, en última instancia, también con los humanos. Hanabi presenta una oportunidad única para un gran desafío en esta área".