El sistema de inteligencia artificial DeepMind se basa en las redes generativas de consulta, que le permiten componer una imagen de una escena desde un punto de vista que no ha observado a partir de otros que sí ha visto. El avance ha sido publicado en la prestigiosa revista 'Science'
Para que las máquinas se vuelvan verdaderamente inteligentes, necesitarán mejorar mucho para ser capaces de entender el mundo.
DeepMind, la subsidiaria de Alphabet especializada en inteligencia artificial (IA), acaba de dar un paso en esta dirección con su nuevo programa informático capaz de construir una imagen mental del mundo por sí solo. Podría decirse que el algoritmo es capaz de imaginarse el mundo que le rodea.
El sistema utiliza lo que los investigadores de DeepMind han bautizado como red generativa de consulta (GQN, por sus siglas en inglés). El sistema observa una escena desde varios ángulos y después crea una imagen de cómo se vería desde otro ángulo distinto.
Aunque pueda parecer un avance poco espectacular, para aprender sobre el mundo físico hace falta una habilidad relativamente sofisticada. A diferencia de otros muchos sistemas de visión artificial, el programa de DeepMind da sentido a una escena de forma parecida a como lo haría una persona. El algoritmo incluso es capaz de razonar sobre la presencia de elementos parcialmente ocultos.
Una tecnología como esta podría convertirse en la base de una inteligencia artificial más profunda, con la que las máquinas podrían describir y razonar sobre el mundo con un nivel mucho más alto de sofisticación.
El investigador de DeepMind Ali Eslami y su equipo probaron el enfoque en tres entornos virtuales: un tablero de mesa en forma de bloque, un brazo de robot virtual y un sencillo laberinto. Al igual que las redes generativas antagónicas, el sistema depende de dos redes neuronales distintas: una aprende y otra genera, o "imagina", nuevas perspectivas. El sistema captura aspectos de una escena, incluidas las formas, las posiciones y los colores de los objetos, mediante una representación vectorial, lo que la hace relativamente eficiente. La investigación ha sido publicada en la prestigiosa revista Science.
El trabajo abre una nueva línea de investigación para DeepMind, que ha alcanzado la fama por sus programas capaces de realizar hazañas notables, como AlphaGo, que logró derrotar al campeón mundial del complejo y abstracto juego de mesa Go. El nuevo proyecto se basa en otra investigación previa que intentaba imitar la percepción y la inteligencia humanas utilizando herramientas computacionales similares.
"Es un paso interesante y valioso en la dirección correcta", afirma el director del grupo de Ciencias Cognitivas Computacionales en el Instituto Tecnológico de Massachusetts (EE. UU.), Josh Tenenbaum. El experto cree que la capacidad de abordar escenas complejas de forma modular es impresionante, pero matiza que el enfoque muestra las mismas limitaciones que otros métodos de aprendizaje automático, incluida la de necesitar una gran cantidad de datos de entrenamiento. Tenenbaum añade: "Todavía estamos deliberando sobre hasta qué punto se ha resuelto el problema realmente".
El director del Laboratorio de Neurociencia Cognitiva Computacional de la Universidad de Harvard (EE. UU.), Sam Gershman, afirma que el trabajo de DeepMind combina algunas ideas importantes sobre cómo funciona la percepción visual humana. Pero señala que, al igual que otros programas de inteligencia artificial, el algoritmo es algo limitado, ya que solo puede responder a una pregunta: ¿cómo se vería la escena desde un punto de vista diferente?
"Por el contrario, los humanos pueden responder a una variedad infinita de preguntas sobre una escena, como: ¿cómo sería una escena si moviera el círculo azul un poco hacia la izquierda, o repintara el triángulo rojo o aplastara el cubo amarillo?", explica Gershman.
El director del laboratorio señala que no está claro si el enfoque de DeepMind podría adaptarse para contestar a preguntas más complejas o si haría falta un enfoque fundamentalmente diferente.