Al combinar el aprendizaje profundo con el razonamiento simbólico, esta inteligencia artificial depende de muchos menos datos etiquetados y tarda menos en comprender nuevos entornos. Este nuevo enfoque, con un enorme potencial, es el que más se asemeja al proceso de aprendizaje humano
En las décadas que han pasado desde que nació la inteligencia artificial (IA), la investigación se ha dividido en dos líneas principales. Los "simbolistas", que han intentado construir máquinas inteligentes mediante la codificación de reglas lógicas y representaciones del mundo. Y los "conexionistas", que se han centrado en crear redes neuronales artificiales, inspiradas en el cerebro humano, para aprender cómo es el mundo. Históricamente, ambos grupos no se han llevado bien.
Pero un nuevo trabajo del MIT, IBM y DeepMind (todos en EE. UU.) demuestra el poder de combinar ambos enfoques, lo que podría ofrecer un camino a seguir en la investigación. El equipo, liderado por el profesor en el Centro de Cerebros, Mentes y Máquinas del MIT Josh Tenenbaum, creó un programa informático, el aprendiz de conceptos neuro-simbólicos (NS-CL) que aprende a partir de una versión simplificada del mundo como lo haría un niño: mirando a su alrededor y hablando.
El sistema consta de varias piezas. Tiene una red neuronal entrenada con una serie de escenas compuestas por una pequeña cantidad de objetos. Otra red neuronal entrenada en una serie de texto con preguntas y respuestas sobre una escena, por ejemplo: "P: ¿De qué color es la esfera?" "R: Roja". Esta red aprende a mapear las preguntas en lenguaje natural en un programa simple que se puede ejecutar en una escena para ofrecer respuestas.
El sistema NS-CL también está programado para comprender los conceptos simbólicos de un texto como los "objetos", los "atributos del objeto" y la "relación espacial". Ese conocimiento ayuda a NS-CL a responder a nuevas preguntas sobre una escena diferente, un tipo de tarea que resulta mucho más desafiante si se usa solo el enfoque conexionista. Así, el sistema reconoce los conceptos en las nuevas preguntas y puede relacionarlos visualmente con la escena anterior.
"Se trata de un enfoque fascinante. El reconocimiento de patrones neuronales permite que el sistema vea, mientras que los programas simbólicos hacen que el sistema razone. Al combinarlos, el enfoque va más allá de lo que pueden hacer los sistemas actuales de aprendizaje profundo", opina el profesor asistente en la Universidad de Nueva York (EE.UU.) Brenden Lake.
En otras palabras, este sistema híbrido aborda las limitaciones principales de ambos enfoques combinándolos. Supera los problemas de escalabilidad del simbolismo, que históricamente ha tenido dificultades para codificar la complejidad del conocimiento humano de manera eficiente. Pero también aborda uno de los problemas más comunes con las redes neuronales: la necesidad de enormes cantidades de datos.
Es posible entrenar a única red neuronal para responder a preguntas sobre una escena al incluir millones de ejemplos como datos de entrenamiento. Pero un niño no requiere una cantidad tanta información para comprender un objeto nuevo o cómo se relaciona con otros objetos. Además, una red entrenada de esa manera no tiene una comprensión real de los conceptos involucrados, es solo un vasto ejercicio de combinación de patrones. Por lo tanto, un sistema de este tipo sería propenso a cometer errores muy tontos ante nuevos escenarios. Este es un problema común con las redes neuronales actuales y destaca deficiencias muy fáciles de detectar.
Los puristas del conexionismo pueden objetar el hecho de que el sistema requiere algún conocimiento para ser codificado. Pero este trabajo resulta importante porque nos acerca más a la creación de una forma de inteligencia que se parece más a la nuestra. Los científicos cognitivos creen que la mente humana sigue algunos pasos similares, y que esto respalda la flexibilidad del aprendizaje humano.
A nivel práctico, este nuevo enfoque también podría descubrir nuevas aplicaciones de IA, ya que requiere muchos menos datos de entrenamiento. Los robots, por ejemplo, podrían aprender sobre la marcha, en vez de dedicar mucho tiempo a entrenar sobre cada entorno en el que se encuentran.
El científico que dirige el laboratorio de IA de MIT-IBM Watson David Cox afirma: "Es realmente apasionante porque nos ayudará a superar la dependencia de enormes cantidades de datos etiquetados". Los investigadores responsables ya están desarrollando una versión que funciona con fotografías de escenas reales. Es algo que podría resultar valioso para muchas aplicaciones prácticas de la visión artificial.