El padre del aprendizaje profundo, Geoffrey Hinton, ha ideado un nuevo enfoque sobre cómo funciona el cerebro para recrear sus circuitos en una inteligencia artificial. La idea, que de momento no es más que teórica y cuyo nombre procede de 'aglomerado', consiste en una agrupación de vectores similares
En noviembre pasado, el científico informático, psicólogo cognitivo y padre del aprendizaje profundo, Geoffrey Hinton tuvo una corazonada. Después de medio siglo de intentos, algunos especialmente exitosos, tuvo otra prometedora idea sobre cómo funciona el cerebro y cómo recrear sus circuitos en un ordenador.
Desde su oficina en su casa en Toronto (Canadá), donde ha estado confinado durante la pandemia, afirma: "Es mi mejor apuesta actual sobre cómo encajan las cosas". Si resulta ganadora, podría dar comienzo a la próxima generación de redes neuronales artificiales: sistemas de computación matemática, inspirados en las neuronas del cerebro y la sinapsis, que son la base de la actual inteligencia artificial (IA). Su "motivación verdadera", según él, es la curiosidad. Pero la motivación práctica, e idealmente, la consecuencia, sería una IA más confiable y fiable.
Como miembro del grupo de ingeniería de Google y cofundador del Vector Institute for Artificial Intelligence, Hinton escribió su idea a trompicones y, a finales de febrero, anunció a través de Twitter que la había publicado en un documento de 44 páginas en arXiv, el conocido servidor de preprints. El texto empezaba con un aviso de responsabilidad: "Este documento no describe un sistema operativo". Más bien, presenta un "sistema imaginario". Lo denominó "GLOM", un término que deriva de "aglomerado" y de la expresión en inglés "glom together", que significaría pegarse o adherirse entre sí.
Hinton ideó GLOM como forma de modelar la percepción humana en una máquina: ofrece una nueva forma de procesar y representar la información visual en una red neuronal. A nivel técnico, su base consiste en una agrupación de vectores similares. Los vectores son fundamentales para las redes neuronales: un vector es una matriz de números que codifica información. El ejemplo más simple son las coordenadas xyz de un punto: tres números que indican dónde está el punto en el espacio tridimensional. Un vector de seis dimensiones contiene tres piezas más de información, por ejemplo los valores rojo-verde-azul para el color del punto. En una red neuronal, los vectores en cientos o miles de dimensiones representan imágenes completas o palabras. Y en las dimensiones aún más elevadas, Hinton cree que lo que sucede en nuestro cerebro implica "grandes vectores de actividad neuronal".
A modo de analogía, Hinton compara su unión de vectores similares con la dinámica de una cámara de eco que amplifica opiniones similares. "Una cámara de eco es un completo desastre para la política y la sociedad, pero para las redes neuronales es algo buenísimo", sostiene. La noción de las cámaras de eco mapeadas aplicadas a las redes neuronales es a lo que Hinton denomina "islas de vectores idénticos", o más informal, "islas de acuerdo": cuando los vectores están de acuerdo sobre la naturaleza de su información, apuntan en la misma dirección.
"Si las redes neuronales se parecieran más a las personas, al menos se equivocarían de la misma manera que la gente, y así tendríamos una idea de lo que podría confundirlas", Geoffrey Hinton.
En esencia, GLOM también llega al impreciso objetivo de modelar la intuición: Hinton piensa que la intuición es crucial para la percepción y la define como nuestra capacidad de hacer analogías sin esfuerzo. Desde la infancia y a lo largo de nuestras vidas, damos sentido al mundo mediante el razonamiento analógico, mapeando similitudes de un objeto, idea o concepto con otro, o, como lo ve Hinton, de un gran vector a otro. "Las similitudes de los grandes vectores explican cómo las redes neuronales realizan un razonamiento analógico intuitivo", resalta.
En términos generales, la intuición captura esa manera inefable en la que el cerebro humano genera conocimiento. El propio Hinton trabaja de manera muy intuitiva; científicamente, se guía por la intuición y la creación de analogías. Y su teoría de cómo funciona el cerebro tiene que ver con la intuición. Y afirma: "Soy muy coherente".
Hinton espera que GLOM sea uno de esos avances necesarios para que la IA sea capaz de resolver problemas con agilidad, con el tipo de pensamiento humano que permitiría a un sistema poder dar sentido a cosas nunca antes encontradas; aprovechar las similitudes de las experiencias pasadas, jugar con las ideas, generalizar, extrapolar, comprender. Y afirma: "Si las redes neuronales se parecieran más a las personas, al menos se equivocarían de la misma manera que la gente, y así tendríamos una idea de lo que podría confundirlas ".
Sin embargo, por ahora, GLOM no es más que intuición: es "vaporware", según Hinton. Y reconoce que como acrónimo encaja muy bien con "Geoff’s Last Original Model" ("El último modelo original de Geoff"). Es, por lo menos, su modelo más reciente.
Más allá de los límites
La devoción de Hinton por las redes neuronales artificiales (inventadas mediados del siglo XX) se remonta a principios de la década de 1970. Hasta 1986 había logrado un progreso considerable: mientras que inicialmente las redes solo comprendían un par de capas de neuronas, entradas y salidas, o input y output, Hinton y sus colaboradores idearon una técnica para una red más profunda y de múltiples capas, la retropropagación. Pero pasaron 26 años antes de que la potencia computacional y la capacidad de datos alcanzaran y capitalizaran esa arquitectura tan profunda.
En 2012, Hinton ganó fama y fortuna gracias a un gran descubrimiento en el aprendizaje profundo. Con dos estudiantes, implementó una red neuronal de múltiples capas entrenada para reconocer objetos en grandes conjuntos de datos de imágenes. La red neuronal aprendió a mejorar iterativamente en la clasificación e identificación de varios objetos, por ejemplo, un ácaro, un hongo, una motocicleta, un gato de Madagascar. Y funcionó con una precisión inesperadamente espectacular.
El aprendizaje profundo desencadenó la última revolución de la IA, transformando la visión artificial y el campo en su conjunto. Hinton cree que el aprendizaje profundo debería ser casi todo lo que se necesita para recrear completamente la inteligencia humana.
Pero a pesar de su rápido progreso, todavía existen grandes retos. Si una red neuronal se encuentra con un conjunto de datos desconocido o un entorno extraño, se mostrará frágil e inflexible. Los vehículos autónomos y los generadores de texto de ensayo impresionan, pero las cosas pueden salir mal. Los sistemas visuales de IA se pueden confundir fácilmente: una taza de café reconocida desde un lado sería un objeto desconocido si se observa desde arriba en el caso de que el sistema no hubiera sido entrenado en ese ángulo de visión; y con la manipulación de unos pocos píxeles, un panda puede parecer un avestruz, o incluso un autobús escolar.
GLOM aborda dos de los problemas más difíciles para los sistemas de percepción visual: comprender una escena completa en términos de objetos y sus partes naturales; y reconocer los objetos desde un nuevo punto de vista (el enfoque de GLOM está en la visión, pero Hinton espera que también se pueda aplicar al lenguaje).
Un objeto como la cara de Hinton, por ejemplo, está formado por sus ojos llenos de vida, aunque cansados (demasiada gente haciendo preguntas; muy pocas horas de sueño), su boca y orejas, y una gran nariz, todo coronado con un cabello un poco despeinado y en su mayor parte canoso. Y gracias a su nariz, es fácil reconocerlo incluso a primera vista de perfil.
Ambos factores, la relación entre las partes de una totalidad y el punto de vista, según Hinton, resultan cruciales para la forma en la que los humanos vemos. "Si GLOM funciona alguna vez, tendrá la percepción mucho más parecida a la humana que a la de las redes neuronales actuales", señala.
Sin embargo, agrupar las partes en un todo podría ser un problema difícil para los ordenadores, ya que las partes a veces son ambiguas. Un círculo puede ser un ojo, una rosquilla o una rueda. Hinton lo explica así: la primera generación de sistemas de visión de IA trató de reconocer objetos basándose principalmente en la geometría de la relación entre las partes y el todo: la orientación espacial entre las partes y, por otro lado, entre las partes y la totalidad. En cambio, la segunda generación se basó principalmente en el aprendizaje profundo, dejando que la red neuronal se entrenara con grandes cantidades de datos. Con GLOM, Hinton combina los mejores aspectos de ambos enfoques.
"Hay una cierta humildad intelectual en esto, lo cual me gusta", reconoce el fundador y CEO de Robust.AI y conocido crítico de la gran dependencia del aprendizaje profundo, Gary Marcus. Admira la voluntad de Hinton de desafiar el invento que le dio fama, de admitir que no funciona del todo bien. "Es valiente. Y es una gran acción de corrección decir: 'Estoy intentando pensar más allá de los límites'", opina.
La arquitectura de GLOM
Al elaborar GLOM, Hinton intentó modelar algunos de los atajos mentales (estrategias intuitivas o heurísticas) que la gente usa para dar sentido al mundo. "GLOM, y de hecho gran parte del trabajo de Geoff, intenta analizar las heurísticas que las personas parecen tener, construir redes neuronales que podrían tener esas heurísticas, y luego demostrar que, como resultado, las redes funcionan mejor en cuanto la visión", detalla el científico informático Nick Frosst de una start-up de Toronto especializada en lenguaje y quien trabajó con Hinton en Google Brain.
Con la percepción visual, una estrategia consiste en analizar partes de un objeto, como diferentes rasgos faciales, para comprender el objeto en su totalidad. Si se ve una nariz, es posible reconocerla como parte del rostro de Hinton; es la jerarquía de las partes y de la totalidad. Para construir un mejor sistema de visión, Hinton afirma: "Tengo la fuerte intuición de que necesitamos usar las jerarquías de las partes y de la totalidad".
Los cerebros humanos comprenden esta composición de las partes de un todo gracias a la creación de lo que se llama "análisis de árbol", un diagrama ramificado que demuestra la relación jerárquica entre un objeto en su totalidad, sus partes y subpartes. El propio rostro está en la parte superior del árbol, y los ojos, la nariz, las orejas y la boca como sus componentes forman las ramas que se encuentran debajo.
Uno de los principales objetivos de Hinton con GLOM es recrear el análisis de árbol en una red neuronal; lo que las distinguiría de las redes neuronales previas. Por razones técnicas, es difícil llevarlo a cabo. Frosst detalla: "Resulta difícil porque cada persona analiza una imagen individual se mediante un análisis de árbol único, por lo que nos gustaría que una red neuronal hiciera lo mismo. Es complicado conseguir que algo con una arquitectura estática, como una red neuronal, adopte una nueva estructura, un análisis de árbol, para cada nueva imagen que ve". Hinton ha realizado varios intentos. GLOM es una revisión importante de su intento anterior de 2017, combinado con otros avances relacionados con el campo.
"¡Soy parte de una nariz!", el vector de GLOM.
Una forma generalizada de pensar sobre la arquitectura GLOM es la siguiente: la imagen de interés (digamos, una fotografía del rostro de Hinton) se divide en una cuadrícula. Cada región de la cuadrícula es una "ubicación" en la imagen: una ubicación puede contener el iris de un ojo, mientras que otra puede contener la punta de su nariz. Para cada ubicación en la red hay alrededor de cinco capas o niveles. Y con cada nivel, el sistema hace una predicción, con un vector que representa el contenido o la información. En un nivel más bajo, el vector que representa la ubicación de la punta de la nariz podría predecir: "¡Soy parte de una nariz!" Y en el siguiente nivel, al construir una representación más coherente de lo que está viendo, el vector podría predecir: "¡Soy parte de una cara vista de perfil!"
Pero entonces la pregunta sería: ¿coinciden los vectores vecinos en el mismo nivel? Si es así, los vectores apuntan en la misma dirección, hacia la misma conclusión: "Sí, ambos pertenecemos a la misma nariz". O más arriba en el análisis: "Sí, ambos pertenecemos a la misma cara".
En última instancia, para llegar a un consenso sobre la naturaleza de un objeto, sobre lo que es exactamente el objeto, los vectores de GLOM de forma iterativa, ubicación por ubicación y capa sobre capa, crean el promedio con los vectores vecinos al lado, junto con los vectores predichos de niveles superiores e inferiores.
Sin embargo, la red no tiene un "promedio sí o sí" con cualquier cosa cercana, explica Hinton. Crea la media selectivamente, con predicciones vecinas que muestran algunas similitudes. Y detalla: "Esto es bastante conocido en Estados Unidos, se llama cámara de eco. Consiste en aceptar solo las opiniones de las personas que ya están de acuerdo con nosotros; y luego lo que pasa es que se crea una cámara de eco donde un montón de gente tiene exactamente la misma opinión. GLOM utiliza ese enfoque de manera constructiva". En el sistema de Hinton, el fenómeno análogo son esas "islas de acuerdo".
"Geoff es un pensador muy inusual...", Sue Becker.
"Imagine a un grupo de personas en una habitación, gritando ligeras variaciones de la misma idea", explica Frosst, o imagine a esas personas como vectores que apuntan en ligeras variaciones de la misma dirección. "Después de un tiempo, convergerían en una idea y todos la notarían más fuerte, porque la habían confirmado con las demás personas de alrededor", añade. Así es como los vectores de GLOM refuerzan y amplifican sus predicciones colectivas sobre una imagen.
GLOM utiliza estas islas de vectores coincidentes para lograr representar un análisis de árbol en una red neuronal. Mientras que algunas redes neuronales recientes usan la concordancia entre los vectores para la activación, GLOM usa la concordancia para la representación, para construir representaciones de las cosas dentro de la red.
Por ejemplo, cuando varios vectores coinciden en que todos representan parte de una nariz, su pequeño grupo de concordancia representa colectivamente la nariz en el análisis de árbol de la red para la cara. Otro grupo más pequeño de vectores coincidentes podría representar la boca; y el gran grupo en la parte superior del árbol representaría la conclusión emergente de que la imagen en su conjunto es el rostro de Hinton. Su ideólogo añade: "La forma en la que se representa aquí el análisis de árbol es que a nivel de objeto hay una gran isla; las partes del objeto son islas más pequeñas; las subpartes son islas aún más pequeñas, y así sucesivamente".
Imagen número 2 del artículo sobre GLOM de Hinton. Las islas de vectores idénticos (flechas del mismo color) en los distintos niveles representan un árbol de análisis. Créditos: Geoffrey Hinton
Según el viejo amigo y colaborador de Hinton, el científico informático de la Universidad de Montreal (Canadá) Yoshua Bengio, si GLOM consigue resolver el reto de ingeniería de representar un análisis de árbol en una red neuronal, sería una gran hazaña y muy importante para que las redes neuronales funcionen correctamente. Bengio detalla: "Geoff ha tenido intuiciones muy poderosas varias veces en su carrera, muchas de las cuales han demostrado ser correctas. Por eso, le presto atención, especialmente cuando cree tan firmemente en ellas, como es en el caso de GLOM".
La fuerza de la convicción de Hinton se basa no solo en la analogía de la cámara de eco, sino también en las analogías matemáticas y biológicas que inspiraron y justificaron algunas de las decisiones de diseño en la novedosa ingeniería de GLOM.
"Geoff es un pensador muy inusual en el sentido de que es capaz de basarse en conceptos matemáticos complejos e integrarlos con sus obstáculos biológicos para desarrollar teorías. Los investigadores que se centran más en la teoría matemática o en la neurobiología tienen muchas menos probabilidades de resolver el eterno rompecabezas de cómo las máquinas y los humanos pueden aprender y pensar", resalta la antigua alumna de Hinton que es actualmente neurocientífica cognitiva computacional en la Universidad McMaster (Canadá) Sue Becker.
Convertir la filosofía en ciencia
Hasta ahora, la nueva idea de Hinton ha sido bien recibida, especialmente en algunas de las mayores cámaras de eco del mundo. Su creador afirma: "En Twitter, obtuve muchos me gusta". Y un tutorial de YouTube acuñó el término "MeGLOMania".
Hinton es el primero en admitir que, en la actualidad, GLOM es poco más que una reflexión filosófica (estuvo un año estudiando filosofía antes de pasar a la psicología experimental). "Si una idea suena bien a nivel filosófico, es buena. ¿Cómo se podría tener una idea filosófica que suena mal, pero que en realidad resulta cierta? Eso no se consideraría una idea filosófica", explica. Y afirma que, en comparación, la ciencia está "llena de cosas que suenan muy mal" pero que resultan funcionar extraordinariamente bien, como las redes neuronales.
GLOM se ha diseñado para sonar filosóficamente viable. Pero ¿funcionará?
El profesor de aprendizaje automático en la Facultad de Informática de la Universidad de Edimburgo (Reino Unido) Chris Williams espera que GLOM genere grandes innovaciones. No obstante, señala que "lo que distingue a la IA de la filosofía es que podemos usar ordenadores para probar las teorías". Es posible que un error en la idea acabe expuesto, quizás también reparado, en tales experimentos. Y añade: "Por ahora, no creo que tengamos suficiente evidencia para evaluar el significado real de la idea, aunque creo que es muy prometedora".
Los 'inputs' del modelo de prueba de GLOM son diez elipses que forman una oveja o una cara. Créditos: Laura Culp
Algunos de los colegas de Hinton en Google Research en Toronto se encuentran en las primeras etapas de la investigación experimental de GLOM. La ingeniera de software que implementa novedosas arquitecturas de redes neuronales Laura Culp utiliza simulación por ordenador para probar si GLOM puede producir las islas de acuerdo de Hinton para comprender las partes y la totalidad de un objeto, incluso cuando las partes de input son ambiguas. En los experimentos, las partes son 10 elipses, óvalos de diferentes tamaños, que pueden organizarse para formar una cara o una oveja.
Con inputs aleatorios de una elipse u otra, el modelo debería poder hacer predicciones, opina Culp, y "lidiar con la incertidumbre de si la elipse es parte de una cara o de una oveja, y si es la pierna o la cabeza de la oveja". Frente a cualquier alteración, el modelo también debería poder corregirse a sí mismo. El siguiente paso consiste en establecer una línea de base, que indique si una red neuronal de aprendizaje profundo estándar se confundiría con tal tarea.
Hasta el momento, GLOM está muy supervisado: Culp crea y etiqueta los datos, impulsando y presionando al modelo para que encuentre predicciones correctas y tenga éxito con el tiempo. En este estado preliminar, es demasiado pronto para sacar grandes conclusiones.
Culp espera más números. No obstante, Hinton ya está impresionado: "Una versión simple de GLOM puede detectar 10 elipses y distinguir una cara y una oveja según las relaciones espaciales entre las elipses. Esto es complicado, porque una elipse individual no transmite ninguna información sobre a qué tipo de objeto pertenece o qué parte de ese objeto representa".
En general, Hinton está contento con las reacciones. Y concluye: "Solo quería publicarlo para la comunidad, para que cualquiera pudiera probarlo. O para intentar con alguna otra combinación de estas ideas. Y luego eso convertirá la filosofía en ciencia".