Un científico cognitivo cree que el enfoque dominante del aprendizaje de máquinas puede ser mejorado con ideas sobre el aprendizaje infantil
Como cualquier padre orgulloso, Gary Marcus está encantado de hablar sobre los últimos logros de su hijo de dos años. Menos habitual es que crea que la manera en la que aprende y razona su hijo puede contener la clave para lograr que las máquinas sean mucho más inteligentes.
Sentado en la sala de juntas de una bulliciosa incubadora de start-ups en Manhattan (Nueva York, EEUU), Marcus, profesor de 45 años de edad de psicología de la Universidad de Nueva York (EEUU) y fundador de una nueva empresa llamada Geometric Intelligence, describe un ejemplo del ingenio de su hijo. Desde el asiento de atrás del coche, su hijo había visto una señal que contenía el número 11, y puesto que sabía que otros números de doble dígito tienen nombres como "treinta y tres" y "setenta y siete", le preguntó a su padre si el número de la señal se llamaría "unta y uno".
"Había inferido que existe una regla acerca de cómo se forman los números", explica Marcus con una sonrisa. "Si bien lo había sobregeneralizado y se había equivocado, fue un error muy sofisticado".
Marcus tiene una perspectiva muy distinta a muchos de los informáticos y matemáticos que ahora se encuentran en la primera línea de la inteligencia artificial. Ha dedicado décadas al estudio de cómo funciona el cerebro humano y cómo aprenden los niños nuevas habilidades como el lenguaje y la música. Esto le ha llevado a creer que si los investigadores quieren crear una inteligencia artificial realmente sofisticada –que aprenda del mundo con facilidad– tendrán que aprovechar las claves de la manera en que los niños pequeños asimilan nuevos conceptos y los generalizan. Y esa es una de las grandes inspiraciones para su nueva empresa, que dirige durante un año sabático concedido por la universidad. Con su enfoque radical para el aprendizaje de máquinas, Geometric Intelligence intentará crear algoritmos para la IA que puedan aprender de nuevas y mejores formas.
¿Se basa el aprendizaje profundo en un modelo demasiado sencillo? Marcus cree que los informáticos están perdiendo una enorme oportunidad al ignorar muchas sutilezas de la mente humana.
Ahora casi todos los demás que intentan comercializar IA, desde Google a Baidu, se centran en algoritmos que modelan aproximadamente la manera en que cambian las neuronas y las sinapsis del cerebro al procesar nuevas informaciones y experiencias. Este enfoque, conocido como aprendizaje profundo, ha producido unos resultados asombrosos durante los últimos años, sobre todo a medida que el aumento de la cantidad de datos y la mayor potencia del hardware informático han permitido que se amplíe el alcance de los cálculos involucrados. Los métodos de aprendizaje profundo han igualado –o incluso superado– la precisión humana en el reconocimiento de caras o la identificación de palabras habladas en grabaciones de audio. Google, Facebook y otras grandes empresas están usando este enfoque a casi cualquier tarea en la que resulte útil identificar un patrón entre vastas cantidades de datos, como refinar los resultados de búsqueda o enseñar los ordenadores a mantener una conversación (ver El hombre que enseña a las máquinas a entender el lenguaje).
Pero, ¿se basa el aprendizaje profundo en un modelo del cerebro demasiado sencillo? Geometric Intelligence –efectivamente, Marcus– apuesta por que los informáticos están perdiendo una enorme oportunidad al ignorar muchas sutilezas de la manera en la que funciona el cerebro humano. En sus escritos, comparecencias públicas y comentarios ante la prensa, Marcus puede ser un crítico muy duro del entusiasmo por el aprendizaje profundo. Pero a pesar de su enfoque de vez en cuando abrasivo, sí ofrece una valiosa perspectiva alternativa. Entre otras cosas, señala que estos sistemas necesitan ser alimentados por muchos miles de ejemplos para aprender algo. Los investigadores que intentan desarrollar máquinas capaces de conversar de una manera natural lo abordan al introducir innumerables transcripciones de conversaciones previas a los sistemas. Esto bien podría producir algo capaz de mantener conversaciones básicas, pero la ciencia cognitiva sugiere que esta no es la manera en la que la mente humana adquiere el lenguaje.
En cambio, la capacidad de un niño de dos años de aprender al extrapolar y generalizar –aunque de forma imperfecta a veces– es mucho más sofisticada. Está claro que el cerebro es capaz de más que sólo reconocer patrones dentro de grandes cantidades de datos: tiene una manera de adquirir abstracciones más profundas a partir de relativamente pocos datos. Dar a las máquinas incluso una capacidad básica para aprender tales abstracciones rápidamente representaría un importante logro. Un coche autónomo podría no necesitar recorrer millones de kilómetros para aprender a lidiar con unas nuevas condiciones de carretera. O un robot podría identificar y recoger un frasco de pastillas que sólo se le había enseñado un par de veces. En otras palabras, estas máquinas pensarían y se comportarían de una forma un poco más parecida a la nuestra.
Con un peinado algo desarreglado y barba de varios días, Marcus parece haberse adaptado bien a su nuevo papel de emprendedor. Desde el espacio de su empresa, un puñado de programadores trabajan en caros ordenadores con potentes procesadores gráficos. En un momento determinado, cuando Marcus quiso demostrar algo del funcionamiento del cerebro, alargó la mano para coger lo que creía que era un rotulador de pizarra. Resultó ser una bala extraviada de una pistola de juguete Nerf.
Marcus habla deprisa, tiene un rápido sentido del humor y una sonrisa pícara. Se niega a explicar exactamente en qué productos y aplicaciones trabaja su empresa. Teme que una gran empresa como Google pueda sacar ventaja al hacerse con los conocimientos fundamentales de sus avances. Pero admite que ha desarrollado algoritmos que pueden aprender a partir de unas cantidades de datos relativamente pequeñas y hasta extrapolar y generalizar, de una manera burda, a partir de la información recibida. Marcus dice que su equipo ha probado estos algoritmos con tareas en las que destacan los enfoques de aprendizaje profundo, y han demostrado ser superiores en varios casos. "Sabemos algo sobre las propiedades del cerebro", explica. "Y intentamos, de alguna manera, hacer una ingeniería inversa de esas propiedades".
Niño prodigio
Marcus, que nació en Baltimore, Maryland (EEUU), se quedó fascinado por la mente humana durante el instituto, después de leer The Mind’s I, una colección de ensayos sobre la consciencia editada por el científico cognitivo Douglas Hofstadter y el filósofo Daniel Dennett, además del libro metafórico de Hofstsadter sobre las mentes y las máquinas, Gödel, Escher, Bach. Ya entonces, escribió un programa informático diseñado para traducir del latín al inglés. La dificultad de la tarea hizo que se diera cuenta de que recrear nuestra inteligencia en las máquinas con seguridad requeriría un entendimiento mucho mayor del fenómeno que se produce dentro de la mente humana.
El programa de latín-inglés de Marcus no resultó particularmente práctico, pero ayudó a convencer a Hampshire College (EEUU) para aceptarle en una carrera universitaria un par de años antes de lo habitual. A los alumnos de esa pequeña escuela de artes liberales radicada en Amherst, Massachusetts (EEUU), se les alienta a diseñar sus propios programas de licenciatura. Marcus se dedicó al estudio del puzle de cognición humana.
La década de 1980 fue una época interesante para el campo de la IA. Se estaba dividiendo entre los que buscaban producir máquinas inteligentes al copiar la biología básica del cerebro y los que intentaban imitar funciones cognitivas superiores con el uso de ordenadores convencionales y software. Los trabajos tempranos de IA se basaron en el segundo enfoque, utilizando lenguajes de programación para la lógica y las representaciones simbólicas. Los pájaros son el ejemplo clásico. El hecho de que los pájaros puedan volar podría ser codificado como un conocimiento. Entonces, si a un ordenador se le dijese que un estornino es un pájaro, deduciría que los estorninos deben de poder volar.
Varios proyectos importantes se lanzaron con el objetivo de codificar los conocimientos humanos en vastas bases de datos, con la esperanza de que surgiera con el tiempo alguna forma de inteligencia compleja. Pero, mientras que se hicieron algunos progresos, el enfoque demostró ser cada vez más complejo y difícil de manejar. Las reglas a menudo tienen excepciones; no todos los pájaros pueden volar. Y mientras que los pingüinos son completamente terrestres, un pájaro enjaulado y un pájaro con un ala rota no pueden volar por motivos bien distintos. Resultó imposible codificar todas las excepciones a tales reglas. La gente parece aprender tales excepciones rápidamente, pero los ordenadores se resistían. (Por supuesto, las excepciones, incluido "once" en lugar de "unta y uno", pueden resultar confusas para los humanos también).
Foto: Gary Marcus
Alrededor del tiempo en el que Marcus se preparaba para ingresar en Hampshire College, un grupo de psicólogos elaboraron un enfoque que amenazaba con poner la IA patas arriba. Corría la década de 1940, cuando Donald Hebb presentó una teoría sobre cómo los nervios del cerebro aprenden a reconocer una información. Demostró cómo el disparo repetitivo de las neuronas podría fortalecer las conexiones entre ellas y aumentar así las probabilidades de que se disparasen de nuevo al recibir la misma información. Algunos investigadores desarrollaron ordenadores con un diseño similar. Pero las capacidades de esas llamadas redes neuronales eran limitadas hasta 1986, cuando un grupo de investigadores descubrió nuevas maneras de aumentar su capacidad de aprendizaje. Estos investigadores también demostraron cómo emplear las redes neuronales para varias cosas, desde reconocer patrones dentro de datos visuales hasta aprender el tiempo pretérito de los verbos en inglés. Al entrenar estas redes con suficientes ejemplos, forman las conexiones requeridas para la ejecución de tales tareas.
Denominaron su enfoque como "conexionismo" y argumentaron que unas redes neuronales suficientemente grandes podrían recrear la inteligencia. Aunque sus ideas no fueron acogidas enseguida, con el tiempo dieron paso al aprendizaje profundo de nuestra era (ver El aprendizaje profundo quiere revolucionar todas las industrias).
Justo en el momento que despegaba el conexionismo, Marcus decidía dónde cursar sus estudios de postgrado. Por entonces asistió también a una ponencia impartida por el científico cognitivo de renombre Steven Pinker, entonces profesor del Instituto Tecnológico de Massachusetts (MIT, EEUU). Pinker habló de la manera en la que los niños aprenden y utilizan los verbos. Argumentaba que no parecen adquirir el tiempo pasado de los verbos mediante la pura memorización de ejemplos y la generalización de otros. Pinker mostró pruebas de que los niños detectan rápidamente las reglas del lenguaje y después generalizan a otros casos. Él, entre otros, cree que en esencia la evolución ha dado forma a las redes neuronales que se encuentran en el cerebro humano para proporcionar las herramientas necesarias para una inteligencia más sofisticada.
Un sistema de aprendizaje profundo puede ser entrenado para reconocer determinadas especies de pájaros, pero necesitaría millones de imágenes de muestra y no sabría nada acerca de por qué un pájaro no puede volar.
Marcus se unió al laboratorio de Pinker en el MIT a la edad de 19, y Pinker le recuerda como un alumno precoz. "Le asigné a un proyecto que analizaba una sencilla hipótesis de sí o no con un pequeño conjunto de datos del habla grabada de tres niños", recuerda en un correo electrónico. "Varios días después había realizado un análisis exhaustivo del habla de 25 niños que probaba media docena de hipótesis y se convirtió en la base de un importante monográfico de investigación".
Como alumno de postgrado, Marcus recopiló más pruebas para apoyar las ideas de Pinker sobre el aprendizaje y añadió algunos descubrimientos propios. Fue pionero en el análisis informatizado de grandes cantidades de datos de investigación cognitiva al estudiar miles de grabaciones del habla de los niños para encontrar ejemplos de errores como "rompido" y "decido" en lugar de "roto" y "dicho". Esto pareció confirmar que los niños entienden las reglas de la gramática y luego las aplican a palabras nuevas a la vez que aprenden las excepciones a estas reglas de memoria.
A partir de estas investigaciones, Marcus empezó a cuestionar la creencia conexionista de que la inteligencia en esencia surgiría de redes neuronales más grandes, se centró en cambio en las limitaciones y peculiaridades del aprendizaje profundo. Un sistema de aprendizaje profundo podría ser entrenado para reconocer determinadas especies de pájaros en imágenes o grabaciones de vídeo, y distinguir entre los que pueden volar y los que no. Pero necesitaría millones de imágenes de muestra para hacerlo, y no sabría nada acerca de por qué un pájaro determinado no puede volar.
De hecho, el trabajo de Marcus con niños le llevó a una conclusión importante. En un libro publicado en 2001 titulado The Algebraic Mind (La mente algebraica), sostiene que la mente humana en desarrollo genera reglas a partir de lo aprendido. En otras palabras, el cerebro utiliza algo como un sistema de aprendizaje profundo para ciertas tareas, pero también almacena y manipula reglas acerca de cómo funciona el mundo para que pueda sacar conclusiones útiles de unas pocas experiencias.
Esto no significa exactamente que Geometric Intelligence esté intentando imitar la forma en la que las cosas suceden dentro del cerebro. "En un mundo perfecto, sabríamos cómo lo hacen los niños", dice Marcus. "Sabríamos qué circuitos del cerebro participan en el proceso, y las computaciones que realizan. Pero la neurociencia sigue siendo un misterio". Más bien deja caer que la empresa está empleando una caja sorpresa de técnicas, incluidas algunas compatibles con el aprendizaje profundo, para intentar recrear el aprendizaje humano.
Sentido común
El trabajo de Geometric Intelligence es sin duda significativo. Mezclar ideas nuevas de la ciencia cognitiva y la neurociencia resultará indudablemente importante para el futuro de la inteligencia artificial. Aun así, después de reunirme con Marcus, me sentí un poco como un niño pequeño que intentaba entender algunos dígitos desconocidos. ¿Cómo se plasmará todo esto? Necesitaba que uno de los colaboradores de Marcus me aportara otra pieza del puzle de lo que está desarrollando la empresa.
Zoubin Ghahramani, un profesor de ingeniería informática de la Universidad de Cambridge (Reino Unido), es cofundador de Geometric Intelligence. Ghahramani se crió en la Unión Soviética e Irán antes de emigrar a España y Estados Unidos, y aunque tiene la misma edad que Marcus, llegó aL MIT un año después. Pero puesto que los dos comparten cumpleaños, acabaron celebrando fiestas y haciendo vida social juntos.
Ghahramani está centrado en utilizar la probabilidad para volver más inteligentes a las máquinas. La matemática subyacente es complicada, pero la razón es sencilla: la probabilidad proporciona un modo de lidiar con la incertidumbre o las informaciones incompletas. Los pájaros sin vuelo pueden, de nuevo, ayudar a ilustrar esto. Un sistema basado en las probabilidades puede asignar una alta probabilidad al concepto de que el pájaro es capaz de volar. Entonces, cuando aprende que un avestruz es un pájaro, dará por hecho que probablemente pueda volar. Pero otras informaciones, como el hecho de que un avestruz adulto suele pesar más de 200 libras (unos 91 kilos), podrían cambiar ese supuesto y reducir la probabilidad de que un avestruz pueda volar a cerca de cero. Este enfoque flexible puede impregnar las máquinas con algo parecido a una forma burda de sentido común, una cualidad que resulta fundamentalmente importante para la inteligencia humana.
Hablando por Skype desde su despacho en Cambridge (Inglaterra), Ghahramani sugiere una aplicación concreta en la que él y Marcus tienen el punto de mira: entrenar robots para operar en entornos complejos. En las investigaciones de robótica, "adquirir experiencia resulta caro", afirma. "Si quieres conseguir que un robot aprenda a andar, o que un coche autónomo aprenda a conducir, no puedes presentarle con un conjunto de un millón de ejemplos donde vuelca y se rompe o provoca accidentes. Simplemente no funciona".
Dado que los algoritmos probabilísticos y otras tecnologías en vías de desarrollo en Geometric Intelligence serían compatibles con el aprendizaje profundo, es posible que algún día una empresa de la calaña de Google o Facebook adquiera la compañía y la incluya en su portfolio de IA. Y a pesar de las críticas de Marcus al conexionismo y la fiebre del aprendizaje profundo, sospecho que estaría bastante satisfecho con un resultado así.
Incluso si llegara a suceder eso, sería significante si Marcus puede demostrar que el sistema más milagroso de aprendizaje jamás conocido –la mente humana– es clave para el futuro de la IA. Marcus me dio otro ejemplo del ingenio de su hijo. "Mi mujer le preguntó, '¿Cuál de tus amigos animales irá al colegio hoy?'", relata Marcus. "Y él contesta, 'Conejito, porque Osito y Ornitorrinco están comiendo'. Entonces mi mujer va a su cuarto y, efectivamente, esos peluches se encuentran sobre una silla 'comiendo'".
A Marcus le maravilla que su hijo de dos años pueda razonar acerca de las reglas del comportamiento humano –darse cuenta de que o vas a la escuela o haces otra cosa– y construir una frase completamente nueva basada en su entendimiento creciente de cómo funciona el lenguaje. Después de una pausa y una sonrisa, añade: "Pues, muéstrame el sistema de inteligencia artificial que pueda hacer eso".