Otros

Cómo programar a un ordenador para que reconozca a un gato bebiendo agua

La Fundación Nacional de Ciencia de EEUU destina 2 millones de dólares para revolucionar la inteligencia artificial

por Larry Hardesty | traducido por Lía Moya
29 Abril, 2014

Tomaso Poggio.

En el verano de 1955, un cuarteto de importantes matemáticos estadounidenses (aún no se había acuñado el término "informático") propuso una conferencia en el Dartmouth College (EEUU) para investigar un tema que denominaron "inteligencia artificial" (IA). "El estudio parte de la conjetura de que cada aspecto del aprendizaje o cualquier otra característica de la inteligencia se podría describir, en principio, con la precisión suficiente como para crear una máquina capaz de simularla", rezaba la propuesta.

La conferencia, que duró un mes y se celebró en 1956, se considera la génesis de la investigación en inteligencia artificial. Tres de los autores de la propuesta, —el inventor del lenguaje de programación LISP, John McCarthy; el pionero en teoría de la información, Claude Shannon, y el futuro ganador del premio Turing Marvin Minsky— acabaron dando clases en el Instituto Tecnológico de Massachusetts (MIT, EEUU). McCarthy y Minsky (quien sigue formando parte del claustro después de 55 años), fundaron el Laboratorio de Inteligencia Artificial del MIT

Para 1967 los avances en computación habían sido tan rápidos, que Minsky, en su libro Computation: Finite and Infinite Machines (Computación: máquinas finitas e infinitas), se atrevió a escribir: "Estoy convencido de que dentro de una generación pocos compartimentos del intelecto humano quedarán fuera de la esfera de la máquina, los problemas relacionados con la creación de 'inteligencia artificial' se habrán solucionado prácticamente del todo".

Evidentemente, la predicción de Minsky era demasiado optimista. Resulta que ganar al ajedrez, algo que los primeros investigadores en IA creyeron que era la aplicación paradigmática de la inteligencia, es un problema computacional mucho más fácil de resolver que distinguir palabras habladas o reconocer caras, por ejemplo.

En las décadas de 1980 y 1990, la dificultad para replicar la inteligencia humana quedó clara y la IA llegó a significar algo muy distinto: sistemas informáticos prácticos a medida basados muchas veces en el "aprendizaje automático", que aplica el análisis estadístico a grandes cantidades de ejemplos propuestos para entrenar a la máquina. Este es el método ha dado lugar a los sistemas de reconocimiento de voz y los traductores de texto automáticos.

Ahora los investigadores del MIT creen que es tiempo de resucitar las grandes ambiciones de la IA, con la esperanza de poder desarrollar mejores terapias para desórdenes neurológicos, y sistemas informáticos con una intuición parecida a la humana capaces de anticipar nuestras necesidades. Y la Fundación Nacional para la Ciencia (NSF, por sus siglas en inglés) parece estar de acuerdo. En septiembre anunció una subvención de 2 millones de dólares (unos 1,45 millones de euros) para el Centro de Cerebros, Mentes y Máquinas (CBMM, por sus siglas en inglés), que tiene su sede en el Instituto McGovern para Investigación Cerebral del MIT. El MIT pone 12 investigadores, otros seis vienen de la Universidad de Harvard (EEUU) y cinco más de otras instituciones.

El CBMM lo dirige el profesor de ciencias del cerebro y comportamiento humano e investigador principal tanto del Instituto McGovern como del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL, por sus siglas en inglés), Tomaso Poggio. Sus dos cargos ilustran la principal premisa detrás del nuevo centro: que progresaremos mucho más rápido en la comprensión de la inteligencia humana si combinamos los enfoques computacionales, biológicos y psicológicos en lugar de explorarlos aisladamente.

"En vez de confiar sólo en la informática, como sucedió hace 50 años, este centro apuesta por que para reproducir la inteligencia humana hay que comprender mejor el cerebro y el conocimiento", sostiene Poggio.

El profesor del Departamento de Ingeniería Eléctrica e Informática y coordinador de investigación del CBMM Patrick Winston añade que las tecnologías para investigar esta cuestión han mejorado sensiblemente en los últimos años. Para empezar, explica Winston, "la computación es gratis, cualquiera que sea el tipo de computación que hay que hacer, se puede hacer". Y continúa: "La fMRI (imagen por resonancia magnética funcional para estudiar la actividad cerebral) es algo rutinario". También destaca la estimulación magnética trascraneal, capaz de interrumpir la actividad en regiones concretas del cerebro durante pruebas cognitivas, y la optogenética, una técnica que usa la luz para activar o silenciar de forma selectiva neuronas modificadas genéticamente. Uno de los pioneros en investigación en optogenética es el profesor del Media Lab Ed Boyden , que es investigador principal tanto del Instituto McGovern como del nuevo centro.

La investigación allí se organiza en torno a varios temas principales, o "pilares": la inteligencia visual, que implica la integración de la visión, el leguaje y las habilidades motrices, abarcará desde investigaciones en neurobiología hasta ingeniería eléctrica; el desarrollo de la inteligencia; y la inteligencia social. Poggio, que es uno de los investigadores principales en inteligencia visual, también dirigirá el desarrollo de una plataforma teórica que pretende enlazar el trabajo de todas las áreas.

Dentro de cada pilar, los investigadores del CBMM trabajan para definir una serie de preguntas base que puedan usar para evaluar su progreso. Poggio ofrece un ejemplo, relacionado con su propio trabajo anterior sobre el sistema visual. Al presentársele una imagen de personas interactuando, un sistema informático inteligente debería poder ofrecer respuestas plausibles a cinco preguntas, en orden de dificultad creciente: ¿Qué se ve en la imagen? ¿Quién está en ella? ¿Qué hacen las personas? ¿Quién hace qué a quién ? y ¿Qué pasará a continuación?

Invariantes
Crear un marco teórico para explorar todas las preguntas que rodean a la inteligencia humana supone todo un reto, pero las investigaciones de Poggio respecto a cómo responde el cerebro la primera pregunta de su lista nos ofrece un esbozo del aspecto que podría tener dicho marco.

El reconocimiento de objetos, desarrollar sistemas informáticos capaces de responder a la pregunta ¿Qué se ve en la imagen? es un campo en auge de la investigación en inteligencia artificial. Normalmente los sistemas de reconocimiento de objetos usan algún tipo de aprendizaje automático. Primero seres humanos etiquetan imágenes de ejemplo, indicando qué objetos aparecen dónde, y el sistema intenta identificar algunas características comunes compartidas por todas las imágenes del objeto. "Pero eso es muy distinto al aprendizaje humano o el aprendizaje animal", afirma. "Cuando un niño aprende a reconocer un oso o un león, no tienes que enseñarle imágenes de un león un millón de veces, basta con dos o tres".

Poggio cree que, al contrario que los sistemas de aprendizaje automático, el cerebro debe de representar los objetos de forma "invariante" en el sentido informático: la representación es la misma independientemente del tamaño que tenga el objeto en la representación, de dónde esté colocado en el campo visual o si de está rotado. Y también cree tener una teoría plausible sobre en qué puede consistir esa representación.

La teoría de Poggio requiere que el cerebro, o un sistema informático que intente simular al cerebro, almacene una plantilla de varios objetos sometidos a cada tipo de variación: tamaño, localización y rotación sobre el plano. El cerebro podría, por ejemplo, almacenar unas decenas de imágenes de una cara humana en una rotación de 360º.

Un objeto desconocido se representaría como una colección de "productos escalares" (una computación estándar del álgebra lineal) entre su imagen y las plantillas. Esa colección se mantendría igual independientemente del tamaño del objeto, su localización o su orientación.

Un atractivo de la teoría es que el producto escalar simplifica la comparación de dos series de datos complejos, como las imágenes visuales, a un único número. Las colecciones de productos escalares, incluso para múltiples plantillas, no ocuparían demasiado espacio en la memoria. Otro de los atractivos, según Poggio, es que "los productos escalares son una de las formas más fáciles, si no la más fácil, de computación para una neurona".

En los experimentos es posible que el sistema de Poggio no lo haga mejor que los sistemas de aprendizaje automático. Pero son necesarios muchísimos menos ejemplos de muestra, lo que sugiere que replica mejor el proceso del cerebro. Y para la mayoría de las tareas computacionales, el enfoque seguido por el cerebro suele ser el mejor.

Poggio cree que las colecciones de productos escalares también podrían servir para anclar conceptos más abstractos. Plantillas que incluyan grupos de objetos con distintos tamaños, organizados como los puntos sobre la cara de un dado, o en una línea, o en un círculo, podrían apoyar la noción de número; una plantilla de líneas paralelas observadas desde distintas perspectivas podría apoyar las nociones de paralelismo o perspectiva. "Quizá haya cosas más interesantes que explorar", afirma.

Pensamiento abstracto
Igual que Poggio, Josh Tenenbaum es profesor en el Departamento del Cerebro y Ciencias Cognitivas (BCS, por sus siglas en inglés) e investigador principal de CSAIL. Aunque dirige el pilar de desarrollo del CBMM, que se concentra en conocimiento intuitivo de la física que incluso los niños más pequeños demuestran tener, también ha hecho investigaciones que podrían contribuir al trabajo teórico que dirige Poggio.

Tenenbaum explica que las primeras investigaciones en IA se centraban en construir un lenguaje matemático que pudiera codificar afirmaciones como "Los pájaros vuelan" y "Las palomas son pájaros". Si el lenguaje era lo suficientemente riguroso, pensaban los investigadores, los algoritmos podrían peinar las afirmaciones introducidas para calcular todas las deducciones válidas.

Pero buscar el sentido a las afirmaciones lingüísticas resultó necesitar muchísima más información de fondo de lo que se esperaba. No todos los pájaros vuelan, por ejemplo. Y entre los pájaros que no vuelan hay una diferencia entre un petirrojo enjaulado y un petirrojo con un ala rota, y otra diferencia entre cualquier clase de petirrojo y un pingüino. Codificar a mano una cantidad suficiente de estas excepciones de sentido común para permitir incluso las más rudimentarias deducciones, demostró ser una tarea titánica

En el caso del aprendizaje automático, por el contrario, al ordenador se le suministran muchos ejemplos de algo y se le deja deducir, por sí mismo, qué tienen en común esos ejemplos. (Si se le proporcionan un millón de imágenes de un león, un algoritmo de aprendizaje automático puede cuantificar sus propias suposiciones: el 77% de las imágenes con estas características visuales son imágenes de leones). Pero aunque este método puede funcionar relativamente bien en el caso de problemas claramente definidos: identificar imágenes de pájaros, por ejemplo, surgen problemas en el caso de conceptos más abstractos como el vuelo, una capacidad que comparten pájaros, helicópteros, cometas y superhéroes. E incluso el vuelo es algo concreto en comparación con la gramática o la maternidad, por ejemplo.

Tenenbaum y sus alumnos han desarrollado un nuevo tipo de herramienta llamada lenguaje de programación probabilístico que combina lo mejor de la IA antigua y la actual. Al igual que los primeros lenguajes de IA, incluye reglas de deducción. Pero esas reglas son probabilísticas. Si se le dice que el casuario es un pájaro, un programa escrito con el lenguaje de Tenenbaum podría concluir que es probable que los casuarios vuelen. Pero si al programa después se le dijera que los casuarios pueden pesar casi 100 kilos, podría revisar sus probabilidades a la baja.

"En las dos épocas anteriores de IA, la mayor diferencia eran los símbolos versus la estadística", explica Tenenbaum. "Una de las cosas que hemos resuelto por la parte matemática es cómo combinarlos, cómo hacer inferencia estadística y razonamiento probabilístico con estos lenguajes simbólicos".

Leer a las personas
La segunda de las cinco preguntas base de Poggio, ¿Quién está en la imagen? se asocia desde hace mucho con el trabajo de la profesora del BCS Nancy Kanwisher, conocida por usar fMRI para identificar y analizar una región del cerebro dedicada a la percepción de caras.

Kanwisher dirige el pilar de inteligencia social del CBMM, que ella considera la extensión natural de su trabajo anterior. "Cuando ves una cara, te interesa algo más que la información demográfica básica: de qué persona en concreto se trata, si es hombre o mujer, o cuántos años tiene", afirma. "Puedes distinguir no solo si una persona está contenta o triste, sino también si es asertiva o vacilante, si es exuberante o pasiva, hay un rico espectro de cosas que podemos ver en una cara con un breve vistazo".

Kanwisher afirma que los humanos, además, pueden deducir gran cantidad de información sobre el estado de ánimo, las intenciones y las relaciones con los demás de la gente partiendo del lenguaje corporal, que tiene la ventaja de adaptarse a los modelos de computación. También destaca el trabajo de la fallecida psicóloga social de la Universidad de Stanford (EEUU) Nalini Ambady, quien desarrolló la teoría de las "opiniones breves".

"Grabó a profesores ayudantes de clases de Harvard delante de sus clases al principio del semestre", explica Kanwisher. "Después mostraba segmentos muy breves de estos vídeos a sujetos en experimentos de psicología y pedía a los sujetos que evaluaran la eficacia del profesor. Lo único que tienen son unos segundos de una persona en una clase hablando con el alumnado, ni siquiera se oye lo que dicen. Y descubrió que esas evaluaciones estaban muy correlacionadas con las evaluaciones hechas por los alumnos del profesor".

Kanwisher explica que el primer proyecto del pilar de la inteligencia social del CBMM, será diseñar una serie de tareas experimentales que permitan a los investigadores cuantificar la percepción social humana. Una vez que los investigadores establezcan una línea base, pueden estudiar cosas como cómo se desarrolla el desempeño de las tareas a lo largo de la infancia, o en qué varía el desempeño de los niños autistas respecto a los demás niños. También podrán identificar las regiones del cerebro involucradas en la percepción social usando la fMRI para medir la actividad neuronal, o la estimulación magnética transcraneal para interrumpir el desempeño. Después de recoger todos estos datos intentarán hacer un modelo computacional de qué hace exactamente el cerebro.

Sigue la historia
Las últimas preguntas de la lista de Poggio: ¿Quién hace qué a quién? y ¿Qué pasará a continuación? fascinan a Patrick Winston. Él cree que la característica que define la inteligencia humana es la capacidad de contar y comprender historias. Esa capacidad tiene un papel incluso en el etiquetado de imágenes. Como le gusta señalar, un sujeto humano identificará una imagen de un hombre que se lleva un vaso a los labios como la imagen de un hombre bebiendo Si el hombre sujeta el vaso a unos centímetros de distancia, está brindando. Pero un humano también identificará una imagen de un gato con la cara hacia un grifo que gotea como una forma de beber. "Tienes que pensar lo que ves ahí como una historia", afirma Winston. "Se les adjudica la misma etiqueta porque son la misma historia, no porque sean iguales".

Ese es uno de los motivos para dedicar un pilar de investigación a la integración de visión, lenguaje y habilidades motrices sociales. Y Winston lo ilustra con otro ejemplo. Describe un experimento llevado a cabo por la psicóloga del desarrollo Elizabeth Spelke, antigua profesora del MIT que ahora trabaja en la Universidad de Harvard y es una de las investigadoras principales en el pilar de desarrollo. A Spelke le intrigaron unos experimentos en los que los investigadores colocaron a ratas sobre una plataforma giratoria en el centro de un cuarto. Podían ver comida colocada en una esquina de la sala, pero después se ocultaba a la vista tras un biombo. Se colocaban biombos idénticos en las otras tres esquinas y se giraba la plataforma. Spelke decidió ampliar ese estudio a niños y adultos humanos, escondiendo un juguete o un llavero en vez de comida.

En el caso de todos los animales, los niños y los adultos, una vez que la plataforma dejaba de girar, el sujeto estudiado tenía las mismas probabilidades de ir hacia la esquina que contenía el objeto como a la que estaba en su diagonal, que tenía la misma relación con el sujeto. Ambos grupos de investigadores también variaron el experimento, pintando de otro color una de las paredes adyacentes a la esquina donde estaba colocado el objeto. Los animales y los niños pequeños seguían escogiendo bien la esquina correcta, bien la contraria con la misma probabilidad, sin embargo los adultos ya podían encontrar el objeto con precisión.

Y aquí es donde las cosas se ponen interesantes. Si se pedía a los adultos que escucharan un texto y lo repitieran antes de dirigirse hacia el objeto, volvían a confundir las esquinas diametralmente opuestas. Escuchar y recitar el texto "consume el procesador humano del lenguaje y los reduce al nivel de una rata", afirma Winston. "Después, los adultos explicaron que podían ver la pared azul, pero no podían usarla".

Para responder a las preguntas más difíciles de la lista de preguntas básicas de los investigadores del CBMM probablemente harán falta mucho más que los cinco años que cubre la subvención inicial del NSF. Pero Poggio afirma que "es el momento de volver a intentarlo. Han pasado 50 años. No sabemos si esta vez funcionará. Pero si no lo intentamos, no lo sabremos".

Otros

Cómo programar a un ordenador para que reconozca a un gato bebiendo agua

Robotaxis

Combustible más limpio para aviones

Robots que aprenden rápido