Inteligencia Artificial

El hombre que convenció a Stephen Hawking de que los robots no van a destruirnos

Demis Hassabis es el responsable de la histórica victoria de AlphaGo cuyo objetivo es que los softwares de inteligencia artificial de Google logren dominar el funcionamiento del cerebro

por Tom Simonite | traducido por Teresa Woods
05 Abril, 2016

Paredes acolchadas, iluminación lúgubre y un techo con un papel pintado con un estampado de flores. No parece lugar para realizar descubrimientos capaces de alterar la trayectoria de la sociedad. Pero dentro de estos pasillos simulados y claustrofóbicos, Demis Hassabis cree que puede sentar las bases para un software lo suficientemente inteligente como para resolver los problemas más grandes de la humanidad.

El responsable, cuyo carácter sensato parece enmascarar la audacia de sus ideas, confirma: "Nuestro objetivo es muy grande". Hassabis lidera un equipo de aproximadamente 200 informáticos y neurocientíficos de Google DeepMind, el grupo de Londres (Inglaterra) responsable del software AlphaGo que venció al campeón mundial de Go en una serie de cinco partidas este mes, logrando así un hito de la computación (ver IBM derrotó a Kasparov y ahora Google vence al campeón mundial de Go).

Hassabis describe su esfuerzo como el programa Apolo de la inteligencia artificial (IA), pues aspira a "resolver la inteligencia, y después aplicarla para resolver todo lo demás". Lo que hoy se considera un software inteligente está especializado en realizar una tarea determinada, como reconocer caras. Hassabis quiere crear lo que denomina una inteligencia artificial genérica. Una que, al igual que un humano, podría aprender a asumir casi cualquier tarea. Imagina que haría cosas tan diversas como mejorar la medicina al formular y probar teorías médicas y corretear por ahí en unos ágiles cuerpos de robot.

Lograr eso requerirá que el software de DeepMind explore más allá del mundo ordenado de piedras negras y blancas del Go. El programa necesita hacer frente al complejo mundo real, o empezar con una aproximación pixelada y lúgubre de él. El mundo simulado de DeepMind se llama Labyrinth (Laberinto), y la empresa lo utiliza para que su software se enfrente a tareas cada vez más complicadas, como recorrer laberintos. Eso debería impulsar a los investigadores de DeepMind a desarrollar un software aún más inteligente, y lograr que asuma decisiones y problemas más difíciles. Para ello emplean técnicas demostradas por AlphaGo y otro software anterior que aprendió a jugar a unos videojuegos de Atari de la época de la década de 1980 como Invasores Espaciales mejor que un humano. Pero para triunfar, Hassabis también tendrá que ingeniar soluciones para algunos retos duraderos de la IA.

Mejora personal

Hassabis, de 39 años de edad, lleva trabajando en crear inteligencia durante gran parte de su vida. Un prodigio del ajedrez que se graduó en el instituto antes de tiempo para forjarse una carrera exitosa dentro de la industria de los videojuegos, después obtuvo un doctorado en neurociencia y publicó una investigación de alto nivel sobre la memoria y la imaginación.

Hassabis cofundó DeepMind en 2011 para transferir a las máquinas algo de lo que había aprendido sobre la inteligencia biológica. La empresa reveló un software que aprendió a dominar juegos de Atari en diciembre de 2013, y a principios de 2014 fue adquirida por Google por unos 400 millones de libras, lo que equivale a unos 575 millones de dólares o unos 506 millones de euros (ver Así es el hombre que diseña la inteligencia de Google). DeepMind creció deprisa, con la contratación de docenas de investigadores y la publicación de veintenas de trabajos en importantes conferencias de aprendizaje de máquinas y de IA. El pasado mes de enero, reveló la existencia de AlphaGo, y el hecho de que había vencido al mejor jugador europeo de Go en octubre de 2015. En marzo, AlphaGo ganó al campeón del mundo, Lee Sedol (ver Cinco lecciones del histórico triunfo de AlphaGo sobre la inteligencia humana).

Foto: Demis Hassabis lidera un grupo dentro de Google que intenta "resolver la inteligencia". Crédito: Google DeepMind.

Los juegos de Atari y Go son muy diferentes, pero DeepMind abordó ambos bajo el mismo enfoque, ligeramente inspirado en la manera en que los animales aprenden nuevos trucos mediante un sistema de recompensas y castigos por parte de un entrenador. Se trata del aprendizaje reforzado, como se ha denominado, en el que el software es programado para explorar un entorno nuevo y ajustar su comportamiento para aumentar algún tipo de recompensa virtual.

El software de DeepMind para Atari, por ejemplo, se programó únicamente para poder controlar y visualizar la pantalla de juego, y con el objetivo de aumentar su puntuación. Para docenas de títulos, varias horas de práctica bastan para que el software gane por sus propios medios a un experto humano.

AlphaGo combina el aprendizaje reforzado con otros componentes, como un sistema que aprendió a evaluar posibles movimientos al analizar decenas de millones de disposiciones de tablero de partidas de unos jugadores expertos en Go, y un mecanismo de búsquedas que selecciona los movimientos más prometedores. Pero fue el aprendizaje reforzado lo que habilitó a AlphaGo para alcanzar un nivel lo suficientemente alto como para ganar a los campeones tras jugar contra sí mismo millones de veces.

Hassabis cree que el enfoque del aprendizaje reforzado representa la clave para conseguir que el software de aprendizaje de máquinas realice cosas mucho más complejas que los trucos que hace hoy, como transcribir nuestras palabras, o entender el contenido de las fotos. El experto explica: "No creemos que observar sea suficiente para la inteligencia, también hay que actuar. Es la única manera de entender realmente el mundo".

El entorno 3D de DeepMind, Laberinto, que se basó en una réplica de fuente abierta del videojuego de disparos en primera persona Quake, está diseñado para proporcionar los próximos pasos para probar esa idea. La empresa ya lo ha utilizado para poner a prueba a los agentes con un juego en el que han de explorar unos laberintos generados al azar durante 60 segundos, ganando puntos al recoger manzanas o encontrar una salida (que lleva a otro laberinto generado al azar). Los futuros retos podrían requerir una planificación más compleja, por ejemplo, aprender que las llaves sirven para abrir puertas. La empresa también probará el software de otras maneras, y está considerando enfrentarlo al videojuego Starcraft y hasta al póquer (ver AlphaGo está aprendiendo a echar faroles en el póker). Pero presentar retos cada vez más difíciles dentro de Laberinto representará el hilo principal de las investigaciones durante algún tiempo, asegura Hassabis. "Debería bastar para el próximo par de años", dice.

Otras empresas e investigadores que trabajan en IA estarán observando atentamente. El éxito del aprendizaje reforzado de DeepMind ha sorprendido a muchos investigadores de aprendizaje de máquinas. La técnica fue establecida durante la década de 1980, y no se ha demostrado tan ampliamente útil ni potente como otras maneras de entrenar software, según Pedro Domingos, un profesor de aprendizaje de máquinas en la Universidad de Washington (EEUU). DeepMind fortaleció la venerable técnica al combinarla con un método llamado aprendizaje profundo, que recientemente ha proporcionado unos grandes avances en la capacidad de los ordenadores para decodificar informaciones como imágenes y provocó un reciente auge en la tecnología del aprendizaje de máquinas (ver Aprendizaje profundo).

"Lo que ha logrado DeepMind es impresionante", afirma Domingos. Pero también señala que es demasiado pronto para poder confirmar si lo que Hassabis cree que representa un motor de cohete no quede reducido a un simple fuego artificial. "El optimismo de Demis acerca del aprendizaje reforzado de momento no está justificado por su historial", dice Domingos. "Los progresos del aprendizaje de máquinas y la inteligencia artificial no son lineales; observamos saltos repentinos de progresos y después largos períodos de progresos lentos".

Hassabis reconoce que "muchas" personas de su campo dudan del potencial del aprendizaje reforzado, pero dice que pronto se convencerán. El experto asegura: "Cuánto más lejos lo llevamos, más sentimos que nuestra tesis es correcta, y creo que estamos cambiando el campo al completo. Bajo nuestra perspectiva, el aprendizaje reforzado va a ser tan importante como el aprendizaje profundo durante los próximos dos o tres años".

La seguridad primero

Los primeros resultados de DeepMind puede que justifiquen la afirmación de Hassabis de que el aprendizaje reforzado pronto encontrará muchas aplicaciones útiles. La victoria de AlphaGo sorprendió a los jugadores profesionales de Go y a los informáticos porque el juego es demasiado complejo para ser abordado por un software que dependa principalmente del cálculo de los posibles resultados de diferentes movimientos. Ese fue el método que empleó DeepBlue de IBM para vencer al entonces campeón mundial de ajedrez Garry Kasparov en 1997. De media, un jugador de ajedrez dispone de unos 35 movimientos posibles en cada turno; en Go, rondan los 250. Existen más posiciones posibles de Go que átomos en el universo. "El ajedrez es un juego de cálculo", explica Hassabis, pero "el Go es demasiado complejo, por lo que los jugadores utilizan su intuición. Es de una clase totalmente distinta. Se puede pensar en AlphaGo como una intuición sobrehumana en lugar de un cálculo sobrehumano".

Foto: El campeón mundial de Go, Lee Sedol, analiza una partida durante su derrota de 4-1 ante el software AlphaGo de DeepMind. Crédito: Google DeepMind.

Tanto si estamos de acuerdo en que AlphaGo demuestra intuición o no, habilitar el software para dominar unas tareas más complejas claramente será útil. DeepMind está colaborando con el Servicio Nacional de Salud de Reino Unido en un proyecto para entrenar al software para ayudar al personal médico a detectar las señales de problemas renales que a menudo pasan desapercibidas y son responsables de un gran número de muertes evitables. El grupo también colabora con divisiones comerciales de Google donde, según Hassabis, su tecnología podría permitir nuevos asistentes virtuales y mejorar los sistemas de recomendaciones, que resultan cruciales para productos como YouTube (unos sistemas similares también alimentan algunos de los productos de publicidad de Google).

Mirando más allá, DeepMind necesitará realizar muchos descubrimientos rompedores para seguir avanzando hacia la meta de Hassabis de resolver la inteligencia, incluso durante los próximos años de experimentación dentro de Laberinto. Una de las piezas más cruciales que falta es un truco conocido como fragmentación de la información. Este proceso es empleado por humanos y animales para lidiar con las complejidades del mundo. Hassabis lo explica con el ejemplo de tener que llegar al aeropuerto. Podemos concebir cómo llegar y ejecutar el plan sin necesidad de pensar en exactamente dónde colocar los pies mientras andamos hacia la puerta, ni en cómo girar el pomo, ni en controlar cada contracción de los músculos. Podemos planificar y tomar acciones al trabajar con conceptos de alto nivel que ocultan muchos detalles, y adaptarnos a nuevas situaciones al recombinar los "trozos", o conceptos, que ya conocemos. "Es probablemente uno de los problemas más centrales que queda dentro de la IA", asegura Hassabis.

Es un problema en el que trabajan muchos grupos de investigación, incluidos otros dentro de Google. Pero DeepMind lo está abordando de forma inusual para resolverlo antes a través del estudio de cerebros reales. La empresa dispone de un equipo de neurocientíficos liderado por un destacado investigador Matthew Botvinick, que hasta finales del año pasado era profesor de la Universidad de Princeton (EEUU). A diferencia de la mayoría de las investigaciones de neurociencia, sus experimentos están dirigidos tanto a informar cómo diseñará DeepMind su software como a revelar cómo funciona el cerebro.

Un experimento reciente probó una teoría de Hassabis sobre cómo los cerebros humanos organizan los conceptos, con el uso de un procedimiento estándar que crea memorias falsas. Para ello, presenta a los sujetos de prueba una lista de palabras relacionadas, como por ejemplo "frío", "nieve" y "hielo". La gente tiende a inventar el recuerdo de haber escuchado otras palabras relacionadas, como "invierno".

Foto: Unos empleados de DeepMind durante una partida contra Sedol en Seúl este mes. Crédito: Google (Getty Images).

"Con mi gorro de aprendizaje de máquinas puesto, pensaba que eso tiene que representar una enorme pista sobre cómo el cerebro organiza ese tipo de informaciones conceptuales", recuerda Hassabis. El equipo de DeepMind elaboró una teoría sobre cómo trabaja con los conceptos dentro del lóbulo temporal anterior, y confirmó sus predicciones al observar los cerebros de personas que realizaban la tarea de memoria desde dentro de un escáner. Los resultados pueden ayudar a cambiar cómo DeepMind diseña sus redes neuronales artificiales para representar la información.

Otras cosas de la lista "por descubrir" de DeepMind incluyen una manera de combinar las investigaciones realizadas sobre el software para que comprenda el significado de los textos con su trabajo sobre agentes que divagan dentro del Laberinto. Esto podría conseguirse mediante carteles colocados dentro del espacio virtual. Hassabis dice que también planea crear una forma "ambiciosa" de poner los agentes a prueba cuando estén listos para un mundo más realista que su Laberinto. En algún momento, quiere que el software de DeepMind asuma el control de robots, los cuales actualmente están limitados por la incapacidad del software de entender el mundo. "Existen unos robots increíbles que no pueden operar al máximo de sus capacidades porque faltan los algoritmos necesarios", dice.

El éxito podría suscitar algunas cuestiones filosóficas y éticas difíciles sobre lo que significa ser humano y los casos de uso aceptables de IA. Hassabis afirma que está estimulando el debate sobre los posibles riesgos de la tecnología. (Aunque también señala con satisfacción que el físico Stephen Hawking ha dejado de advertir que la IA podría eliminar a los humanos después de reunirse con él; el fundador de Tesla, Elon Musk, que ha comparado las investigaciones de IA con "invocar al diablo", también ha recibido unas palabras tranquilizadoras). DeepMind tiene un consejo ético interno de filósofos, abogados y empresarios. Hassabis afirma que sus nombres probablemente se harán públicos "pronto", y que también trabaja para crear un consejo externo similar compartido por múltiples empresas de computación.

Pero el experto considera que los ingenieros aún no necesitan consejos éticos al planificar nuevos experimentos. Según sus palabras: "No nos encontramos ni remotamente cerca de cualquier cosa que nos pueda preocupar. Se trata más de poner a todos al corriente". Si todo sale tal y como espera Hassabis, su consejo ético algún día tendrá que abordar mucho trabajo.

Inteligencia Artificial

El hombre que convenció a Stephen Hawking de que los robots no van a destruirnos

Al habla con la IA: el reto de lograr voces más diversas e inclusivas

Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

Por qué la IA podría comerle la tostada a la computación cuántica