Biotecnología

TR10: Aprendizaje reforzado

Si hay una tecnología que puede conseguir que los ordenadores actúen como humanos, es esta, ya que les permite aprender por sí solos. El futuro de áreas como la conducción autónoma depende de ella

por Will Knight | traducido por Teresa Woods
23 Febrero, 2017

Crédito: Seymour Chwast.

Avance

Este enfoque para la inteligencia artificial (IA) logra que los ordenadores aprendan como las personas, sin necesidad de darle instrucciones explícitas.

Por qué importa

Los progresos de los coches autónomos y otras formas de automatización se ralentizarán drásticamente a menos que las máquinas aprendan a perfeccionar sus capacidades mediante la experiencia.

Actores claves

- DeepMind

- Mobileye

- OpenAI

- Google

- Uber

Disponibilidad

De uno a dos años

Dentro de una simulación de ordenador sencilla, un grupo de coches autónomos realiza maniobras aparentemente alocadas en una carretera virtual de cuatro carriles. La mitad intenta desplazarse desde el carril derecho justo cuando la otra mitad intenta incorporarse desde el carril izquierdo. Es justo el tipo de situación compleja podría confundir a un vehículo robótico, sin embargo, lo hacen con precisión.

Observé esta simulación durante la mayor conferencia de inteligencia artificial del año, celebrada en Barcelona (España) en diciembre. Lo que resulta más increíble es que el software que gobierna el comportamiento de los vehículos no se ha programado para nada en el sentido clásico. Para aprender a incorporarse al tráfico de forma tan precisa y segura el programa sólo tuvo que practicar. El software realizó la maniobra una y otra vez e iba modificando ligeramente las pautas en cada intento. La mayor parte del tiempo, la incorporación fue demasiado lenta y los coches interfirieron entre sí. Pero cuando lo logró hacer de manera fluida, el sistema aprendió a perfeccionar el comportamiento que dio paso a ese resultado.

Este enfoque, conocido como aprendizaje reforzado, fue el que consiguió que el ordenador AlphaGo, desarrollado por una subsidiaria de Alphabet, DeepMind, dominara el complejísimo juego de mesa Go y venciera a uno de los mejores jugadores humanos del mundo el año pasado. Ahora, el aprendizaje reforzado podría estar a punto de ofrecer una mayor inteligencia más allá de los juegos de mesa. Además de mejorar los coches autónomos, la tecnología puede ayudar a un robot a agarrar objetos que nunca ha visto antes y puede averiguar la configuración óptima para los equipos de centro de datos.

Foto: Estas imágenes son del sistema de Mobileye de visión para coches, que se beneficiará del aprendizaje reforzado. Crédito: Cortesía de Mobileye.

El aprendizaje reforzado imita un principio muy sencillo de la naturaleza. El psicólogo Edward Thorndike lo documentó hace más de 100 años. Thorndike colocó unos gatos dentro de cajas de las que sólo podrían escapar al accionar una palanca. Tras dedicar un tiempo considerable a dar vueltas y aullar, finalmente aprendían a escaparse cada vez más deprisa.

Algunos de los primeros investigadores de IA creían que las máquinas podían replicar este proceso. En 1951, el alumno de la Universidad de Harvard (EEUU) Marvin Minsky, que más tarde se convertiría en uno de los padres de la IA en el Instituto Tecnológico de Massachusetts (MIT, EEUU), construyó una máquina que empleaba una forma sencilla de aprendizaje reforzado para imitar a una rata que aprende a navegar un laberinto. El Ordenador Estocástico de Refuerzo de Similitud Neural, o SNARC (por sus siglas en inglés), consistía de docenas de tubos, motores y acoplamientos que simulaban el comportamiento de 40 neuronas y sinapsis. Cuando la rata simulada encontraba la salida del laberinto virtual, la fuerza de algunas conexiones sinápticas aumentaba lo que reforzaba el comportamiento responsable del resultado. Se produjeron algunos éxitos similares durante las siguientes décadas. En 1992, el investigador de IBM Gerald Tesauro creó un programa que empleaba la técnica para jugar al Backgammon y que logró igualar el rendimiento de los mejores jugadores humanos, todo un hito para la IA. Pero el aprendizaje reforzado resultó ser difícil de escalar a problemas más complejos. "La gente creía que era una idea genial pero que no funcionaba", explica el investigador de DeepMind en Reino Unido y destacado defensor del aprendizaje reforzado, David Silver.

Esa visión cambió drásticamente en marzo de 2016. Fue entonces cuando AlphaGo, un programa entrenado con aprendizaje reforzado, diezmó a uno de los mejores jugadores de Go de todos los tiempos, Lee Sedol de Corea del Sur. La hazaña fue asombrosa porque resulta virtualmente imposible que un buen programa juegue bien al Go mediante una programación convencional. El juego no sólo es extremadamente complejo sino que incluso los jugadores expertos pueden encontrar difícil explicar por qué determinados movimientos son ventajosos o perjudiciales, por lo que la estrategia es difícil de incorporar al código. La mayoría de los investigadores de IA esperaban que aún hiciera falta una década para que un ordenador jugara tan bien al juego como un experto humano.

La tecnología puede lograr que un robot agarre objetos que nunca ha visto.

Compitiendo por posicionarse

Silver, un británico afable que quedó fascinado por la IA cuando estudiaba en Universidad de Cambridge (Reino Unido), explica por qué el aprendizaje reforzado se ha vuelto tan formidable últimamente. Afirma que la clave es combinarlo con el aprendizaje profundo, una técnica que incluye el uso de una gran red neuronal simulada para reconocer patrones dentro de los datos (ver Aprendizaje profundo).

El aprendizaje reforzado funciona porque los investigadores averiguaron cómo lograr que un ordenador calcule el valor que debería asignar a, digamos, cada giro correcto o equivocado de una rata en un laberinto. Cada valor es almacenado en una gran tabla, y el ordenador los actualiza a medida que aprende. A nivel computacional, el enfoque no resulta práctico para tareas grandes y complejas. Pero en los últimos años el aprendizaje profundo se ha revelado como una manera extremadamente eficiente de reconocer patrones en los datos. Funciona tanto si los datos se refieren a giros dentro de un laberinto, a las posiciones sobre un tablero de Go o a los píxeles que aparecen en pantalla durante un videojuego.

De hecho, DeepMind se hizo famoso a través de los juegos. En 2013, publicó los detalles de un programa capaz de aprender a jugar a varios videojuegos de Atari a un nivel superhumano, lo que hizo que Google a adquiriera la empresa por casi 470 millones de euros en 2014. Estas y otras hazañas han inspirado a otros investigadores y empresas para empezar a fijarse en el aprendizaje reforzado. Varios fabricantes de robots industriales están probando la técnica para entrenar a sus máquinas para que ejecuten tareas nuevas sin necesidad de programación manual. Y los investigadores de Google, también subsidiaria de Alphabet, colaboraron con DeepMind para emplear el aprendizaje reforzado profundo para volver que sus centros de datos hagan un uso más eficiente de la energía. Resulta difícil averiguar cómo todos los elementos de un centro de datos afectarán al consumo energético, pero un algoritmo de aprendizaje reforzado puede realizar simulaciones para sugerir, por ejemplo, cómo y cuándo operar los sistemas de enfriamiento.

Pero el entorno en el que probablemente más lucen su comportamiento increíblemente humano es en la conducción autónoma. Los vehículos sin conductor actuales suelen titubear ante situaciones complejas en las que intervienen otros conductores humanos, como las rotondas. Si no queremos riesgos innecesarios ni atascos, tendrán que adquirir capacidades de conducción más precisas, como ubicarse entre una multitud de coches.

Foto: El aprendizaje reforzado dio paso a la impresionante victoria el año pasado de AlphaGo frente a un campeón de Go. Crédito: Cortesía de DeepMind.

El software de incorporación a la carretera fue demostrado en Barcelona por Mobileye, una empresa automovilística israelí cuyos sistemas de seguridad vehicular ya son utilizados por docenas de fabricantes automovilísticos, incluido Tesla Motors (ver Las 50 empresas más brillantes de 2016, según 'MIT Technology Review'). Después de mostrar el vídeo de incorporaciones, el vicepresidente de tecnología de Mobileye, Shai Shalev-Shwartz, demostró algunos de los retos a los que se enfrentarán los coches autónomos: una abarrotada rotonda en Jerusalén (Israel); una frenética intersección en París (Francia) y una escena endiabladamente caótica en una calle de la India. "Si un coche autónomo sigue la ley al pie de la letra, podría pasar horas esperando para incorporarse al tráfico en hora punta", dice Shalev-Shwartz.

Mobileye planea probar el software en una flota de vehículos en colaboración con BMW e Intel este año. Google y Uber también afirman estar probando el aprendizaje reforzado en sus vehículos autónomos. El aprendizaje reforzado se está aplicando a cada vez más áreas, señala la profesora adjunta de la Universidad de Stanford (EEUU) Emma Brunskill , que está especializada en el enfoque. Lo considera muy parecido a la conducción autónoma porque habilita "una buena secuencia de decisiones". Los progresos se producirían mucho más despacio si los programadores tuviesen que codificar todas estas decisiones en los coches por adelantado.

Pero hay varios retos por delante. El director científico de la empresa china Baidu, Andrew Ng, advierte que el enfoque requiere una enorme cantidad de datos, y muchos de sus éxitos se han conseguido a costa de interminables repeticiones. De hecho, los investigadores siguen intentando averiguar cómo lograr que el aprendizaje reforzado funcione en situaciones complejas en las que existen más de un objetivo. Mobileye también ha tenido que ajustar sus protocolos para que un coche autónomo experto en evitar accidentes no acabe provocando más accidentes a los demás. Cuando se ve el disparatado vídeo de las incorporaciones, parece que la empresa lo ha conseguido, al menos de momento. Pero este año, tal vez en una carretera cercana a usted, el aprendizaje reforzado se someterá a sus pruebas más drásticas e importantes hasta la fecha.

No te pierdas la lista completa de nuestras 10 Tecnologías Emergentes 2017

Biotecnología

TR10: Aprendizaje reforzado

Manipulación genética para salvar al castaño americano de la extinción

África lucha contra el hambre recurriendo a alimentos del pasado

En la mente de las arañas: estos artilugios científicos permiten entender a los animales