Inteligencia Artificial

"Haz algo así". El aprendizaje reforzado profundo sólo necesita una idea

El sistema de la 'start-up' Osaro busca que los robots aprendan más rápido con una combinación de aprendizaje reforzado profundo y ayuda humana

por Mark Harris | traducido por Teresa Woods
09 Diciembre, 2015

Una nueva start-up de inteligencia artificial llamada Osaro quiere dotar a los robots de la misma turbocarga que DeepMind Technologies dio a sus programas informáticos capaces de jugar a Atari.

En diciembre de 2013, DeepMind Technologies desveló un tipo de inteligencia artificial que, sin conocimientos previos, había llegado a dominar siete juegos de Atari 2600 en cuestión de horas y además mejor que algunos de los mejores jugadores humanos. La empresa, radicada en Londres (Inglaterra), y su tecnología de aprendizaje reforzado profundo fueron adquiridas rápidamente por Google por unos 400 millones de dólares (unos 378 millones de euros) (ver La inteligencia artificial de Google juega al Space Invaders mejor que los humanos).

Ahora Osaro, con 3,3 millones de dólares (unos 3,12 millones de euros) de financiación procedente de inversores como Peter Thiel y Jerry Yang, afirma haber llevado el aprendizaje reforzado profundo al siguiente nivel: proporcionar el mismo rendimiento superhumano de la inteligencia artificial, pero más de 100 veces más rápido.

El aprendizaje reforzado profundo surgió del aprendizaje profundo, un método que emplea múltiples capas de redes neuronales para procesar y organizar montañas de datos brutos (ver Aprendizaje profundo). El aprendizaje profundo está detrás de muchos de los mejores sistemas de reconocimiento facial, clasificación de vídeos y el reconocimiento de texto y voz de Google, Microsoft e IBM Watson.

El aprendizaje reforzado profundo añade control al proceso mediante la capacidad del aprendizaje profundo de clasificar la información con precisión, por ejemplo fotogramas de vídeo de una partida de Breakout o Pong, para acercarse a la mejor puntuación. Estos sistemas de aprendizaje reforzado profundo se entrenan automáticamente al repetir la tarea una y otra vez hasta alcanzar su meta. "La potencia del [aprendizaje] reforzado profundo es que puede descubrir comportamientos que a un humano no se le hubiera ocurrido programar a mano", afirma Derik Pridmore, el presidente y jefe de operaciones de Osaro.

Aprender desde cero

Entrenar un nuevo sistema de inteligencia artificial desde cero, sin embargo, puede llevar mucho tiempo. La demostración con Atari de DeepMind Technologies requirió decenas de millones de fotogramas de vídeo, el equivalente de muchos miles de partidas, para rozar la perfección. Eso está bien para tareas digitales que pueden ser comprimidas en horas o minutos en superordenadores, pero no se aplicaría bien a la robótica del mundo real.

"Un robot es un sistema físicamente encarnado que necesita tiempo para desplazarse por el espacio", explica Pridmore. "Si se quiere utilizar aprendizaje reforzado profundo básico para enseñarle a recoger una taza desde cero, llevaría, literalmente, un año o más".

Para acelerar ese "entrenamiento", Osaro se inspiró en el modo en que la gente aprende a ejecutar la mayoría de las actividades: observar a otras personas. Para ello, ha desarrollado un programa jugador que observa a un humano mientras juega varias partidas. Entonces, emplea esa "observación" como punto de partida para sus propio aprendizaje. "No copia a un humano y no tiene que jugar de una forma precisa ni especialmente bien. Simplemente se le proporciona una idea razonable de qué hacer", explica Pridmore. Asegura que el sistema de inteligencia artificial de Osaro puede aprender un juego 100 veces más rápido que el programa de DeepMind Technologies, aunque la empresa aún no ha publicado sus investigaciones (ver El sacrificio de un robot para enseñar a agarrar objetos a sus compañeros).

Es probable que la primera aplicación de la tecnología de aprendizaje reforzado profundo sea la fabricación de gran volumen, donde la reprogramación de los robots de la cadena de montaje puede llevar semanas de trabajo de profesionales altamente cualificados (y remunerados). Pridmore asegura que Osaro puede reducir ese tiempo a aproximadamente una semana, con el valor añadido de desarrollar sistemas de control eficientes capaces de lidiar con condiciones "ruidosas" como los componentes irregulares o la iluminación cambiante (ver El aprendizaje profundo quiere revolucionar todas las industrias).

Según Pridmore, algún día el proceso de entrenamiento debería ejecutarse casi sin esfuerzo. "En el futuro, se podrá dar a un robot tres cubos de piezas, mostrarle el producto final, y simplemente decir, 'Haz algo así'". Aún falta bastante para que llegue ese día. El próximo paso de Osaro será realizar demostraciones robóticas simuladas en un entorno virtual llamado Gazebo antes de lanzarse con fabricantes de robots industriales y sus clientes en 2017.

Oren Etzioni, director ejecutivo del Instituto Allen para la Inteligencia Artificial, explica que el enfoque es "técnicamente emocionante" y "seductor". Pieter Abbeel, profesor de ciencias informáticas de la Universidad de California–Berkeley (EEUU) y organizador de un simposio sobre el aprendizaje reforzado profundo, se muestra de acuerdo. "Aprender directamente de las demostraciones humanas y los consejos en todo tipo de formatos es, intuitivamente, la manera de conseguir que un sistema aprenda más rápido", dice. "Sin embargo, desarrollar un sistema capaz de aprovechar un amplio abanico de formas de aprender representa un reto".

Y siempre queda la pregunta de en qué ha estado trabajando Google DeepMind. Si su sistema de inteligencia artificial pudo dominar el Atari en cuestión de horas, dos años tras las puertas cerradas de Google podrían incluso dejar los sistemas de inteligencia artificial con aprendizaje humano de Osaro muy atrás.

Inteligencia Artificial

"Haz algo así". El aprendizaje reforzado profundo sólo necesita una idea

Esta IA ayuda a que los profesores enseñen mejor matemáticas a los niños

Meta ofrece gratis un gran conjunto de datos para acelerar el descubrimiento de nuevos materiales mediante IA

ChatGPT discrimina por raza y género según el nombre de usuario en el 0,1% de las interacciones