.

Inteligencia Artificial

La selección natural inspira un aprendizaje automático 10 veces más eficiente

1

El enfoque de estrategia evolutiva se conocía desde hace años, pero ha sido la organización sin ánimo de lucro de Elon Musk la que ha demostrado que rinde más de 10 veces mejor que el aprendizaje reforzado de Google 

  • por Tom Simonite | traducido por Teresa Woods
  • 11 Abril, 2017

Foto: Ilya Sutskever. Crédito: Jeremy Portje.

En 2013, una start-up británica llamada DeepMind sorprendió a los informáticos al lucir un software capaz de aprender a jugar a clásicos videojuegos de Atari mejor que un jugador humano experto. Poco después, DeepMind fue adquirida por Google y la técnica que superó a los videojuegos de Atari, el aprendizaje reforzado, se ha convertido en un tema candente dentro del campo de la inteligencia artificial (IA) y la robótica. Google empleó el aprendizaje reforzado para desarrollar un software que ganó al campeón mundial de Go el año pasado.

Ahora, OpenAI, un instituto de investigación sin ánimo de lucro fundada por Elon Musk, afirma haber descubierto una alternativa de uso más fácil que el aprendizaje reforzado y que logra resultados similares en videojuegos y otras tareas. En la conferencia EmTech Digital de MIT Technology Review celebrada en San Francisco (EEUU) el lunes, el director de investigadiones de OpenAI, Ilya Sutskever, afirmó que podría ayudar a los investigadores a lograr progresos en el aprendizaje de máquinas más rápidamente.

"Resulta competitivo respecto a los algoritmos actuales de aprendizaje de máquinas en los estándares establecidos", dijo Sutskever. "Es sorprendente que algo tan sencillo realmente funcione".

Sutskever argumenta que encontrar nuevas maneras de lograr que el software ejecute cosas como jugar a videojuegos o dirigir robots es importante para que el software de aprendizaje de máquinas pueda asumir tareas más complejas que tan solo reconocer imágenes o transcribir el habla. "Si conseguimos que los sistemas informáticos aprendan a asumir acciones complejas en el mundo [real], entonces creo que nos sintiríamos cómodos llamándolos inteligentes", indicó.

Foto: El software de aprendizaje de máquinas de OpenAI averiguó cómo jugar a videojuegos clásicos de Atari. Crédito: Cortesía de OpenAI.

Sutskever y sus compañeros probaron su enfoque, llamado estrategias de evolución, con el desarrollo de software que aprendió a jugar a más de 50 videojuegos de Atari, incluidos Pong y Centipede. Puesto que resulta más fácil escalar el nuevo método en múltiples procesadores, en una hora fueron capaces de entrenar jugadores artificiales comparables a los que llevaron un día generar mediante un sistema de aprendizaje reforzado que publicó Google DeepMind el año pasado. Demostró la misma capacidad de aprender cosas como la necesidad de salir a la superficie a respirar dentro del juego Submarine Commander (el fotograma del medio de la imagen).

Las estrategias de evolución demostraron una ventaja similar cuando fueron utilizadas para abordar una prueba estandarizada de la robótica en la que el software ha de averiguar cómo lograr que un humanoide ande dentro de un entorno simulado. Llevó 10 minutos lograr los resultados para los cuales un sistema vanguardista de aprendizaje reforzado necesitaría unas 10 horas, afirman los investigadores.

La técnica es un reinicio de una idea que existe desde hace décadas sobre cómo lograr que el software de aprendizaje pruebe diferentes acciones e identifique las más eficaces. Está ligeramente inspirado en la manera en la que la selección natural impulsa a los organismos biológicos a adaptarse a su entorno.

"Un algoritmo del que sabe todo el mundo desde hace mucho tiempo funciona mejor de lo que creía la mayoría de la gente", aseguró Sutskever.

Rehusó Sutskever sugerir aplicaciones específicas de la IA que podrían recibir un impulso de la técnica de las estrategias de evolución, al señalar que se necesitan más investigaciones sobre sus ventajas y limitaciones. Pero sí dijo que comparar el método con el aprendizaje reforzado sugería que rendiría mejor en aprender a ejecutar tareas más complejas que requieren más pasos para obtener un resultado.

Por ese motivo, Sutskever cree que las estrategias de evolución ayudarán con el objetivo de OpenAI de desarrollar lo que él denomina una inteligencia artificial general - software capaz de adaptarse a muchos tipos de escenarios complejos.

La mayoría de los investigadores de aprendizaje de máquinas no hablan demasiado de la inteligencia general, al perseguir en su lugar progresos en problemas específicas y a menudo con un enfoque muy estrecho. La declaración de intenciones de OpenAI incluye un compromiso con el desarrollo de la inteligencia artificial general. Sutskever dijo que el ritmo de los progresos en el aprendizaje de máquinas significa que merece la pena pensar en ese objetivo ahora.

"Parece algo lejano ahora mismo, pero [era] mucho más lejano hace cinco años", señaló. "El número de personas y la cantidad de esfuerzos que se están volcando en el desarrollo de estos algoritmos es extremadamente alto - las cosas están avanzando a muy buen ritmo".

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. La "sustancia" del algoritmo: la IA cada vez está más cerca de actuar por nosotros

    En un futuro cercano, la IA no solo será capaz de imitar nuestra personalidad, sino también de actuar en nuestro nombre para llevar a cabo tareas humanas. Sin embargo, esto da lugar a nuevos dilemas éticos que aún deben ser resueltos

    Agentes de IA, hacia un futuro con algoritmos humanos y dilemas éticos complejos
  2. Por qué medir la IA sigue siendo un desafío pendiente

    Los benchmarks, diseñados para evaluar el rendimiento de una IA, a menudo están basados en criterios opacos o en parámetros que no reflejan su impacto real. No obstante, hay enfoques que buscan ofrecer evaluaciones más precisas y alineadas con desafíos prácticos

    Los benchmarks, diseñados para evaluar el rendimiento de una IA, a menudo se fundamentan en criterios opacos o en parámetros que no reflejan su impacto real
  3. Qué es el 'red-teaming', el proceso que permite a OpenAI detectar fallos en ChatGPT

    A través del red-teaming, un proceso en el que se simulan ataques para buscar fallos en los sistemas, OpenAI identifica vulnerabilidades en sus herramientas. Sin embargo, la amplia variedad de situaciones en las que se pueden utilizar estos modelos dificulta su control

    El 'red-teaming' es un proceso usado por OpenAI para detectar fallos en sus modelos