Skip to main content

Él enseña a los robots a observar y aprender de sus propios éxitos.
Fotos de Daniel Berman
Año reconocido:
2016
Organización:
Universidad de California, Berkeley
Región:
Global

Mientras realizaba una estancia de nueve meses en Google, Sergey Levine observó cómo el programa AlphaGo de la compañía derrotaba al mejor jugador humano del antiguo juego chino Go en marzo. Levine, un especialista en robótica en la Universidad de California, Berkeley, admiró la sofisticada hazaña del aprendizaje automático, pero no pudo evitar centrarse en una notable deficiencia de los poderosos algoritmos del juego Go. «Nunca recogieron las piezas por sí mismos», bromea.

Una forma en que los creadores de AlphaGo entrenaron el programa fue alimentando 160,000 juegos anteriores de Go a un algoritmo potente llamado red neuronal, de manera similar a como los algoritmos similares se han mostrado fotos etiquetadas de gatos y perros hasta que aprenden a reconocer los animales en fotos no etiquetadas. Pero esta técnica no se aplica fácilmente al entrenamiento de un brazo robótico.

Por lo tanto, los robóticos han recurrido a una técnica diferente: el científico le da al robot un objetivo, como atornillar una tapa en una botella, pero depende de la máquina para que descubra los detalles por sí misma. Al intentar la tarea una y otra vez, eventualmente alcanza el objetivo. Pero el proceso de aprendizaje requiere muchos intentos, y no funciona con tareas difíciles.

El avance de Levine fue usar el mismo tipo de algoritmo que ha mejorado tanto en la clasificación de imágenes. Después de darle al robot versiones fáciles de la tarea en cuestión—como indicarle que atornille la tapa, por ejemplo—el robot luego estudia retrospectivamente sus propios éxitos. Observa cómo los datos de su sistema de visión se correlacionan con las señales motoras de la mano robótica al realizar correctamente la tarea. El robot supervisa su propio aprendizaje. «Está retroingenierizando su propio comportamiento», dice Levine. Luego, puede aplicar ese aprendizaje a tareas relacionadas.

Con la técnica de IA, tareas robóticas previamente insolubles se han vuelto de repente accesibles, gracias al aumento masivo en la eficiencia del entrenamiento. De repente, los robots se están volviendo mucho más inteligentes.