Inteligencia Artificial

Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

Un nuevo sistema podría ayudar a entrenar robots usando exclusivamente mundos generados mediante inteligencia artificial

por Rhiannon Williams | traducido por
13 Noviembre, 2024

Enseñar a los robots a desenvolverse en entornos nuevos es difícil. Se les puede entrenar con datos físicos del mundo real tomados de grabaciones hechas por humanos, pero son escasos y caros de recopilar. Las simulaciones digitales son una forma rápida y escalable de enseñarles a hacer cosas nuevas, pero los robots suelen fallar cuando se les saca de mundos virtuales y se les pide que hagan las mismas tareas en el real.

Ahora existe una opción potencialmente mejor: un nuevo sistema que utiliza modelos generativos de IA junto con un simulador de física para desarrollar campos de entrenamiento virtuales que reflejen con mayor exactitud el mundo físico. Los robots entrenados con este método obtuvieron un mayor porcentaje de éxito en las pruebas del mundo real que los entrenados con técnicas más tradicionales.

Los investigadores utilizaron el sistema, llamado LucidSim, para entrenar a un perro robot en parkour, consiguiendo que superara una caja y subiera escaleras aunque nunca hubiera visto datos del mundo real. Este método demuestra lo útil que puede resultar la IA generativa para enseñar a los robots a realizar tareas difíciles. También plantea la posibilidad de entrenarlos en mundos totalmente virtuales. La investigación se presentó la semana pasada en la Conferencia sobre Aprendizaje de Robots (CoRL).

"Estamos en medio de una revolución industrial de la robótica", afirma Ge Yang, postdoctorando del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, que trabajó en el proyecto. "Este es nuestro intento de comprender el impacto de estos modelos [de IA generativa] fuera de sus propósitos originales, con la esperanza de que nos lleve a la próxima generación de herramientas y modelos".

LucidSim utiliza una combinación de modelos de IA generativa para crear los datos visuales de entrenamiento. En primer lugar, los investigadores generaron miles de instrucciones para ChatGPT, haciéndole crear descripciones de una serie de entornos que representaban las condiciones que el robot encontraría en el mundo real, incluidos distintos tipos de clima, horas del día y condiciones de iluminación. Por ejemplo, "una antigua callejuela bordeada de casas de té y pequeñas y pintorescas tiendas, cada una de ellas con adornos y caligrafía tradicionales" y "el sol ilumina un césped algo descuidado salpicado de parches secos".

Estas descripciones se introdujeron en un sistema que mapea la geometría 3D y los datos físicos en imágenes generadas por IA, creando vídeos cortos que trazan una trayectoria que el robot debe seguir. El robot utiliza esta información para calcular la altura, la anchura y la profundidad de los objetos por los que tiene que desplazarse, como una caja o unas escaleras.

Los investigadores probaron LucidSim dando instrucciones a un robot cuadrúpedo equipado con una cámara web para que completara varias tareas, como localizar un cono de tráfico o un balón de fútbol, trepar por una caja y subir y bajar escaleras. El rendimiento del robot fue sistemáticamente mejor que el de un sistema entrenado con simulaciones tradicionales. En 20 pruebas para localizar el cono, LucidSim tuvo una tasa de éxito del 100%, frente al 70% de los sistemas entrenados con simulaciones estándar. Del mismo modo, LucidSim alcanzó el balón de fútbol en otros 20 ensayos el 85% de las veces, y sólo el 35% para el otro sistema.

Por último, cuando el robot estaba ejecutando LucidSim, completó con éxito las 10 pruebas de subida de escaleras, frente a sólo el 50% del otro sistema.

"De izquierda a derecha: Phillip Isola, Ge Yang y Alan Yu" — De izquierda a derecha: Phillip Isola, Ge Yang y Alan Yu. / CORTESÍA DE MIT CSAIL

Es probable que estos resultados mejoren aún más en el futuro si LucidSim se basa directamente en sofisticados modelos generativos de vídeo en lugar de en una combinación manipulada de modelos de lenguaje, imagen y física, afirma Phillip Isola, profesor asociado del MIT que trabajó en la investigación.

Según Mahi Shafiullah, estudiante de doctorado de la Universidad de Nueva York que utiliza modelos de inteligencia artificial para entrenar robots, el planteamiento de los investigadores sobre el uso de la IA generativa es novedoso y allanará el camino para nuevas investigaciones más interesantes. No ha trabajado en el proyecto.

"La dirección más interesante que veo personalmente es una mezcla de datos reales e imaginarios realistas que puedan ayudar a nuestros métodos actuales, que requieren muchos datos, a escalar más rápido y mejor", afirma.

Según Zafeirios Fountas, investigador científico senior de Huawei especializado en IA inspirada en el cerebro, la capacidad de entrenar a un robot desde cero exclusivamente en situaciones y escenarios generados por IA es un logro significativo y podría extenderse más allá de las máquinas a agentes de IA más generalizados.

"El término 'robots' aquí se utiliza de forma muy general; estamos hablando de algún tipo de IA que interactúa con el mundo real", afirma. "Puedo imaginar que esto se utilice para controlar cualquier tipo de información visual, desde robots y coches autoconducidos hasta el control de la pantalla de tu ordenador o smartphone".

En cuanto a los próximos pasos, los autores están interesados en intentar entrenar a un robot humanoide utilizando datos totalmente sintéticos, lo que reconocen que es un objetivo ambicioso, ya que los robots bípedos suelen ser menos estables que sus homólogos cuadrúpedos. También están centrando su atención en otro nuevo reto: utilizar LucidSim para entrenar el tipo de brazos robóticos que trabajan en fábricas y cocinas. Las tareas que tienen que realizar requieren mucha más destreza y comprensión física que correr por un paisaje.

"Coger una taza de café y servirla es un problema muy difícil y abierto", dice Isola. "Si pudiéramos tomar una simulación aumentada con IA generativa para crear mucha diversidad y entrenar a un agente muy robusto que pueda operar en una cafetería, creo que sería genial".

Inteligencia Artificial

Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

Por qué medir la IA sigue siendo un desafío pendiente

Qué es el 'red-teaming', el proceso que permite a OpenAI detectar fallos en ChatGPT

Al habla con la IA: el reto de lograr voces más diversas e inclusivas