Otros

Las imágenes generadas por IA pueden enseñar a los robots cómo actuar

Los modelos Gen AI no solo sirven para crear imágenes: también se pueden ajustar para generar datos útiles para el entrenamiento de robots.

por Rhiannon Williams | traducido por
03 Octubre, 2024

Los modelos de IA generativa pueden producir imágenes en respuesta a indicaciones en cuestión de segundos, y recientemente se han utilizado para todo, desde resaltar sus propios sesgos inherentes hasta preservar recuerdos valiosos .

Ahora, investigadores del Laboratorio de Aprendizaje Robótico de Stephen James en Londres Están utilizando modelos de IA generadores de imágenes para un nuevo propósito: crear datos de entrenamiento para robots. Han desarrollado un nuevo sistema, llamado Genima , que afina el modelo de IA generador de imágenes Stable Diffusion para dibujar los movimientos de los robots, ayudándolos a guiarse tanto en simulaciones como en el mundo real. La investigación se presentará en la Conferencia sobre Aprendizaje Robótico (CoRL) el mes próximo.

El sistema podría facilitar el entrenamiento de distintos tipos de robots para que realicen tareas, desde brazos mecánicos hasta robots humanoides y coches sin conductor. También podría ayudar a que los agentes web de IA , una próxima generación de herramientas de IA que pueden llevar a cabo tareas complejas con poca supervisión, sean mejores a la hora de desplazarse y hacer clic, afirma Mohit Shridhar, un científico investigador especializado en manipulación robótica que trabajó en el proyecto.

“Se pueden utilizar sistemas de generación de imágenes para hacer casi todo lo que se puede hacer en robótica”, afirma. “Queríamos ver si podíamos aprovechar todas estas cosas asombrosas que están sucediendo en la difusión y utilizarlas para problemas de robótica”.

Para enseñar a un robot a completar una tarea, los investigadores normalmente entrenan una red neuronal con una imagen de lo que hay frente al robot. Luego, la red genera un resultado en un formato diferente: las coordenadas necesarias para avanzar, por ejemplo.

El enfoque de Genima es diferente porque tanto su entrada como su salida son imágenes, lo que hace que sea más fácil para las máquinas aprender de ellas, dice Ivan Kapelyukh, estudiante de doctorado en el Imperial College de Londres, que se especializa en aprendizaje de robots pero que no participó en esta investigación.

"También es muy bueno para los usuarios, porque pueden ver dónde se moverá su robot y qué hará. Lo hace más interpretable y significa que, si realmente lo van a implementar, podrán ver antes de que su robot atraviese una pared o algo así", afirma.

Genima funciona aprovechando la capacidad de Stable Diffusion de reconocer patrones (por ejemplo, saber cómo se ve una taza porque ha sido entrenado con imágenes de tazas) y luego convirtiendo el modelo en una especie de agente: un sistema de toma de decisiones.

En primer lugar, los investigadores ajustaron la difusión estable para permitirles superponer datos de los sensores del robot en imágenes capturadas por sus cámaras.

El sistema representa la acción deseada, como abrir una caja, colgar una bufanda o coger un cuaderno, en una serie de esferas de colores situadas sobre la imagen. Estas esferas indican al robot hacia dónde debe moverse su articulación dentro de un segundo.

La segunda parte del proceso convierte estas esferas en acciones. El equipo logró esto utilizando otra red neuronal, llamada ACT, que está mapeada en los mismos datos. Luego utilizaron Genima para completar 25 simulaciones y nueve tareas de manipulación del mundo real utilizando un brazo robótico. La tasa de éxito promedio fue del 50% y el 64%, respectivamente.

Aunque estas tasas de éxito no son especialmente altas, Shridhar y el equipo son optimistas respecto de que la velocidad y la precisión del robot pueden mejorar. Están particularmente interesados en aplicar Genima a los modelos de IA de generación de video, que podrían ayudar a un robot a predecir una secuencia de acciones futuras en lugar de solo una.

La investigación podría ser particularmente útil para entrenar a robots domésticos para doblar la ropa, cerrar cajones y otras tareas domésticas. Sin embargo, su enfoque generalizado significa que no se limita a un tipo específico de máquina, dice Zoey Chen, estudiante de doctorado en la Universidad de Washington, que también ha utilizado anteriormente Stable Diffusion para generar datos de entrenamiento para robots, pero que no participó en este estudio.

“Es una nueva dirección realmente interesante”, afirma. “Creo que puede ser una forma general de entrenar datos para todo tipo de robots”.

Otros

Las imágenes generadas por IA pueden enseñar a los robots cómo actuar

La difícil tarea de señalar quién debe pagar por el cambio climático

Esto es lo que está sobre la mesa en la conferencia del clima (COP29) de este año

Qué va a suceder con los derechos reproductivos en EE UU tras la reelección de Trump