Inteligencia Artificial

Estos robots entrenan su "oído" gracias a la IA

Para que los robots salgan de los almacenes y lleguen a los hogares, tendrán que moverse utilizando algo más que la visión

por James O'Donnell | traducido por
08 Julio, 2024

En la actualidad, la mayoría de los robots dotados de inteligencia artificial utilizan cámaras para comprender su entorno y aprender nuevas tareas, pero cada vez es más fácil entrenar a los robots también con el sonido, lo que les puede ayudar a adaptarse a tareas y entornos en los que la visibilidad es limitada.

Aunque la vista es importante, hay tareas cotidianas en las que el sonido es más útil, como escuchar el chisporroteo de las cebollas en el fogón para saber si la sartén está a la temperatura adecuada. Sin embargo, el entrenamiento de robots con audio solo se ha llevado a cabo en entornos de laboratorio muy controlados y las técnicas se han quedado rezagadas con respecto a otros métodos rápidos de entrenamiento de robots.

Los investigadores del Robotics and Embodied AI Lab de la Universidad de Stanford se propusieron cambiar esta situación. Primero construyeron un sistema de recogida de datos de audio compuesto por una cámara GoPro y una pinza con un micrófono diseñado para filtrar el ruido de fondo. Los demostradores humanos utilizaron la pinza para realizar diversas tareas domésticas y luego emplearon estos datos para enseñar a los brazos robóticos a ejecutar la tarea por sí solos. Los nuevos algoritmos de entrenamiento del equipo ayudan a los robots a obtener pistas de las señales de audio para actuar con mayor eficacia.

"Hasta ahora, los robots se entrenaban con vídeos silenciados", explica Zeyi Liu, estudiante de doctorado en Stanford y autor principal del estudio. "Pero en el audio hay muchos datos útiles".

Para comprobar cuánto más éxito puede tener un robot si es capaz de "escuchar", los investigadores eligieron cuatro tareas: voltear un panecillo en una sartén, borrar una pizarra, juntar dos tiras de velcro y verter dados de un vaso. En cada una de estas tareas, los sonidos proporcionan pistas que las cámaras o los sensores táctiles no consiguen, como saber si el borrador está en contacto con la pizarra o si el cubilete contiene dados.

Después de demostrar cada tarea un par de cientos de veces, el equipo comparó los porcentajes de éxito del entrenamiento con audio y del entrenamiento sólo con visión. Los resultados, disponibles en un artículo publicado en arXiv que no ha sido revisado por pares, fueron prometedores. Cuando se utilizaba sólo la visión en la prueba de los dados, el robot podía decir el 27% de las veces si había dados en el cubilete, pero esa cifra aumentaba al 94% cuando se incluía el sonido.

No es la primera vez que se utiliza el sonido para entrenar robots, dice Shuran Song, director del laboratorio que realizó el estudio, pero es un gran paso para hacerlo a gran escala: "Estamos facilitando el uso de audio recogido 'en la naturaleza', en lugar de limitarnos a recogerlo en el laboratorio, lo que requiere más tiempo".

La investigación indica que el audio podría convertirse en una fuente de datos más solicitada en la carrera para entrenar robots con IA. Los investigadores están enseñando a los robots más rápido que nunca utilizando el aprendizaje por imitación, mostrándoles cientos de ejemplos de tareas realizadas en lugar de codificar a mano cada una de ellas. Si el audio pudiera recogerse a gran escala mediante dispositivos como el del estudio, podría darles un "sentido" completamente nuevo, ayudándoles a adaptarse más rápidamente a entornos en los que la visibilidad es limitada o no resulta útil.

"Se puede decir que el audio es la modalidad de detección [en robots] menos estudiada", afirma Dmitry Berenson, profesor asociado de robótica de la Universidad de Michigan, que no participó en el estudio. Esto se debe a que la mayor parte de la investigación sobre el entrenamiento de robots para manipular objetos se ha centrado en tareas industriales de recoger y colocar, como la clasificación de objetos en contenedores. Estas tareas no se benefician mucho del sonido, sino que se basan en sensores táctiles o visuales. Pero a medida que los robots realicen tareas en el hogar, la cocina u otros entornos, el sonido será cada vez más útil, afirma Berenson.

Pensemos en un robot que intenta encontrar en qué bolso o bolsillo hay un juego de llaves, todo ello con una visibilidad limitada. "Puede que incluso antes de tocar las llaves, las oiga tintinear", dice Berenson. "Es una señal de que las llaves están en ese bolsillo y no en otros".

Aun así, el audio tiene sus límites. El equipo señala que el sonido no parece ser tan útil con objetos blandos o flexibles, como la ropa, que no generan tanto sonido aprovechable. Los robots también tuvieron problemas para filtrar el audio de sus propios ruidos motores durante las tareas, ya que ese ruido no estaba presente en los datos de entrenamiento producidos por los humanos. Para solucionarlo, los investigadores tuvieron que añadir sonidos robóticos -zumbidos, chirridos y ruidos de servomotores- a los conjuntos de entrenamiento para que los robots aprendieran a ignorarlos.

El siguiente paso, según Liu, es ver cuánto mejoran los modelos con más datos, lo que podría significar añadir más micrófonos, recopilar audio espacial e incorporar micrófonos a otros tipos de dispositivos de recopilación de datos.

Inteligencia Artificial

Estos robots entrenan su "oído" gracias a la IA

Al habla con la IA: el reto de lograr voces más diversas e inclusivas

Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

Por qué la IA podría comerle la tostada a la computación cuántica