
Google es sólo el último en fusionar grandes modelos lingüísticos con robots. La tendencia tiene grandes implicaciones.
El pasado miércoles, Google hizo un anuncio un tanto sorprendente. Lanzó una versión de su modelo de IA, Gemini, que puede hacer cosas no solo en el ámbito digital de los chatbots y las búsquedas en internet, sino también en el mundo físico, a través de robots.
Gemini Robotics fusiona la potencia de los grandes modelos de lenguaje con el razonamiento espacial, lo que permite indicarle a un brazo robótico que realice la una acción como la siguiente: «Pon las uvas en el cuenco de cristal transparente». Estas órdenes son filtradas por el LLM, que identifica las intenciones a partir de lo que dices y las descompone en acciones que el robot puede ejecutar. Para más detalles sobre cómo funciona todo esto, recomiendo leer la nota completa de mi colega, Scott Mulligan.
Quizás te preguntes si esto significa que tu casa o tu lugar de trabajo estarán algún día llenos de robots a los que podrás dar órdenes. Pronto hablaremos de ello.
Mientras tanto, ¿de dónde viene esto? Google no ha causado grandes impactos en el mundo de la robótica hasta ahora. Alphabet adquirió algunas startups de robótica en la última década, pero en 2023 cerró una unidad que trabajaba en la creación de robots para resolver tareas prácticas como la limpieza de la basura.
A pesar de ello, la iniciativa de la empresa de introducir la IA en el mundo físico a través de robots sigue el mismo precedente establecido por otras empresas en los últimos dos años (algo que, debo señalar humildemente, MIT Technology Review ha visto venir hace tiempo)
En resumen, dos tendencias convergen desde direcciones opuestas: las empresas de robótica aprovechan cada vez más la IA, y los gigantes de la IA ahora construyen robots. OpenAI, por ejemplo, que cerró su equipo de robótica en 2021, inició este año un nuevo esfuerzo por construir robots humanoides. En octubre, el gigante del chip Nvidia declaró que la próxima ola de inteligencia artificial será la «IA física«.
Hay muchas formas de incorporar la IA a los robots, empezando por mejorar la forma en que se les entrena para realizar tareas, pero utilizar grandes modelos lingüísticos para dar instrucciones, como ha hecho Google, es especialmente interesante.
Sin embargo, no es la primera vez que esto ocurre. La startup de robótica Figure se hizo viral hace un año por un vídeo en el que unos humanos daban instrucciones a un humanoide sobre cómo guardar los platos. Por esa misma época, una empresa derivada de OpenAI llamada Covariant, creó algo parecido para brazos robóticos en almacenes. Vi una demostración en la que se podían dar instrucciones al robot a través de imágenes, texto o vídeo para que respondiera a órdenes como «mueve las pelotas de tenis de este contenedor a aquel». Covariant fue adquirida por Amazon apenas cinco meses después.
Cuando uno ve este tipo de demostraciones, no puede evitar preguntarse: ¿Cuándo llegarán estos robots a nuestros lugares de trabajo? ¿Y a nuestros hogares?
Si los planes de Figure ofrecen una pista, la respuesta a la primera pregunta será: pronto. La empresa anunció recientemente que está construyendo una planta de fabricación de gran volumen preparada para fabricar 12.000 robots humanoides al año. Pero entrenar y probar robots, sobre todo para garantizar su seguridad en lugares donde trabajan cerca de humanos, toma mucho tiempo .
Por ejemplo, Agility Robotics, rival de Figure, afirma ser la única empresa de Estados Unidos con clientes de pago para sus robots. Pero las normas de seguridad del sector para humanoides que trabajan junto a personas aún no están del todo definidas, por lo que tienen que trabajar en zonas separadas.
Por eso, a pesar de los avances recientes, nuestros hogares serán la última frontera. En comparación con las fábricas, nuestros hogares son caóticos e impredecibles. Todo el mundo está hacinado en espacios relativamente reducidos. Incluso modelos de IA tan impresionantes como Gemini Robotics tendrán que someterse a numerosas pruebas tanto en el mundo real como en la simulación, de la misma manera que los coches autoconducidos. Estas pruebas podrían realizarse en almacenes, hoteles y hospitales, donde los robots podrían seguir recibiendo ayuda de operadores humanos a distancia. Pasará mucho tiempo antes de que tengan el privilegio de fregar nuestros platos.
Este artículo apareció originalmente en The Algorithm, nuestro boletín semanal sobre IA. Para recibir primero historias como esta en tu bandeja de entrada, suscríbete aquí .