¿Cómo aprenden los robots: Una breve historia contemporánea?

El auge más reciente de la robótica representa una revolución en la forma en que las máquinas han aprendido a interactuar con el mundo.

Los roboticistas solían soñar a lo grande, pero construían a pequeña escala. Esperaban igualar o superar la extraordinaria complejidad del cuerpo humano, y luego pasaban su carrera perfeccionando brazos robóticos para plantas automovilísticas. Aspiraban a C-3PO; y terminaban con el Roomba.

La verdadera ambición para muchos de estos investigadores era el robot de ciencia ficción —uno capaz de moverse por el mundo, adaptarse a diferentes ento os e interactuar de manera segura y provechosa con las personas. Para los más concienciados socialmente, una máquina así podría ayudar a quienes tienen problemas de movilidad, aliviar la soledad o realizar trabajos demasiado peligrosos para los humanos. Para los más orientados a las finanzas, significaría una fuente inagotable de mano de obra sin coste salarial. En cualquier caso, un largo historial de fracasos dejó a la mayor parte de Silicon Valley reacia a apostar por los robots útiles.

Eso ha cambiado. Las máquinas aún no están construidas, pero el dinero fluye: empresas e inversores invirtieron 6.100 millones de dólares en robots humanoides solo en 2025, cuatro veces lo invertido en 2024.

¿Qué ha pasado? Una revolución en la forma en que las máquinas han aprendido a interactuar con el mundo.

Imagine que le gustaría instalar un par de brazos robóticos en su casa con el único propósito de hacer una cosa: doblar ropa. ¿Cómo aprenderían a hacerlo? Podría empezar escribiendo reglas. Compruebe el tejido para determinar cuánta deformación puede tolerar antes de rasgarse. Identifique el cuello de una camisa. Mueva la pinza a la manga izquierda, levántela y dóblela hacia dentro exactamente esta distancia. Repita para la manga derecha. Si la camisa está girada, adapte el plan en consecuencia. Si la manga está retorcida, corríjala. Muy rápidamente el número de reglas se dispara, pero un registro completo de ellas podría producir resultados fiables. Este era el arte original de la robótica: anticipar cada posibilidad y codificarla de antemano.

Hacia 2015, la vanguardia tecnológica empezó a hacer las cosas de otra manera: construir una simulación digital de los brazos robóticos y la ropa, y dar al programa una señal de recompensa cada vez que pliega con éxito y una señal de penalización cada vez que falla. De esta manera, mejora probando todo tipo de técnicas por ensayo y error, con millones de iteraciones, del mismo modo que la IA mejoró jugando a juegos.

La llegada de ChatGPT en 2022 catalizó el auge actual. Entrenados con vastas cantidades de texto, los grandes modelos de lenguaje no funcionan por ensayo y error, sino aprendiendo a predecir qué palabra debería seguir en una frase. Modelos similares adaptados a la robótica pronto fueron capaces de asimilar imágenes, lecturas de sensores y la posición de las articulaciones de un robot, y predecir la siguiente acción que la máquina debería realizar, emitiendo decenas de comandos de motor cada segundo.

Este cambio conceptual —a la dependencia de modelos de IA que ingieren grandes cantidades de datos— parece funcionar, ya sea que ese robot útil deba hablar con personas, moverse por un ento o o incluso realizar tareas complicadas. Y esto se combinó con otras ideas sobre cómo lograr esta nueva forma de aprendizaje, como desplegar robots incluso si aún no son perfectos para que puedan aprender del ento o en el que están destinados a trabajar. Hoy en día, los roboticistas de Silicon Valley vuelven a soñar a lo grande. Así es como sucedió.

Jibo

Un robot social móvil mantuvo conversaciones mucho antes de la era de los LLM.

Cynthia Breazeal, investigadora de robótica del MIT, presentó al mundo en 2014 un robot sin brazos, sin pie as y sin cara llamado Jibo. De hecho, parecía una lámpara. El objetivo de Breazeal era crear un robot social para familias, y la idea recaudó 3,7 millones de dólares en una campaña de financiación mediante micromecenazgo. Las primeras reservas anticipadas costaron 749 dólares.

El Jibo original podía presentarse y bailar para entretener a los niños, pero eso era todo. La visión siempre fue que se convirtiera en una especie de asistente enca ado capaz de encargarse de todo, desde la gestión de horarios y los correos electrónicos hasta contar historias. Se ganó a numerosos usuarios devotos, pero finalmente la empresa cerró en 2019.

Un robot con una forma vagamente parecida a una letra "i" minúscula — Una campaña de crowdfunding que comenzó en 2014 atrajo 4.800 preventas de Jibo.

En retrospectiva, algo que Jibo realmente necesitaba eran mejores capacidades lingüísticas. Competía contra Siri de Apple y Alexa de Amazon, y todas esas tecnologías en ese momento dependían de un fuerte *scripting*. En términos generales, cuando les hablabas, el software traducía tu voz a texto, analizaba lo que querías y creaba una respuesta extraída de fragmentos preaprobados. Esos fragmentos podían ser encantadores, pero también eran repetitivos y simplemente aburridos—francamente robóticos. Eso fue especialmente un desafío para un robot que se suponía que debía ser social y orientado a la familia.

Lo que ha ocurrido desde entonces, por supuesto, es una revolución en cómo las máquinas pueden generar lenguaje. El modo de voz de cualquier proveedor de IA líder es ahora atractivo e impresionante, y múltiples startups de hardware están intentando (y fracasando) construir productos que se aprovechen de ello.

Pero eso conlleva un nuevo riesgo: mientras que las conversaciones guionizadas no pueden salirse de control, las generadas por IA sí pueden hacerlo. Algunos juguetes populares con IA, por ejemplo, han hablado con niños sobre cómo encontrar cerillas y cuchillos.

OpenAI

Dactyl

Una mano robótica entrenada con simulaciones busca modelar la imprevisibilidad y la variación del mundo real.

Para 2018, todos los principales laboratorios de robótica estaban intentando desechar las antiguas reglas programadas y entrenar robots mediante ensayo y error. OpenAI intentó entrenar su mano robótica, Dactyl, virtualmente—con modelos digitales de la mano y de los cubos del tamaño de la palma que Dactyl debía manipular. Los cubos tenían letras y números en sus caras; el modelo podría establecer una tarea como “Gira el cubo para que la cara roja con la letra O quede hacia arriba”.

Este es el problema: una mano robótica podría volverse muy hábil haciendo esto en su mundo simulado, pero cuando se toma ese programa y se le pide que trabaje con una versión real en el mundo real, las ligeras diferencias entre ambos pueden provocar que las cosas salgan mal. Los colores podrían ser ligeramente diferentes, o la goma deformable de las yemas de los dedos del robot podría resultar ser más elástica de lo que era en la simulación.

una mano robótica Dactyl sostiene un cubo de Rubik — Dactyl, parte del primer intento de OpenAI en robótica, fue entrenado en simulación para resolver cubos de Rubik.

La solución se llama aleatorización de dominios. Esencialmente, se crean millones de mundos simulados que varían todos ligera y aleatoriamente unos de otros. En cada uno de ellos, la fricción podría ser menor, la iluminación más intensa o los colores más oscuros. La exposición a suficiente variación de este tipo significa que los robots serán más capaces de manipular el cubo en el mundo real. El enfoque funcionó con Dactyl, y un año después fue capaz de usar las mismas técnicas clave para hacer algo más difícil: resolver cubos de Rubik (aunque solo funcionó el 60% de las veces, y apenas el 20% cuando los desordenes eran particularmente difíciles).

Aun así, los límites de la simulación significan que esta técnica desempeña un papel mucho menor hoy que en 2018. OpenAI cerró su iniciativa de robótica en 2021, pero ha reanudado recientemente la división—según se informa, centrándose en humanoides.

Google DeepMind

RT-2

El entrenamiento con imágenes de toda inte et ayuda a los robots a traducir el lenguaje en acción.

Hacia 2022, el equipo de robótica de Google se dedicaba a algunas cosas extrañas. Dedicó 17 meses a entregar a la gente mandos de robot y a grabarlos haciendo de todo, desde recoger bolsas de patatas fritas hasta abrir frascos. El equipo acabó catalogando 700 tareas diferentes.

El objetivo era construir y probar uno de los primeros modelos fundacionales a gran escala para robótica. Al igual que con los grandes modelos de lenguaje, la idea era introducir una gran cantidad de texto, tokenizarlo en un formato con el que un algoritmo pudiera trabajar y luego generar una salida. El RT-1 de Google recibió información sobre lo que el robot estaba viendo y cómo estaban posicionadas las muchas partes del brazo robótico; luego tomó una instrucción y la tradujo en comandos de motor para mover el robot. Cuando había visto tareas antes, realizó el 97% de ellas con éxito; tuvo éxito en el 76% de las instrucciones que no había visto antes.

un robot en una mesa de juguetes pequeños — El modelo RT-2, de Robotic Transformer 2, incorporó datos de inte et para ayudar a los robots a procesar lo que estaban viendo.

La segunda iteración, RT-2, fue lanzada al año siguiente y fue incluso más allá. En lugar de entrenarse con datos específicos de robótica, amplió su alcance: se entrenó con imágenes más generales de inte et, como los modelos de visión-lenguaje en los que trabajaban muchos investigadores en aquel momento. Eso permitió al robot interpretar la ubicación de ciertos objetos en la escena.

“Todas estas otras cosas se desbloquearon”, afirma Kanishka Rao, un robotista de Google DeepMind que dirigió el trabajo en ambas iteraciones. “Ahora podíamos hacer cosas como ‘Pon la lata de Coca-Cola cerca de la foto de Taylor Swift’.”

En 2025, Google DeepMind fusionó aún más los mundos de los grandes modelos de lenguaje y la robótica, lanzando un modelo Gemini Robotics con una capacidad mejorada para comprender comandos en lenguaje natural.

Covariant

RFM-1

Un modelo de IA que permite a los brazos robóticos actuar como compañeros de trabajo.

En 2017, antes de que OpenAI cerrara su primer equipo de robótica, un grupo de sus ingenieros escindió un proyecto llamado Covariant, con el objetivo de construir no humanoides de ciencia ficción, sino el más pragmático de todos los robots: un brazo capaz de recoger y mover objetos en almacenes. Tras construir un sistema basado en modelos fundacionales similares a los de Google, Covariant desplegó esta plataforma en almacenes como los operados por Crate & Barrel y lo trató como un canal de recopilación de datos.

Para 2024, Covariant había lanzado un modelo de robótica, RFM-1, con el que se podía interactuar como si fuera un compañero de trabajo. Si, por ejemplo, se mostraban a un brazo varias fundas de pelotas de tenis, se le podía indicar que moviera cada funda a un área separada. Y el robot podía responder—quizás prediciendo que no sería capaz de sujetar bien el objeto y luego pidiendo consejo sobre qué ventosas específicas debería utilizar.

Esto se había realizado en experimentos, pero Covariant lo estaba implementando a gran escala. La compañía ahora disponía de cámaras y máquinas de recopilación de datos en las instalaciones de cada cliente, lo que aportaba aún más datos para el entrenamiento del modelo.

un brazo robótico de almacén levanta un objeto con muchas ventosas para colocarlo en un contenedor — Un robot de Covariant demuestra la «inducción» —la tarea habitual en almacenes de colocar objetos en clasificadores o cintas transportadoras.

No fue perfecto. En una demostración en marzo de 2024 con un surtido de artículos de cocina, el robot tuvo dificultades cuando se le pidió que «devolviera el plátano» a su ubicación original. Cogió una esponja, luego una manzana y después una serie de otros artículos antes de que finalmente completara la tarea.

“No entiende el nuevo concepto de desandar sus pasos”, me comentó entonces el cofundador Peter Chen. “Pero es un buen ejemplo—puede que todavía no funcione bien en los lugares donde no se tienen buenos datos de entrenamiento.”

Chen y su cofundador, Pieter Abbeel, no tardaron en ser contratados por Amazon, que actualmente está licenciando el modelo de robótica de Covariant (Amazon no respondió a preguntas sobre cómo se está utilizando, pero la compañía opera un estimado de 1.300 almacenes solo en EE. UU.).

Agility Robotics

Digit

Las empresas están poniendo a prueba este humanoide en ento os reales.

Los nuevos flujos de inversión dirigidos a las startups de robótica se centran en gran medida en robots con forma humana, y no con forma de lámparas o brazos. Se espera que los robots humanoides puedan integrarse sin problemas en los espacios y puestos de trabajo donde actualmente operan los humanos, evitando la necesidad de reequipar las líneas de montaje para adaptarse a nuevas formas, como brazos gigantes.

Es más fácil decirlo que hacerlo. En los escasos casos en los que los humanoides aparecen en almacenes reales, suelen estar confinados a zonas de prueba y programas piloto.

Robot humanoide Digit colocando un contenedor de plástico en una cinta transportadora — Amazon y otras empresas están utilizando a Digit para ayudar a mover contenedores de envío.

Dicho esto, Digit, el humanoide de Agility, parece estar realizando un trabajo real. Su diseño—con articulaciones expuestas y una cabeza claramente no humana—está impulsado más por la función que por la estética de ciencia ficción. Amazon, Toyota y GXO (un gigante logístico con clientes como Apple y Nike) lo han desplegado—convirtiéndolo en uno de los primeros ejemplos de robot humanoide que las empresas consideran que proporciona ahorros de costes reales en lugar de ser una mera novedad. Sus Digits pasan sus días recogiendo, moviendo y apilando contenedores de envío.

El Digit actual, sin embargo, aún está muy lejos del asistente con apariencia humana por el que apuesta Silicon Valley. Solo puede levantar 35 libras, por ejemplo—y cada vez que Agility hace a Digit más fuerte, su batería se vuelve más pesada y tiene que recargarse con más frecuencia. Además, los organismos de normalización afirman que los humanoides necesitan reglas de seguridad más estrictas que la mayoría de los robots industriales, porque están diseñados para ser móviles y pasar tiempo cerca de las personas.

Pero Digit demuestra que esta revolución en el entrenamiento de robots no está convergiendo en un único método. Agility se basa en técnicas de simulación como las que OpenAI utilizó para entrenar su mano, y la compañía ha trabajado con los modelos Gemini de Google para ayudar a sus robots a adaptarse a nuevos ento os. Ahí es donde más de una década de experimentos ha llevado a la industria: ahora está construyendo a lo grande.

¿Qué ha pasado? Una revolución en la forma en que las máquinas han aprendido a interactuar con el mundo.

Jibo

Un robot social móvil mantuvo conversaciones mucho antes de la era de los LLM.