Cómo Pokémon Go dota a los robots de reparto de una visión del mundo de precisión milimétrica

La empresa derivada de IA de Niantic entrena un nuevo modelo del mundo utilizando 30 mil millones de imágenes de puntos de referencia urbanos recopiladas a través de la colaboración colectiva de los jugadores.

Pokémon Go fue el primer gran éxito mundial de realidad aumentada. Lanzado en 2016 por Niantic, una empresa escindida de Google, el giro de RA en la mastodóntica franquicia Pokémon se convirtió rápidamente en un fenómeno global. Desde Chicago hasta Oslo y Enoshima, los jugadores salieron a las calles con la apremiante esperanza de atrapar un Jigglypuff o un Squirtle o (con muchísima suerte) un ultrararo Zapdos de Galar flotando justo fuera de su alcance, superpuesto en el mundo cotidiano.

En resumen, hablamos de una enorme cantidad de personas apuntando sus teléfonos a una enorme cantidad de edificios. «Quinientos millones de personas instalaron esa aplicación en 60 días», afirma Brian McClendon, director de tecnología (CTO) de Niantic Spatial, una empresa de IA que Niantic escindió en mayo del año pasado. Según la empresa de videojuegos Scopely, que compró Pokémon Go a Niantic al mismo tiempo, el juego todavía atraía a más de 100 millones de jugadores en 2024, ocho años después de su lanzamiento.

Ahora, Niantic Spatial está utilizando ese vasto e inigualable tesoro de datos obtenidos mediante crowdsourcing —imágenes de puntos de referencia urbanos etiquetadas con marcadores de ubicación superprecisos, tomadas de los teléfonos de cientos de millones de jugadores de Pokémon Go de todo el mundo— para construir una especie de modelo del mundo, una novedosa tecnología muy comentada que asienta la inteligencia de los LLM en ento os reales.

El último producto de la empresa es un modelo que, según afirma, puede determinar tu ubicación en un mapa con una precisión de pocos centímetros, basándose en unas pocas instantáneas de los edificios u otros puntos de referencia a la vista. La firma quiere utilizarlo para ayudar a los robots a navegar con mayor precisión en lugares donde el GPS no es fiable.

En la primera gran prueba de su tecnología, Niantic Spatial acaba de asociarse con Coco Robotics, una startup que despliega robots de reparto de última milla en varias ciudades de Estados Unidos y Europa. «Todo el mundo pensaba que la RA era el futuro, que las gafas de RA estaban llegando», dice McClendon. «Y luego los robots se convirtieron en la audiencia».

De Pikachu a la entrega de pizza

Coco Robotics despliega alrededor de 1.000 robots del tamaño de una maleta de transporte —diseñados para transportar hasta ocho pizzas extragrandes o cuatro bolsas de la compra— en Los Ángeles, Chicago, Jersey City, Miami y Helsinki. Según Zach Rash, su director ejecutivo, los robots han realizado más de medio millón de entregas hasta la fecha, recorriendo varios millones de millas en todo tipo de condiciones meteorológicas.

Pero para competir con los repartidores humanos, los robots de Coco, que circulan a paso lento por las aceras a unos ocho kilómetros por hora, deben ser lo más fiables posible. «La mejor forma de hacer nuestro trabajo es llegando exactamente cuando dijimos que íbamos a llegar», dice Rash. Y eso significa no perderse.

El problema al que se enfrenta Coco es que no puede depender del GPS, que puede ser débil en las ciudades porque las señales de radio rebotan en los edificios y se interfieren entre sí. «Hacemos entregas en muchas zonas densas con rascacielos, pasos subterráneos y autopistas, y esas son las zonas donde el GPS simplemente nunca funciona bien», afirma Rash.

“El cañón urbano es el peor lugar del mundo para el GPS”, afirma McClendon. “Si miras ese punto azul en tu teléfono, a menudo lo verás desviarse 50 metros, lo que te sitúa en una manzana diferente, yendo en una dirección distinta o en el lado equivocado de la calle”. Ahí es donde entra en juego Niantic Spatial.

Durante los últimos años, Niantic Spatial ha estado recopilando los datos de los jugadores de Pokémon Go e Ingress (el juego de RA móvil anterior de Niantic, lanzado en 2013) y construyendo un sistema de posicionamiento visual, una tecnología que te dice dónde estás basándose en lo que puedes ver. “Resulta que lograr que Pikachu corra de forma realista y que el robot de Coco se mueva de forma segura y precisa por el mundo es en realidad el mismo problema”, afirma John Hanke, CEO de Niantic Spatial.

«El posicionamiento visual no es una tecnología precisamente novedosa», afirma Konrad Wenzel, de ESRI, una empresa que desarrolla software de cartografía digital y análisis geoespacial. «Pero es evidente que cuantas más cámaras haya ahí fuera, mejor funciona».

Niantic Spatial ha entrenado su modelo con 30.000 millones de imágenes capturadas en ento os urbanos. En particular, las imágenes se agrupan en to o a 'puntos calientes' (hot spots), lugares que sirvieron como ubicaciones importantes en los juegos de Niantic que los jugadores eran animados a visitar, como las arenas de combate de Pokémon. «Teníamos más de un millón de ubicaciones en todo el mundo donde podemos localizarte con precisión», afirma McClendon. «Sabemos dónde estás con una precisión de varios centímetros y, lo que es más importante, hacia dónde miras».

El resultado es que, para cada una de ese millón de ubicaciones, Niantic Spatial dispone de muchos miles de imágenes tomadas más o menos en el mismo lugar, pero desde ángulos diferentes, a distintas horas del día y con diferentes condiciones meteorológicas. Cada una de esas imágenes incluye metadatos detallados que determinan dónde se encontraba el teléfono en el espacio en el momento de la captura, incluyendo la orientación del teléfono, si estaba vertical u horizontal, si se movía o no, a qué velocidad y en qué dirección, y más.

La empresa ha utilizado este conjunto de datos para entrenar un modelo que prediga con exactitud dónde se encuentra, teniendo en cuenta lo que está viendo, incluso para ubicaciones distintas a esos millones de puntos clave donde las buenas fuentes de datos de imagen y ubicación son más escasas.

Además de GPS, los robots de Coco, equipados con cuatro cámaras, usarán ahora este modelo para intentar determinar dónde están y hacia dónde se dirigen. Las cámaras de los robots están a la altura de la cadera y apuntan en todas direcciones simultáneamente, por lo que su punto de vista es un poco diferente al de un jugador de Pokémon Go, pero adaptar los datos fue sencillo, según Rash.

Las empresas rivales también utilizan sistemas de posicionamiento visual. Por ejemplo, Starship Technologies, una empresa de reparto robótico fundada en Estonia en 2014, afirma que sus robots utilizan sus sensores para construir un mapa 3D de su ento o, trazando los bordes de los edificios y la posición de las farolas.

Pero Rash apuesta a que la tecnología de Niantic Spatial dará a Coco una ventaja. Afirma que permitirá a sus robots posicionarse en los puntos de recogida correctos fuera de los restaurantes, asegurándose de que no entorpezcan el paso, y detenerse justo delante de la puerta del cliente en lugar de a unos pocos pasos, lo que podría haber ocurrido en el pasado.

Una explosión cámbrica en robótica

Cuando Niantic Spatial empezó a trabajar en su sistema de posicionamiento visual, la idea era aplicarlo a la realidad aumentada, dice Hanke. “Si llevas puestas gafas de realidad aumentada y quieres que el mundo se ancle a lo que estás mirando, entonces necesitas un método para conseguirlo”, dice. “Pero ahora estamos viendo una explosión cámbrica en robótica.”

Algunos de esos robots puede que necesiten compartir espacios con humanos —espacios como obras de construcción y aceras. «Si los robots pretenden integrarse en ese ento o sin perturbar a los seres humanos, tendrán que tener un nivel similar de comprensión espacial», afirma Hanke. «Podemos ayudar a los robots a encontrar exactamente dónde están cuando han sido zarandeados y golpeados».

La colaboración con Coco Robotics es solo el comienzo. Lo que Niantic Spatial está implementando, dice Hanke, son las primeras piezas de lo que él llama un mapa vivo: una simulación virtual hiperdetallada del mundo que cambia a medida que el mundo lo hace. A medida que los robots de Coco y otras empresas se desplacen por el mundo, proporcionarán nuevas fuentes de datos cartográficos, alimentando réplicas digitales del mundo cada vez más detalladas.

Pero, tal como lo ven Hanke y McClendon, los mapas no solo son cada vez más detallados; también están siendo utilizados cada vez más por máquinas. Esto cambia la finalidad de los mapas. Desde hace mucho tiempo, los mapas se han utilizado para ayudar a las personas a ubicarse en el mundo. Aunque han evolucionado de 2D a 3D y a 4D (pensemos en simulaciones en tiempo real, como los gemelos digitales), el principio fundamental no ha cambiado: los puntos en el mapa se corresponden con puntos en el espacio o el tiempo.

Sin embargo, los mapas para máquinas quizá deban asemejarse más a guías turísticas, repletas de información que los humanos dan por sentada. Empresas como Niantic Spatial y ESRI quieren añadir descripciones que digan a las máquinas qué es lo que realmente ven, con cada objeto etiquetado con una lista de sus propiedades. “Esta era consiste en construir descripciones útiles del mundo para que las máquinas las comprendan”, dice Hanke. “Los datos que tenemos son un gran punto de partida para desarrollar un entendimiento de cómo funciona el tejido conectivo del mundo”.

Existe mucho revuelo en to o a los modelos de mundo en este momento —y Niantic Spatial lo sabe. Los LLM pueden parecer sabelotodos, pero poseen muy poco sentido común a la hora de interpretar e interactuar con ento os cotidianos. Los modelos de mundo buscan solucionar eso. Algunas empresas, como Google DeepMind y World Labs, están desarrollando modelos que generan mundos virtuales de fantasía sobre la marcha, los cuales pueden ser utilizados como dojos de entrenamiento para agentes de IA.

Niantic Spatial afirma que aborda el problema desde un ángulo diferente. Si llevas la creación de mapas lo suficientemente lejos, acabarás capturándolo todo, dice McClendon: “Estoy muy centrado en intentar recrear el mundo real. Todavía no estamos ahí, pero queremos estarlo.”

Buscar en MIT Technology Review

Explorar Temas

Secciones

Cómo Pokémon Go dota a los robots de reparto de una visión del mundo de precisión milimétrica

De Pikachu a la entrega de pizza

Una explosión cámbrica en robótica

De Pikachu a la entrega de pizza

Una explosión cámbrica en robótica