Cómo Pokémon Go está dando a los robots de reparto una visión milimétrica del mundo

Pokémon Go fue el primer gran éxito mundial de la realidad aumentada. Lanzado en 2016 por la escisión de Google, Niantic, el giro de realidad aumentada sobre la gigantesca franquicia Pokémon se convirtió rápidamente en un fenómeno global. Desde Chicago (Illinois, EE UU) hasta Oslo (Noruega) y Enoshima (Japón), los jugadores salían a las calles con esperanza de atrapar un Jigglypuff o un Squirtle o (con muchísima suerte) un ultra-raro Galarian Zapdos que flotaba apenas fuera de su alcance, superpuesto al mundo cotidiano.

En resumen, hablamos de una enorme cantidad de personas apuntando sus teléfonos a una enorme cantidad de edificios. “Quinientos millones de personas instalaron la app en 60 días”, afirma Brian McClendon, CTO de Niantic Spatial, una empresa de IA creada por Niantic en mayo del año pasado. Según la compañía de videojuegos Scopely, que compró Pokémon Go a Niantic al mismo tiempo, el juego seguía atrayendo a más de 100 millones de jugadores en 2024, ocho años después de su lanzamiento.

Ahora, Niantic Spatial está utilizando ese vasto e incomparable tesoro de datos recopilados por multitudes —imágenes de hitos urbanos etiquetadas con marcadores de ubicación extremadamente precisos tomadas desde los teléfonos de cientos de millones de jugadores de Pokémon Go en todo el mundo— para construir una especie de modelo de mundos (world model en inglés), una nueva y llamativa tecnología que conecta la inteligencia de los grandes modelos de lenguaje con entornos reales.

El producto más reciente de la compañía es un modelo que, según afirma, puede identificar tu ubicación en un mapa con una precisión de pocos centímetros basándose en unas cuantas instantáneas de los edificios u otros puntos de referencia a la vista. La empresa quiere utilizarlo para ayudar a robots a navegar con mayor precisión en lugares donde el GPS es poco fiable.

En la primera gran prueba de su tecnología, Niantic Spatial acaba de asociarse con Coco Robotics, una startup que despliega robots de reparto de última milla en varias ciudades de Estados Unidos y Europa. “Todo el mundo pensaba que la realidad aumentada era el futuro, que iban a llegar las gafas de realidad aumentada”, explica McClendon. “Y entonces los robots se convirtieron en el público”.

De Pikachu al reparto de pizza

Coco Robotics despliega alrededor de 1.000 robots del tamaño de una maleta de transporte —capaces de llevar hasta ocho pizzas extragrandes o cuatro bolsas de la compra— en Los Ángeles, Chicago, Nueva Jersey, Miami y Helsinki (Finlandia). Según su CEO, Zach Rash, los robots han realizado más de medio millón de entregas hasta la fecha, recorriendo unos cuantos millones de millas bajo todo tipo de condiciones meteorológicas.

Pero para competir con mensajeros humanos, los robots de Coco —que avanzan por las aceras a unos 8 km por hora— deben ser lo más fiables posible. “La mejor forma de hacer nuestro trabajo es llegar exactamente cuándo dijimos que íbamos a llegar”, afirma Rash. Y eso implica no perderse.

El problema al que se enfrenta Coco es que no puede confiar en el GPS, que puede ser débil en las ciudades porque las señales de radio rebotan en los edificios e interfieren entre sí. “Hacemos entregas en muchas zonas densas con rascacielos, pasos elevados y autopistas, y esas son justo las áreas donde el GPS nunca funciona bien”, indica Rash.

“El cañón urbano es el peor lugar del mundo para el GPS”, añade McClendon. “Si miras ese punto azul en tu móvil, a menudo verás que se desplaza 50 metros, lo que te coloca en otra manzana, yendo en otra dirección, en el lado equivocado de la calle”. Ahí es donde entra Niantic Spatial.

Durante los últimos años, Niantic Spatial ha utilizado los datos recopilados de los jugadores de Pokémon Go e Ingress (el anterior juego de RA para móviles de Niantic, lanzado en 2013) para construir un sistema de posicionamiento visual, una tecnología que te indica dónde estás basándose en lo que ves. “Resulta que conseguir que Pikachu corra de forma realista y lograr que el robot de Coco se mueva de forma segura y precisa por el mundo es, en realidad, el mismo problema”, asegura John Hanke, CEO de Niantic Spatial.

“El posicionamiento visual no es una tecnología muy nueva”, afirma Konrad Wenzel, de ESRI, una empresa que desarrolla software de cartografía digital y análisis geoespacial. “Pero es evidente que cuantas más cámaras tengamos ahí fuera, mejor será”.

Niantic Spatial ha entrenado su modelo con 30.000 millones de imágenes capturadas en entornos urbanos. En particular, las imágenes se agrupan alrededor de puntos calientes —lugares que servían como ubicaciones importantes en los juegos de Niantic y que se animaba a los jugadores a visitar, como las arenas de combate de Pokémon. “Teníamos más de un millón de ubicaciones en todo el mundo donde podíamos situarte con precisión”, explica McClendon. “Sabemos dónde estás situado con una precisión de varios centímetros y, lo más importante, hacia dónde estás mirando”.

El resultado es que, para cada una de esas ubicaciones, Niantic Spatial dispone de miles de imágenes tomadas más o menos desde el mismo lugar, pero desde distintos ángulos, en diferentes momentos del día y con condiciones meteorológicas diversas. Cada una de esas imágenes viene con metadatos detallados que indican la posición exacta del teléfono al capturarla, incluyendo hacia dónde apuntaba, su inclinación, si estaba en movimiento, a qué velocidad y en qué dirección, entre otros factores.

La empresa ha utilizado este conjunto de datos para entrenar un modelo capaz de predecir exactamente dónde se encuentra basándose en lo que ve, incluso en ubicaciones que no son esos puntos calientes, donde hay menos datos visuales y de ubicación.

Además del GPS, los robots de Coco, que están equipados con cuatro cámaras, utilizarán ahora este modelo para tratar de averiguar dónde están y hacia dónde se dirigen. Las cámaras de los robots están a la altura de la cadera y apuntan en todas direcciones a la vez, por lo que su perspectiva es algo distinta a la de un jugador de Pokémon Go, pero adaptar los datos fue sencillo, asegura Rash.

Empresas rivales también utilizan sistemas de posicionamiento visual. Por ejemplo, Starship Technologies, una firma de robots de reparto fundada en Estonia en 2014, afirma que sus robots usan sensores para construir un mapa 3D de su entorno, trazando los bordes de los edificios y la posición de las farolas.

Pero Rash apuesta a que la tecnología de Niantic Spatial dará a Coco una ventaja. Afirma que permitirá a sus robots posicionarse en los puntos de recogida correctos frente a los restaurantes, asegurando que no molesten a nadie, y detenerse justo fuera del camino de entrada del cliente en lugar de unos pasos antes, como podía suceder en el pasado.

Una explosión cámbrica en la robótica

Cuando Niantic Spatial comenzó a trabajar en su sistema de posicionamiento visual, su objetivo era aplicarlo a la realidad aumentada, explica Hanke. “Si llevas gafas de realidad aumentada y quieres que el mundo se ancle allí donde estás mirando, necesitas algún método para hacerlo”, señala. “Pero ahora estamos viendo una explosión cámbrica en la robótica”.

Algunos de esos robots podrían necesitar compartir espacios con humanos —lugares como obras de construcción o aceras—. “Si los robots van a integrarse en ese entorno de una forma que no sea disruptiva para las personas, necesitarán un nivel de comprensión espacial similar”, afirma Hanke. “Podemos ayudar a los robots a encontrar exactamente dónde están cuando han sido empujados o golpeados”.

La alianza con Coco Robotics es solo el comienzo. Lo que Niantic Spatial está poniendo en marcha, afirma Hanke, son las primeras piezas de lo que él llama un living map: una simulación virtual hiperprecisa del mundo que cambia a medida que el mundo cambia. A medida que los robots de Coco y otras compañías se muevan por el entorno, generarán nuevas fuentes de datos cartográficos, alimentando réplicas digitales cada vez más detalladas del mundo real.

Pero según Hanke y McClendon, los mapas no solo están ganando precisión; cada vez los usan más las máquinas. Y eso modifica su propósito. Los mapas se han utilizado tradicionalmente para ayudar a las personas a situarse. Incluso al pasar de 2D a 3D a 4D (piénsese en simulaciones en tiempo real como los gemelos digitales), el principio básico se mantenía: los puntos del mapa corresponden a puntos en el espacio o el tiempo.

Sin embargo, los mapas para máquinas pueden necesitar convertirse en algo más parecido a guías, llenas de información que los humanos damos por sentada. Empresas como Niantic Spatial y ESRI quieren añadir descripciones que indiquen a las máquinas qué están viendo realmente, con cada objeto etiquetado con una lista de propiedades. “Esta era consiste en construir descripciones útiles del mundo para que las máquinas lo comprendan”, afirma Hanke. “Los datos que tenemos son un gran punto de partida para construir una comprensión de cómo funciona el tejido conectivo del mundo”.

Hay mucho revuelo sobre los modelos de mundo en este momento—y Niantic Spatial lo sabe. Los grandes modelos de lenguaje pueden parecer sabelotodos, pero tienen muy poco sentido común a la hora de interpretar e interactuar con entornos cotidianos. Los modelos de mundo pretenden solucionar eso. Algunas empresas, como Google DeepMind o World Labs, están desarrollando modelos que generan mundos virtuales de fantasía sobre la marcha, que pueden utilizarse como espacios de entrenamiento para agentes de IA.

Niantic Spatial asegura que aborda el problema desde otro ángulo. Si se lleva la cartografía lo suficientemente lejos, terminarás capturándolo todo, indica McClendon: “Todavía no estamos ahí, pero queremos llegar. Estoy muy centrado en intentar recrear el mundo real”.

MIT Technology Review en español

Cómo Pokémon Go está dando a los robots de reparto una visión milimétrica del mundo

Artículos Relacionados

Contacta con nosotros