Inteligencia Artificial
Google desvela su Proyecto Astra, la apuesta para imponerse en los agentes de IA
Google ha lanzado una serie de nuevos productos entre los que destaca el Proyecto Astra, un asistente universal todavía en fase de desarrollo capaz de enfocar con la cámara un objeto y ofrecer respuestas en tiempo real basadas en lo que captura
Google DeepMind ha presentado varios nuevos productos y prototipos que podrían ayudarle a retomar el liderazgo en la carrera por llevar la inteligencia artificial generativa al gran público.
Uno de esos productos es Gemini 2.0, la última versión de la familia de grandes modelos lingüísticos multimodales de Google DeepMind, ahora mejorada para controlar agentes. También está una nueva edición de Proyecto Astra, la aplicación experimental presentada por la empresa en el evento Google I/O de mayo.
MIT Technology Review tuvo la oportunidad de probar Astra en una demostración en directo a puerta cerrada. Aunque la experiencia fue impresionante, quedó claro que existe una gran diferencia entre la promoción y la realidad.
Astra emplea el marco de agentes integrado en Gemini 2.0 para responder preguntas y ejecutar tareas a través de texto, voz, imágenes y vídeo, utilizando aplicaciones de Google como Search, Maps y Lens cuando es necesario. "Es la fusión de algunos de los sistemas de recuperación de información más avanzados de nuestra era", comenta Bibo Xu, responsable de producto de Astra.
A Gemini 2.0 y Astra se suman otros productos. Entre ellos se encuentra Mariner, un agente basado en Gemini que puede navegar por Internet en tu nombre; Jules, un asistente de codificación impulsado por Gemini; y Gemini for Games, un asistente experimental con el que puedes chatear y recibir consejos mientras juegas.
Por si fuera poco, la semana pasada Google DeepMind también presentó Veo, un nuevo modelo de generación de vídeo; Imagen 3, una nueva versión de su modelo generador de imágenes; y Willow, un innovador chip para ordenadores cuánticos. Mientras tanto, el CEO de DeepMind, Demis Hassabis, recibió el Premio Nobel de Químicaen Suecia
Google DeepMind asegura que Gemini 2.0 es el doble de rápido que su predecesor, Gemini 1.5, y que supera a este en diversas pruebas. Entre ellas se encuentra MMLU-Pro, un extenso conjunto de preguntas de opción múltiple diseñado para evaluar las habilidades de los grandes modelos lingüísticos en una amplia variedad de áreas, como matemáticas, física, salud, psicología y filosofía.
Sin embargo, las diferencias entre los modelos de gama alta, como Gemini 2.0, y los desarrollados por rivales, como OpenAI y Anthropic, se han reducido de manera considerable. Actualmente, los avances en los grandes modelos lingüísticos dependen más de sus aplicaciones prácticas que de su calidad técnica.
En este contexto, los agentes juegan un papel clave.
Manos a la obra con el Proyecto Astra
La semana pasada, me llevaron a través de una puerta en un piso superior de un edificio en el barrio londinense de King’s Cross. En concreto, hasta una sala que desprendía una gran atmósfera de proyecto secreto. La palabra "ASTRA" brillaba en letras gigantes sobre una pared. El perro de Xu, Charlie, la mascota no oficial del proyecto, caminaba entre las mesas donde investigadores e ingenieros trabajaban intensamente en el desarrollo de un producto clave para el futuro de Google.
"La idea es crear una inteligencia artificial que tenga ojos, oídos y voz, que pueda acompañarte a donde vayas y asistirte en todo lo que hagas", explica Greg Wayne, codirector del equipo Astra. "Aún no hemos llegado allí, pero esa es la visión que tenemos", añade.
El término oficial para lo que Xu, Wayne y su equipo están desarrollando es "asistente universal". Sin embargo, aún no tienen claro qué significa exactamente en la práctica.
En un extremo de la sala de Astra, había dos escenarios diseñados para las demostraciones: un bar y una galería de arte simulada. Xu me condujo primero al bar. "Hace tiempo contratamos a un experto en coctelería para que nos enseñara a preparar cócteles. Grabamos esas conversaciones y las utilizamos para entrenar nuestro modelo inicial", explica Praveen Srinivasan, otro de los codirectores del proyecto.
Xu abrió un libro de cocina con una receta de pollo al curry, apuntó con su teléfono y activó a Astra. "¡Ni hao, Bibo!", respondió una voz femenina.
"¡Oh! ¿Por qué me hablas en mandarín? ¿Podrías hablarme en inglés, por favor?", preguntó Xu a su teléfono. "Mis disculpas, Bibo. Estaba siguiendo una instrucción previa para hablar en mandarín. Ahora cambiaré a inglés, como me has pedido", contestó la IA.
Según Xu, Astra tiene la capacidad de recordar conversaciones previas, así como los últimos 10 minutos de vídeo. De hecho, en el vídeo promocional que Google lanzó en mayo, se ve un momento en el que Astra le dice a la persona que está haciendo la demostración dónde dejó sus gafas, después de haberlas visto en un escritorio unos segundos antes. Sin embargo, no vi nada parecido en la demostración en vivo.
De vuelta al libro de cocina, Xu movió la cámara de su teléfono sobre la página durante unos segundos y le pidió a Astra que leyera la receta y le indicara qué especias contenía. "Recuerdo que la receta menciona una cucharadita de pimienta negra en grano, una cucharadita de chile en polvo picante y una rama de canela", respondió Astra.
"Creo que te faltan algunos. Echa otro vistazo", dijo Xu.
"Tienes razón, me disculpo. También veo cúrcuma molida y hojas de curry en los ingredientes", respondió la IA.
Al ver esta tecnología en acción, hay dos aspectos que resultan evidentes. El primero, es que presenta errores que requieren corrección. Y el segundo, que esos errores se pueden solucionar con unas pocas palabras. Basta con interrumpir, repetir las instrucciones y continuar. Es más similar a enseñar a un niño que a lidiar con un softwaredefectuoso.
Luego, Xu apuntó su teléfono hacia una fila de botellas de vino y le pidió a Astra que eligiera la que mejor acompañaría el pollo al curry. Astra optó por un rioja y explicó su elección. Xu, entonces, preguntó cuánto costaba la botella. Astra respondió que debía buscar el precio en Internet, y en cuestión de segundos, le proporcionó la respuesta.
Nos dirigimos a la galería de arte, donde Xu le mostró a Astra varias pantallas con obras célebres: La Gioconda, El Grito de Munch, un Vermeer, un Seurat, entre otras. "¡Ni hao, Bibo!", respondió la voz.
"Vuelves a hablarme en mandarín", dijo Xu. "Intenta hablarme en inglés, por favor".
"Mis disculpas, parece que entendí mal. Sí, responderé en inglés", dijo, con un tono que parecía llevar algo de sarcasmo.
Ahora era mi turno. Xu me pasó su teléfono.
Intenté poner a prueba a Astra, pero no conseguí pillarla. Le pregunté en qué famosa galería de arte estábamos, pero se negó a decirlo. Luego, le cuestioné por qué había identificado los cuadros como réplicas, y empezó a disculparse por su error (Astra se disculpa mucho). Tuve que interrumpirla: "No, no, tienes razón. No es un error. Estás acertada al identificar esos cuadros como falsificaciones". No pude evitar sentirme un poco mal, había puesto a prueba una aplicación diseñada solo para agradar.
Cuando Astra funciona correctamente, resulta fascinante. La experiencia de conversar con tu teléfono sobre cualquier cosa que estés apuntando es fluida y sorprendentemente natural. En una rueda de prensa celebrada ayer, Google DeepMind presentó un vídeo con otros ejemplos de su uso: leer un correo electrónico en la pantalla del teléfono para encontrar un código de acceso (y recordártelo más tarde), apuntar el teléfono a un autobús que pasa y preguntarle su destino, o preguntar a Astra sobre una obra de arte pública mientras la observas. Esta podría ser la aplicación definitiva de la inteligencia artificial generativa.
Sin embargo, aún falta mucho para que esta tecnología esté al alcance de la mayoría de las personas. No se ha dado ninguna fecha de lanzamiento. Google DeepMind también ha mostrado vídeos de Astra funcionando en un par de gafas inteligentes, pero esa tecnología sigue siendo una prioridad secundaria para la empresa.
Mezclarlo todo
Por el momento, investigadores externos a Google DeepMind siguen de cerca sus avances. "La manera en que están combinando todo es impresionante", afirma Maria Liakata, experta en grandes modelos lingüísticos en la Universidad Queen Mary de Londres (Reino Unido) y el Instituto Alan Turing. "Razonar solo con el lenguaje ya es difícil, pero aquí también tienen que incluir imágenes y otros elementos. No es algo fácil", apunta añade.
Liakata también destaca la capacidad de Astra para recordar lo que ha visto o escuchado. Está logrando lo que se conoce como "contexto de largo alcance", lo que permite a los modelos no perder de vista la información previamente procesada. "Es realmente emocionante. Lograrlo en una sola modalidad ya es un gran avance", afirma la especialista en IA.
Sin embargo, Liakata reconoce que gran parte de su valoración se basa en conjeturas: "El razonamiento multimodal está a la vanguardia. No obstante, es difícil saber con precisión en qué punto se encuentran, ya que no han revelado muchos detalles sobre la tecnología en sí".
Para Bodhisattwa Majumder, investigador en modelos y agentes multimodales en el Allen Institute for AI, esa es una de las principales preocupaciones: "No tenemos idea de cómo lo hace Google".
Asimismo, destaca que, si Google fuera más transparente sobre lo que está desarrollando, las personas podrían comprender mejor las limitaciones de la tecnología que pronto estarán usando. "Es fundamental que sepan cómo funcionan estos sistemas. Los usuarios deben poder ver lo que el sistema ha aprendido sobre ellos, corregir errores o eliminar información que prefieran mantener privada", afirma el investigador.