Captura de pantalla de la demo de Astra en la que el usuario dibuja una flecha roja en la pantalla del teléfono donde la cámara del teléfono muestra la parte superior de un altavoz en un escritorio de la habitación, y Astra responde diciendo que el altavoz de agudos “produce sonidos de alta frecuencia”

Inteligencia Artificial

Astra, la apuesta de Google para ampliar la capacidad de la IA verá la luz a finales de año

Los usuarios podrán interactuar con el asistente de inteligencia artificial mediante audio y vídeo cuando se lance a finales de este año.

por Melissa Heikkilä | traducido por
16 Mayo, 2024

Google está trabajando para presentar un nuevo sistema llamado Astra a finales de este año y promete que será el tipo de asistente de IA más potente y avanzado que haya lanzado nunca.

La actual generación de asistentes de IA, como ChatGPT, puede recuperar información y ofrecer respuestas, pero eso es todo. Este año, Google está rebautizando sus asistentes como "agentes" más avanzados, que podrían mostrar habilidades de razonamiento, planificación y memoria y que son capaces de dar múltiples pasos para ejecutar tareas, según apunta la compañía.

Los usuarios podrán utilizar Astra a través de sus teléfonos inteligentes y, posiblemente, ordenadores de sobremesa, pero la empresa también está explorando otras opciones, como integrarlo en gafas inteligentes u otros dispositivos, según ha explicado Oriol Vinyals, vicepresidente de investigación de Google DeepMind, a MIT Technology Review.

"Estamos en una fase muy temprana [del desarrollo de asistenets de IA]", dijo Sundar Pichai, CEO de Google, en una llamada previa a la conferencia I/O de Google de esta semana.

"Siempre hemos querido construir un asistente universal que sea útil en la vida cotidiana", afirma Demis Hassabis, CEO y cofundador de Google DeepMind. "Imagina agentes que puedan ver y oír lo que hacemos, entender mejor el contexto en el que estamos y responder rápidamente en una conversación, haciendo que el ritmo y la calidad de la interacción parezcan mucho más naturales". Eso es lo que será Astra, afirma.

El anuncio de Google se produce un día después de que su competidor OpenAI presentara su propio súper asistente de IA, GPT-4o. Astra, de Google DeepMind, responde a entradas de audio y vídeo de forma muy parecida a GPT-4o (aunque con menos flirteo).

En una demostración para la prensa, un usuario apuntó a objetos con la cámara de un smartphone y unas gafas inteligentes y pidió a Astra que le explicara qué eran. Cuando la persona apuntó el dispositivo por la ventana y preguntó "¿En qué barrio crees que estoy?", el sistema de IA fue capaz de identificar King's Cross, Londres (Reino Unido), sede de Google DeepMind. También fue capaz de decir que las gafas de la persona estaban sobre un escritorio, tras haberlas grabado antes en la interacción.

La demostración muestra la visión de Google DeepMind de la IA multimodal (que puede manejar múltiples tipos de entrada: voz, vídeo, texto, etc.) trabajando en tiempo real, dice Vinyals.

"Estamos entusiasmados con la idea de que en el futuro podamos acercarnos al usuarioy ayudarle en todo lo que desee", afirma. Google acaba de actualizar su modelo de inteligencia artificial Gemini para que pueda procesar cantidades de datos aún mayores, lo que le permite manejar documentos y vídeos más grandes y mantener conversaciones más largas.

Las empresas tecnológicas se encuentran en medio de una feroz competición por la supremacía de la IA, y los agentes de IA son el último esfuerzo de las grandes empresas tecnológicas por demostrar que están ampliando la frontera del desarrollo. Los agentes también se inscriben en la narrativa de muchas empresas tecnológicas, como OpenAI y Google DeepMind, que aspiran a construir una inteligencia artificial general, una idea hipotética de sistemas de IA superinteligentes.

"Con el tiempo, tendremos un agente que nos conozca bien, que pueda hacer muchas cosas por nosotros y trabajar en múltiples tareas y ámbitos", afirma Chirag Shah, profesor de la Universidad de Washington (EE UU) especializado en búsquedas en internet.

Esta visión sigue siendo una aspiración. Pero el anuncio de hoy debe verse como un intento de Google de seguir el ritmo de sus competidores. Al apresurar la salida de estos productos, Google puede recopilar aún más datos de sus más de mil millones de usuarios sobre cómo utilizan sus modelos y qué es lo que funciona, afirma Shah.

Google también ha desvelado muchas más capacidades nuevas de IA más allá de los agentes. Va a integrar más profundamente la IA en la búsqueda a través de una nueva función llamada "resúmenes de IA", que recopila información de internet y la presenta en breves resúmenes en respuesta a las consultas de búsqueda. La función, que se lanza hoy, estará disponible inicialmente sólo en EE UU, y más países tendrán acceso más adelante.

Esto ayudará a acelerar el proceso de búsqueda y a ofrecer a los usuarios respuestas más específicas a preguntas más complejas y específicas, afirma Felix Simon, investigador de IA y noticias digitales en el Instituto Reuters de Periodismo. "Creo que es ahí donde la búsqueda siempre ha flaqueado", afirma.

Otra novedad de la búsqueda con IA de Google es una mejor planificación. Pronto se podrá al motor de búsqueda que haga sugerencias sobre comidas y viajes, por ejemplo, como si se pidiera a un agente de viajes que sugiriera restaurantes y hoteles. Gemini podrá ayudar a los usuarios a planificar lo que tienen que hacer o comprar para preparar recetas, y también podrán mantener conversaciones con el sistema de IA, pidiéndole que haga cualquier cosa, desde tareas relativamente mundanas, como informarles de la previsión meteorológica, hasta otras muy complejas, como ayudarles a preparar una entrevista de trabajo o un discurso importante.

Los usuarios también podrán interrumpir a Gemini en medio de una frase y hacerle preguntas aclaratorias, como en una conversación real.

En otro intento de superar a su competidor OpenAI, Google también presentó Veo, un nuevo sistema de IA para generar vídeos. Veo es capaz de generar vídeos cortos y permite a los usuarios un mayor control sobre los estilos cinematográficos al entender indicaciones como "time lapse" o "tomas aéreas de un paisaje".

Google tiene una ventaja significativa a la hora de entrenar modelos de vídeo generativos, al ser propietario de YouTube. Ya ha anunciado colaboraciones con artistas como Donald Glover y Wycleaf Jean, que utilizan su tecnología para producir sus obras.

A principios de este año, Mira Murati, director tecnológica de OpenAI, no quiso aclarar si el modelo de la empresa se había entrenado con datos de YouTube. Douglas Eck, director senior de investigación de Google DeepMind, también dio respuestas vagas sobre los datos de entrenamiento utilizados para crear Veo cuando fue preguntado por MIT Technology Review, pero sí dijo que "puede estar entrenado con algunos contenidos de YouTube según nuestros acuerdos con los creadores de YouTube".

Por un lado, Google presenta su IA generativa como una herramienta que los artistas pueden utilizar para crear cosas, pero es probable que las herramientas obtengan su capacidad para crear esas cosas utilizando material de artistas ya existentes, dice Shah. Empresas de IA como Google y OpenAI se han enfrentado a una serie de demandas de escritores y artistas que afirman que su propiedad intelectual se ha utilizado sin consentimiento ni compensación.

"Para los artistas es un arma de doble filo", afirma Shah.

Inteligencia Artificial

Astra, la apuesta de Google para ampliar la capacidad de la IA verá la luz a finales de año

Qué anticipan los errores de la IA en 2024 sobre su futuro

De la creatividad humana a la automatización: la IA agrava la precariedad en la traducción de manga

La IA llega a los videojuegos: la versión de Minecraft que presenta un mundo generado automáticamente en tiempo real