.

Operator de OpenAI marca el camino de los agentes de IA al tomar decisiones autónomas

STEPHANIE ARNETT/MIT TECHNOLOGY REVIEW | ADOBE STOCK, ENVATO

Inteligencia Artificial

Operator de OpenAI marca el camino de los agentes de IA al tomar decisiones autónomas

1

El anuncio despeja uno de los dos rumores que han estado circulando por internet. El otro gira en torno a la posible llegada de una superinteligencia

  • por Will Douglas Heaven | traducido por
  • 27 Enero, 2025

Después de semanas de especulaciones, OpenAI ha presentado Operator, su primer agente de inteligencia artificial. Se trata de una aplicación capaz de llevar a cabo tareas básicas en línea, como reservar entradas para un concierto o realizar compras en el supermercado. Esta herramienta funciona gracias a un nuevo modelo denominado Computer-Using Agent (CAU), basado en el lenguaje multimodal GPT-4o desarrollado por OpenAI.

Operator ya está disponible en operator.chatgpt.com para los usuarios estadounidenses de ChatGPT Pro, el servicio premium de OpenAI que tiene un coste de 200 dólares al mes (unos 190 euros). Según la compañía, está previsto que la herramienta se amplíe a más personas en el futuro.

OpenAI asegura que Operator supera a herramientas similares de la competencia, como Computer Use de Anthropic (una versión de Claude 3.5 Sonnet capaz de realizar tareas básicas en un ordenador) y Mariner de Google DeepMind (un agente de navegación web basado en Gemini 2.0).

El hecho de que tres de las mayores empresas de IA del mundo coincidan en su visión sobre modelos basados en agentes pone de manifiesto algo evidente: la carrera por liderar la inteligencia artificial ha abierto una nueva frontera, y está en las pantallas de nuestros ordenadores.

"Pasar de generar texto e imágenes a realizar acciones es el camino adecuado. Abre la puerta a nuevos negocios y permite solucionar otros problemas", asegura Ali Farhadi, director general del Instituto Allen para la IA (AI2). 

Farhadi considera que realizar tareas en la pantalla de un ordenador es un primer paso lógico para los agentes de IA: "Es un ámbito acotado para que la tecnología actual pueda desenvolverse con eficacia y, al mismo tiempo, es lo suficientemente impactante como para que la gente pueda utilizarlo". Según el experto, el Instituto Allen para la IA (AI2) también está desarrollando su propio agente capaz de operar en ordenadores.

Desconfía del hype

El anuncio de OpenAI confirma uno de los dos rumores que circulaban por internet. Uno de ellos anticipaba el lanzamiento de una aplicación basada en agentes, tras la filtración en redes sociales de detalles sobre Operator. El otro, que sugería la revelación de una nueva superinteligencia, afirmaba que los funcionarios del recién investido presidente Trump serían informados al respecto.

¿Podrían estar relacionados ambos rumores? Los superfans de OpenAI no han dejado de especular al respecto.

OpenAI presentó a MIT Technology Review una demostración de Operator en acción. La herramienta ofrece un prometedor vistazo al potencial de los grandes modelos lingüísticos para hacer mucho más que solo responder preguntas. Sin embargo, Operator sigue siendo un trabajo experimental en progreso. "Aún es pronto, todavía comete errores", señala Yash Kumar, investigador de OpenAI.

En cuanto a los rumores desmesurados sobre la superinteligencia, dejemos que Sam Altman, CEO de OpenAI, se encargue de aclararlos: "El bombo en Twitter está fuera de control de nuevo. Por favor, cálmense y reduzcan sus expectativas 100 veces", publicó el 20 de enero. 

Al igual que Computer Use y Mariner, Operator realiza capturas de pantalla de un ordenador y escanea los píxeles para determinar qué acciones puede ejecutar. Su modelo subyacente, CUA, está entrenado para interactuar con las mismas interfaces gráficas de usuario —botones, cuadros de texto, menús— que emplean las personas cuando realizan tareas en línea. El proceso es simple: escanea la pantalla, ejecuta una acción, vuelve a escanearla, realiza otra acción, y repite el ciclo. De esta forma, el modelo es capaz de llevar a cabo tareas en la mayoría de los sitios web de la misma manera que lo haría un ser humano.

"Tradicionalmente, los modelos han interactuado con el software mediante APIs especializadas", explica Reiichiro Nakano, científico de OpenAI. Una API, o interfaz de programación de aplicaciones, es un fragmento de código que permite que diferentes programas de software se comuniquen entre sí. Esto limita las opciones, ya que muchas aplicaciones y la mayoría de los sitios web quedan fuera de juego. "Si creas un modelo que pueda usar la misma interfaz con la que interactuamos los humanos a diario, se abre una nueva ventana para usar software que antes era inaccesible", señala Nakano.

CUA también descompone las tareas en pasos más pequeños y trata de resolverlos de uno en uno, retrocediendo cuando se encuentra con un obstáculo. OpenAI explica que fue entrenado utilizando técnicas similares a las empleadas en sus modelos de razonamiento o1 y o3.


Se puede indicar al operador que busque lugares para acampar en Yosemite con buenas mesas de picnic.

OpenAI ha puesto a CUA a prueba con una serie de evaluaciones para medir la capacidad de un agente para realizar tareas. Según la empresa, su modelo supera tanto a Computer Use como a Mariner en todos los test. 

Por ejemplo, en OSWorld, una prueba que evalúa cómo un agente realiza tareas como combinar archivos PDF o manipular imágenes, CUA obtiene un 38,1%, mientras que Computer Use alcanza solo un 22,0%. En comparación, los humanos logran un 72,4%. En otra prueba, WebVoyager, que mide la capacidad de un agente para realizar tareas en un navegador, CUA obtiene un 87%, Mariner un 83,5% y Computer Use un 56%. Cabe destacar que Mariner solo puede realizar tareas en un navegador, por lo que no puntúa en OSWorld.

Por ahora Operator solo puede realizar tareas en un navegador, pero OpenAI tiene previsto ampliar las capacidades de CUA a través de una API y permitir a otros desarrolladores crear sus propias aplicaciones. Esta es precisamente la idea con la que que Anthropic lanzó Computer Use en diciembre.

OpenAI asegura haber probado la seguridad de CUA utilizando expertos en detección de fallos, conocidos como equipos rojos. Estos equipos analizaron cómo reacciona el modelo en diferentes situaciones: cuando los usuarios le piden tareas inapropiadas, como investigar cómo fabricar armas biológicas; cuando se encuentra con instrucciones ocultas en páginas web diseñadas para confundirlo; o cuando sufre errores internos. "Hemos entrenado al modelo para que se detenga y consulte al usuario antes de llevar a cabo cualquier acción que pueda tener consecuencias externas", explica Casey Chu, investigador del equipo.

Mira, ¡sin manos!

Para usar Operator, basta con escribir las instrucciones en un cuadro de texto. En lugar de utilizar el navegador de tu ordenador, Operator envía las instrucciones a un navegador remoto que se ejecuta en los servidores de OpenAI. Según la empresa, esto hace que el sistema sea más eficiente y marca una diferencia importante frente a herramientas como Computer Use y Mariner, que se ejecuta en el navegador Chrome de tu propio ordenador.

Al funcionar en la nube, Operator es capaz de realizar varias tareas de manera simultánea. Durante una demostración en directo, Kumar pidió a Operator que utilizara OpenTable para reservar una mesa para dos personas a las 18:30 en un restaurante llamado Octavia, en San Francisco. En cuestión de segundos, Operator abrió OpenTable y comenzó a seleccionar las opciones necesarias. "Como pueden ver, no estoy tocando el teclado", dijo el investigador de OpenAI. 

OpenAI mantiene colaboraciones con diversas empresas, como OpenTable, StubHub, Instacart, DoorDash y Uber. Aunque la naturaleza exacta de estas alianzas no está del todo clara, Operator parece sugerir sitios web específicos para ciertas tareas.

Mientras la herramienta recorría los menús desplegables de OpenTable, Kumar le pidió a Operator que buscara cuatro entradas para un concierto de Kendrick Lamar en StubHub. Al mismo tiempo, subió una foto de una lista de la compra escrita a mano y solicitó a Operator que añadiera los artículos a su carrito en Instacart.

Kumar esperó mientras Operator realizaba las tareas, alternando entre las diferentes pestañas de la herramienta. "Si necesita ayuda o confirmaciones, te hará preguntas y podrás responderlas", explicó. El experto asegura que ha utilizado el agente de manera habitual para tareas cotidianas como, por ejemplo, hacer la compra. "Puedo hacer rápidamente una foto de la lista y enviarla al trabajo", apunta. 

Además, Operator se ha convertido en compañero de vida de Kumar. Como tiene una cita todos los jueves, cada mañana de ese día le pide una lista de cinco restaurantes con mesa disponible para dos esa noche. "Claro, podría hacerlo yo mismo, pero así me lleva 10 minutos. Además, muchas veces se me olvida, y con Operator puedo gestionar todo con un solo clic sin preocuparme de hacer la reserva", asegura el investigador. 

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. OpenAI ha multiplicado casi por siete su inversión de 'lobby' ante la llegada de Trump

    La empresa de Sam Altman aumenta su gasto en lobistas para influir en la política y definir el rumbo de la regulación de la IA

    OpenAI ha multiplicado casi por siete su inversión de 'lobby' ante la llegada de Trump
  2. Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

    La aplicación presentada por Meta nos acerca a la creación de un dispositivo de traducción universal similar al Pez de Babel de La guía del autoestopista galáctico, de Douglas Adams

    Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas
  3. Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

    Tras décadas de frustración, las herramientas de aprendizaje automático están revelando a los ecologistas un tesoro de datos acústicos