Inteligencia Artificial

El nuevo modelo de OpenAI aprende de sus errores y ya supera a un doctor en astrofísica

Hasta ahora, la mayor parte de los avances en LLM se basaban en el lenguaje. Este nuevo modelo entra en el ámbito del razonamiento complejo, con implicaciones para la física, la codificación y mucho más.

por James O'Donnell | traducido por
17 Septiembre, 2024

Este artículo pertenece a El Algoritmo, nuestro boletín semanal sobre IA. Para recibirlo antes en tu bandeja de entrada, suscríbete aquí.

El fin de semana pasado me casé en un campamento de verano, y durante el día nuestros invitados compitieron en una serie de juegos inspirados en el programa Survivor que organizamos mi ahora esposa y yo. Cuando planeamos los juegos en agosto, queríamos que una de las pruebas fuera un reto de memoria, en el que nuestros amigos y familiares tuvieran que memorizar parte de un poema y luego transmitírselo a sus compañeros de equipo para que pudieran recrearlo con un juego de fichas de madera.

Pensé que el GPT-4o de OpenAI, su modelo líder en aquel momento, sería perfectamente adecuado para ayudarnos. Le pedí que creara un poema corto sobre una boda, con la restricción de que cada letra sólo podía aparecer un número determinado de veces para asegurarnos de que los equipos fueran capaces de reproducirlo con el juego de fichas proporcionado. GPT-4o fracasó estrepitosamente. El modelo insistía una y otra vez en que su poema funcionaba dentro de las restricciones, aunque no fuera así. Sólo contaba correctamente las letras a posteriori, mientras seguía presentando poemas que no se ajustaban a la consigna. Sin tiempo para elaborar meticulosamente los versos a mano, abandonamos la idea del poema y, en su lugar, retamos a los invitados a memorizar una serie de formas hechas con fichas de colores. (Acabó siendo un éxito total entre nuestros amigos y familiares, que también compitieron a balón prisionero, lanzamiento de huevos y captura la bandera).

Sin embargo, la semana pasada OpenAI lanzó un nuevo modelo llamado o1 (anteriormente conocido con el nombre en clave de “Strawberry” y, antes de eso, Q*) que deja a GPT-4o obsoleto para este tipo de propósitos.

A diferencia de los modelos anteriores, muy adecuados para tareas lingüísticas como la escritura y la edición, OpenAI o1 se centra en el “razonamiento” de varios pasos, el tipo de proceso necesario para las matemáticas avanzadas, la codificación u otras preguntas basadas en STEM. Utiliza una técnica de “cadena de pensamiento”, según OpenAI. “Aprende a reconocer y corregir sus errores. Aprende a dividir los pasos complicados en otros más sencillos. Aprende a probar un enfoque diferente cuando el actual no funciona”, escribió la empresa en una entrada de blog en su sitio web.

Las pruebas de OpenAI apuntan a un éxito rotundo. El modelo se sitúa en el percentil 89 en preguntas de la organización de codificación competitiva Codeforces y estaría entre los 500 mejores estudiantes de secundaria en la Olimpiada Matemática de EE UU, que abarca geometría, teoría de números y otros temas matemáticos. El modelo también está entrenado para responder a preguntas de nivel de doctorado en materias que van desde la astrofísica a la química orgánica.

En las preguntas de la olimpiada de matemáticas, el nuevo modelo tiene una precisión del 83,3%, frente al 13,4% del GPT-4o. En las preguntas de nivel de doctorado, obtuvo una precisión media del 78%, frente al 69,7% de los expertos humanos y el 56,1% de GPT-4o. (A la luz de estos logros, no es de extrañar que el nuevo modelo fuera bastante bueno escribiendo un poema para nuestros juegos nupciales, aunque todavía no es perfecto; utilizó más eses y tes de las que se le indicaron).

¿Por qué importa esto? Hasta ahora, la mayor parte de los avances en LLM se han centrado en el lenguaje, dando lugar a chatbots o asistentes de voz capaces de interpretar, analizar y generar palabras. Pero además de equivocarse en muchos datos, estos LLM no han demostrado las habilidades necesarias para resolver problemas importantes en campos como el descubrimiento de fármacos, la ciencia de los materiales, la codificación o la física. El o1 de OpenAI es uno de los primeros indicios de que los LLM podrían convertirse pronto en compañeros realmente útiles de los investigadores humanos en estos campos.

Se trata de un gran avance porque acerca el razonamiento «en cadena» de un modelo de IA a un público masivo, afirma Matt Welsh, investigador de IA y fundador de la startup de LLM Fixie.

“Las capacidades de razonamiento están directamente en el modelo, en lugar de tener que utilizar herramientas separadas para lograr resultados similares. Mi expectativa es que subirá el listón de lo que la gente espera que sean capaces de hacer los modelos de IA”, afirma Welsh.

Dicho esto, es mejor tomarse con cautela las comparaciones de OpenAI con “habilidades de nivel humano”, dice Yves-Alexandre de Montjoye, profesor asociado de Matemáticas e Informática del Imperial College de Londres, quien añade que es “muy difícil comparar de forma significativa la forma en que los LLM y las personas realizan tareas como resolver problemas matemáticos desde cero”.

Además, los investigadores en IA afirman que medir la capacidad de «razonamiento» de un modelo como o1 es más difícil de lo que parece. Si responde correctamente a una pregunta, ¿es porque ha conseguido razonar hasta llegar a la respuesta lógica? ¿O se ha servido de un punto de partida de conocimiento suficiente integrado en el modelo? El modelo “sigue quedándose corto cuando se trata de razonamiento abierto”, escribió en X François Chollet, investigador de IA de Google.

Por último, está el precio. Este modelo de razonamiento no es barato. Aunque el acceso a algunas versiones del modelo está incluido en las suscripciones premium de OpenAI, los desarrolladores que utilicen o1 a través de la API pagarán tres veces más que por GPT-4o: 15 dólares por cada millón de tokens de entrada en o1 (unos 13,4 euros), frente a los 5 dólares de GPT-4o (4,5 euros). Según las encuestas realizadas a los usuarios de OpenAI, el nuevo modelo tampoco será la primera opción para las tareas que requieran un uso más intensivo del lenguaje, en las que GPT-4o sigue siendo la mejor opción.

¿Qué nos deparará el futuro? No lo sabremos hasta que los investigadores y los laboratorios dispongan de acceso, tiempo y presupuesto para experimentar con el nuevo modo y descubrir sus límites. Pero sin duda es una señal de que la carrera por modelos capaces de razonar mejor que los humanos ha comenzado.

Inteligencia Artificial

El nuevo modelo de OpenAI aprende de sus errores y ya supera a un doctor en astrofísica

DeepSeek, la alternativa china de ChatGPT que desafía a Silicon Valley

Operator de OpenAI marca el camino de los agentes de IA al tomar decisiones autónomas

OpenAI ha multiplicado casi por siete su inversión de 'lobby' ante la llegada de Trump