Los benchmarks, diseñados para evaluar el rendimiento de una IA, a menudo están basados en criterios opacos o en parámetros que no reflejan su impacto real. No obstante, hay enfoques que buscan ofrecer evaluaciones más precisas y alineadas con desafíos prácticos
Cada vez que se lanza un nuevo modelo de inteligencia artificial, se promociona como el mejor según una serie de pruebas comparativas. GPT-4o, de OpenAI, no fue la excepción: en su lanzamiento, presentaron resultados que demostraban su superioridad frente a modelos más recientes de otras compañías.
El problema es que, según un estudio, esas pruebas están mal planteadas, con resultados difíciles de replicar y parámetros arbitrarios. Esto es crucial, ya que las puntuaciones que alcanzan los modelos de IA definen el grado de escrutinio y regulación al que serán sometidos.
"No tenemos unos estándares claros para la evaluación, es como si fuera el lejano Oeste", afirma Anka Reuel, autora del estudio, estudiante de doctorado en informática en la Universidad de Stanford (EE UU) y miembro del Centro para la Seguridad de la IA (CAIS, por sus siglas en inglés).
Un benchmark es, en esencia, una prueba diseñada para evaluar el desempeño de una IA. Puede adoptar formatos, como un cuestionario de opción múltiple, siendo el Massive Multitask Language Understanding (MMLU) uno de los más conocidos, medir la capacidad del modelo para realizar tareas concretas o analizar la calidad de sus respuestas ante diferentes preguntas.
Las empresas de inteligencia artificial suelen presentar los benchmarks como evidencia del éxito de sus nuevos modelos. "Los desarrolladores tienden a optimizar sus sistemas para destacar en pruebas específicas", explica Anna Ivanova, catedrática de Psicología en el Instituto de Tecnología de Georgia y directora del Laboratorio de Lenguaje, Inteligencia y Pensamiento (LIT).
Los benchmarks ya se han incorporado a los planes de regulación de la inteligencia artificial de algunos gobiernos. La ley de IA de la Unión Europea, que entrará en vigor en agosto de 2025, los menciona como herramienta clave para evaluar si un modelo representa un "riesgo sistémico". Si se determina que lo hace, estará sujeto a un mayor nivel de escrutinio y regulación. Por su parte, el Instituto de Seguridad de la IA del Reino Unido cuenta con Inspect, una herramienta de evaluación diseñada por el gobierno británico para evaluar la seguridad de los modelos lingüísticos de gran tamaño (LLM, por sus siglas en inglés).
Sin embargo, es posible que los benchmarks actuales no sirvan para ese propósito. "Hay una falsa sensación de seguridad que podríamos estar fomentando si los benchmarks no están bien diseñados, especialmente en escenarios de alto riesgo. Puede dar la impresión de que el modelo es seguro, cuando en realidad no lo es", advierte Reuel.
Ante la creciente relevancia de los benchmarks, Reuel y su equipo decidieron analizar los más utilizados para determinar cuáles son sus características y si tienen suficiente calidad. El primer paso, fue reproducir los resultados de las pruebas de rendimiento publicadas por los desarrolladores, pero en muchos casos no fue posible. Por lo general, para evaluar un benchmark se necesitan instrucciones o un código que permita ejecutarlo en un modelo, pero muchos no hacen público ese código y, en otras ocasiones, el disponible estaba desactualizado.
Los desarrolladores de estas pruebas no suelen compartir de manera pública las preguntas y respuestas de sus conjuntos de datos. Si lo hicieran, las empresas podrían entrenar sus modelos directamente con esa información, lo que sería equivalente a permitir que un estudiante pudiera ver las preguntas del examen antes de realizarlo. Sin embargo, esta falta de transparencia complica la tarea de evaluarlas de manera efectiva.
Otro factor a tener en cuenta es que muchos de estos benchmarks ya están "superados". Es decir, que los problemas planteados ya están resueltos. Por ejemplo, imaginemos una prueba con problemas matemáticos sencillos. La primera versión de un modelo de IA obtiene un 20% de aciertos, la segunda un 90% y la tercera un 93%. A simple vista, alguien podría pensar que el progreso de la IA se ha estancado. Sin embargo, una interpretación más acertada podría ser que el punto de referencia ya ha sido resuelto, lo que hace que no refleje adecuadamente las mejoras logradas entre la segunda y la tercera generación del modelo.
Uno de los objetivos de la investigación fue establecer una lista de criterios para definir qué constituye un buen benchmark. "Es fundamental debatir sobre la calidad de los benchmarks, lo que esperamos de ellos y lo que realmente necesitamos", observa Ivanova. "El problema es que no existe una norma clara para definirlos. Este documento intenta ofrecer una serie de criterios de evaluación, y eso es muy útil", añade la catedrática.
La investigación se lanzó junto con Better Bench, una página web que clasifica los benchmarks de IA más conocidos. La clasificación se basa en varios factores, como si consultaron a expertos para su desarrollo, si la capacidad que mide está definida y otros aspectos importantes, como la existencia de un canal de retroalimentación para que los usuarios puedan enviar comentarios.
En cuanto a las calificaciones, el benchmark MMLU recibió las más bajas. "No estoy de acuerdo. De hecho, soy autor de algunos de los mejor valorados, y diría que algunos de los benchmarks peor clasificados son más efectivos que los míos", afirma Dan Hendrycks, director del Centro para la Seguridad de la IA (CAIS) y uno de los creadores de MMLU. A pesar de todo, Hendrycks sigue creyendo que la clave para avanzar en este campo está en desarrollar mejores benchmarks.
Algunos opinan que los criterios utilizados para el análisis podrían estar obviando el contexto de manera más general. "La investigación es valiosa. Los criterios para su aplicación y documentación son importantes y mejoran los benchmarks. Sin embargo, para mí, la pregunta clave es: ¿estamos midiendo lo correcto? Puedes cumplir con todos estos requisitos, pero aun así tener un benchmark deficiente", señala Marius Hobbhahn, director general de Apollo Research, organización especializada en evaluaciones de IA.
Un benchmark podría estar perfectamente diseñado para evaluar la capacidad de un modelo de analizar los sonetos de Shakespeare. Sin embargo, si lo que se necesita es medir la habilidad de una IA para detectar técnicas de piratería, entonces no sería útil.
"Puede existir un bechmark para medir el razonamiento moral. No obstante, lo que eso significa no está bien definido. Además, ¿incorpora la opinión de expertos en el proceso? A menudo, eso no sucede", afirma Amelia Hardy, otra de las autoras del artículo e investigadora de IA en la Universidad de Stanford (EE UU).
Existen organizaciones que están trabajando de manera para mejorar esta situación. Un ejemplo es un nuevo benchmark desarrollado por Epoch AI, una organización de investigación, que contó con la colaboración de 60 matemáticos y fue validado por dos ganadores de la Medalla Fields, el máximo galardón en matemáticas. Al contar con la participación de expertos, se cumple uno de los criterios de evaluación de Better Bench. En la actualidad, los modelos de IA más avanzados solo logran responder correctamente a menos del 2% de las preguntas del banco de pruebas, lo que muestra que aún queda mucho por avanzar antes de superar este benchmark.
"Hemos intentado reflejar toda la amplitud y profundidad de la investigación matemática actual", afirma Tamay Besiroglu, director asociado de Epoch AI. A pesar de la complejidad de la evaluación de Better Bench, el experto considera que los modelos de IA lograrán buenos resultados en unos cuatro o cinco años.
Por su parte, el Centro para la Seguridad de la IA está colaborando con Scale AI en el desarrollo de un nuevo benchmark denominado Humanity’s Last Exam (El último examen de la humanidad, en español), cuyo objetivo es evaluar cómo los modelos de IA se acercan al conocimiento humano. "Ha sido creado por un equipo internacional de académicos y expertos en la materia, e incorporar por preguntas imposibles de buscar y cuya resolución requiere un conocimiento a nivel doctoral", asegura Dan Hendrycks. Si quieres aportar alguna pregunta, puedes hacerlo en su página web.
Aunque hay un amplio desacuerdo sobre qué debe medirse exactamente, muchos investigadores coinciden en la necesidad de contar con benchmarks más sólidos, especialmente porque estos orientan a las empresas y son herramientas clave para los gobiernos.
"Los benchmarks deben ser muy buenos", afirma Hardy. "También importante entender qué significa exactamente «alta calidad». Algo que, por ahora, desconocemos".