Desde hace décadas, la inteligencia artificial se ha evaluado en to o a la cuestión de si las máquinas superan a los humanos. Desde el ajedrez hasta las matemáticas avanzadas, desde la programación hasta la redacción de ensayos, el rendimiento de los modelos y aplicaciones de IA se pone a prueba contra el de humanos individuales que completan tareas.
Este enfoque es seductor: Una comparación entre IA y humanos en problemas aislados con respuestas correctas o incorrectas inequívocas es fácil de estandarizar, comparar y optimizar. Genera clasificaciones y titulares.
Pero hay un problema: la IA casi nunca se utiliza de la manera en que se la evalúa comparativamente. Aunque investigadores e industria han empezado a mejorar la evaluación comparativa yendo más allá de las pruebas estáticas hacia métodos de evaluación dinámica, estas innovaciones resuelven solo una parte del problema. Esto se debe a que todavía evalúan el rendimiento de la IA fuera de los equipos humanos y los flujos de trabajo organizacionales donde su rendimiento en el mundo real se despliega en última instancia.
Mientras que la IA se evalúa a nivel de tarea de forma aislada, se utiliza en ento os complejos y caóticos donde normalmente interactúa con más de una persona. Su rendimiento (o la falta del mismo) solo se manifiesta tras periodos prolongados de uso. Esta desalineación nos lleva a malinterpretar las capacidades de la IA, a pasar por alto los riesgos sistémicos y a juzgar erróneamente sus consecuencias económicas y sociales.
Para mitigar esto, es hora de pasar de métodos restrictivos a criterios de evaluación que evalúen cómo se desempeñan los sistemas de IA en horizontes temporales más amplios dentro de equipos humanos, flujos de trabajo y organizaciones. He estudiado el despliegue de IA en el mundo real desde 2022 en pequeñas empresas y organizaciones de salud, humanitarias, sin ánimo de lucro y de educación superior en el Reino Unido, Estados Unidos y Asia, así como en los principales ecosistemas de diseño de IA en Londres y Silicon Valley. Propongo un enfoque diferente, que denomino criterios de evaluación HAIC—Evaluación Humano-IA Específica del Contexto.
¿Qué ocurre cuando la IA falla?
Para gobie os y empresas, los resultados de los benchmarks de IA parecen más objetivos que las afirmaciones de los proveedores. Son una parte fundamental para determinar si un modelo o aplicación de IA es "suficientemente bueno" para su implementación en el mundo real. Imaginemos un modelo de IA que logra puntuaciones técnicas impresionantes en los benchmarks más vanguardistas: un 98% de precisión, una velocidad revolucionaria y resultados convincentes. Dada la solidez de estos resultados, las organizaciones podrían decidir adoptar el modelo, destinando considerables recursos financieros y técnicos a su compra e integración.
Pero, una vez adoptada, la brecha entre el rendimiento de referencia y el rendimiento en el mundo real se hace rápidamente visible. Por ejemplo, consideremos el amplio abanico de modelos de IA aprobados por la FDA que pueden leer exploraciones médicas más rápido y con mayor precisión que un radiólogo experto. En las unidades de radiología de hospitales, desde el corazón de Califo ia hasta las afueras de Londres, fui testigo de cómo el personal utilizaba aplicaciones de IA para radiología altamente valoradas. En repetidas ocasiones, les llevó más tiempo interpretar los resultados de la IA junto con los estándares de informes específicos de cada hospital y los requisitos regulatorios específicos de cada país. Lo que parecía una herramienta de IA para mejorar la productividad cuando se probaba en un ento o aislado, introducía retrasos en la práctica.
Pronto quedó claro que las pruebas de referencia con las que se evalúan los modelos de IA médica no reflejan cómo se toman realmente las decisiones médicas. Los hospitales se apoyan en equipos multidisciplinares —radiólogos, oncólogos, físicos, enfermeras— que revisan conjuntamente a los pacientes. La planificación del tratamiento rara vez depende de una decisión estática; evoluciona a medida que surge nueva información a lo largo de días o semanas. Las decisiones a menudo surgen a través de un debate constructivo y compromisos entre estándares profesionales, preferencias del paciente y el objetivo compartido del bienestar del paciente a largo plazo. No es de extrañar que incluso los modelos de IA altamente valorados tengan dificultades para cumplir con el rendimiento prometido una vez que se encuentran con los complejos procesos colaborativos de la atención clínica real.
El mismo patrón emerge en mi investigación en otros sectores: Cuando se integran en ento os de trabajo reales, incluso los modelos de IA que rinden de forma brillante en pruebas estandarizadas no cumplen lo prometido.
Cuando las altas puntuaciones en *benchmarks* no se traducen en un rendimiento en el mundo real, incluso la IA con las puntuaciones más altas es pronto abandonada a lo que yo llamo el “cementerio de la IA.” Los costes son significativos: Tiempo, esfuerzo y dinero acaban siendo malgastados. Y con el tiempo, experiencias repetidas como esta erosionan la confianza organizacional en la IA y —en ento os críticos como la salud— pueden erosionar también la confianza pública general en la tecnología.
Cuando los *benchmarks* actuales proporcionan solo una señal parcial y potencialmente engañosa de la preparación de un modelo de IA para su uso en el mundo real, esto crea puntos ciegos regulatorios: La supervisión se configura mediante métricas que no reflejan la realidad. También deja a organizaciones y gobie os asumir los riesgos de probar la IA en ento os sensibles del mundo real, a menudo con recursos y apoyo limitados.
Cómo construir mejores pruebas
Para cerrar la brecha entre el rendimiento de referencia y el rendimiento en el mundo real, debemos prestar atención a las condiciones reales en las que se utilizarán los modelos de IA. Las cuestiones fundamentales son: ¿Puede la IA funcionar como un participante productivo dentro de equipos humanos? ¿Y puede generar un valor sostenido y colectivo?
A través de mi investigación sobre el despliegue de la IA en diversos sectores, he visto a varias organizaciones avanzar ya —de forma deliberada y experimental— hacia los puntos de referencia HAIC que defiendo.
Los benchmarks HAIC replantean el benchmarking actual de cuatro maneras:
1. De un rendimiento individual y de tarea única a un rendimiento del equipo y del flujo de trabajo (desplazando la unidad de análisis)
2. De pruebas puntuales con respuestas correctas/incorrectas a impactos a largo plazo (ampliando el horizonte temporal)
3. Desde la exactitud y la rapidez hasta los resultados organizacionales, la calidad de la coordinación y la detectabilidad de errores (ampliando las medidas de resultado)
4. Desde resultados aislados a consecuencias aguas arriba y aguas abajo (efectos sistémicos)
En todas las organizaciones donde este enfoque ha surgido y ha empezado a aplicarse, el primer paso es cambiar la unidad de análisis.
Por ejemplo, en un sistema hospitalario del Reino Unido en el periodo 2021-2024, la cuestión evolucionó de si una aplicación médica de IA mejora la precisión diagnóstica a cómo la presencia de la IA dentro de los equipos multidisciplinares del hospital afecta no solo a la precisión, sino también a la coordinación y la deliberación. El hospital evaluó específicamente la coordinación y la deliberación en equipos humanos que utilizaban y no utilizaban IA. Múltiples partes interesadas (tanto dentro como fuera del hospital) decidieron sobre métricas como la forma en que la IA influye en el razonamiento colectivo, si saca a la luz consideraciones pasadas por alto, si fortalece o debilita la coordinación, y si modifica las prácticas establecidas de riesgo y cumplimiento.
Este cambio es fundamental. Es muy relevante en contextos críticos donde los efectos a nivel de sistema importan más que la precisión a nivel de tarea. También es importante para la economía. Podría ayudar a recalibrar las expectativas infladas de ganancias generalizadas de productividad que hasta ahora se basan en gran medida en la promesa de mejorar el rendimiento de tareas individuales.
Una vez establecida esa base, el benchmarking HAIC puede empezar a incorporar el elemento del tiempo.
Las pruebas de referencia actuales se asemejan a los exámenes escolares: pruebas puntuales y estandarizadas de precisión. Pero la verdadera competencia profesional se evalúa de manera diferente. A los médicos y abogados noveles se les evalúa continuamente dentro de flujos de trabajo reales, bajo supervisión, con bucles de retroalimentación y estructuras de responsabilidad. El rendimiento se juzga a lo largo del tiempo y en un contexto específico, porque la competencia es relacional. Si los sistemas de IA están destinados a operar junto a profesionales, su impacto debería juzgarse de forma longitudinal, reflejando cómo evoluciona el rendimiento a lo largo de interacciones repetidas.
Vi este aspecto de HAIC aplicado en uno de mis estudios de caso del sector humanitario. Durante 18 meses, se evaluó un sistema de IA en flujos de trabajo reales, prestando especial atención a la detectabilidad de sus errores —es decir, la facilidad con la que los equipos humanos podían identificarlos y corregirlos. Este «registro a largo plazo de la detectabilidad de errores» permitió a las organizaciones implicadas diseñar y probar salvaguardias específicas para cada contexto con el fin de fomentar la confianza en el sistema, a pesar de la inevitabilidad de errores ocasionales de la IA.
Un horizonte temporal más amplio también visibiliza las consecuencias a nivel de sistema que los *benchmarks* a corto plazo pasan por alto. Una aplicación de IA puede superar a un solo médico en una tarea de diagnóstico limitada y, sin embargo, no lograr mejorar la toma de decisiones multidisciplinar. Peor aún, puede introducir distorsiones sistémicas: anclando a los equipos demasiado pronto en respuestas plausibles pero incompletas, aumentando la carga cognitiva de las personas o generando ineficiencias posteriores que compensen cualquier ganancia de velocidad o eficiencia en el punto de uso de la IA. Estos efectos colaterales —a menudo invisibles para los *benchmarks* actuales— son fundamentales para comprender el impacto real.
El enfoque HAIC, hay que admitirlo, promete hacer que la evaluación comparativa sea más compleja, intensiva en recursos y más difícil de estandarizar. Pero seguir evaluando la IA en condiciones asépticas y desligadas del mundo laboral nos llevará a malinterpretar lo que realmente puede y no puede hacer por nosotros. Para implementar la IA de manera responsable en ento os del mundo real, debemos medir lo que realmente importa: no solo lo que un modelo puede hacer por sí solo, sino lo que posibilita —o socava— cuando humanos y equipos en el mundo real trabajan con ella.
Angela Aristidou es profesora en el University College de Londres y miembro del cuerpo docente en el Laboratorio de Economía Digital de Stanford y el Instituto de IA Centrada en el Ser Humano de Stanford. Habla, escribe y asesora sobre el despliegue en la vida real de herramientas de inteligencia artificial para el bien público.

