La decisión de Reino Unido de utilizar un algoritmo para fijar las notas de acceso a la universidad ha terminado en desastre. El sistema perjudicó de manera desproporcionada a los alumnos de clase trabajadora y a las comunidades desfavorecidas e infló las notas de los de escuelas privadas
Cuando el Reino Unido se propuso por primera vez encontrar una alternativa a los exámenes de ingreso a la universidad, la premisa parecía perfectamente razonable. Covid-19 había descarrilado cualquier oportunidad para que los estudiantes tomaran los exámenes en persona, pero el gobierno todavía quería una forma de evaluarlos para las decisiones de admisión.
La principal de sus preocupaciones era la cuestión de la equidad. Los maestros ya habían hecho predicciones de los puntajes de los exámenes de sus estudiantes, pero estudios anteriores habían demostrado que estos podían estar sesgados en función de la edad, el género y la etnia. Después de una serie de paneles de expertos y consultas, Ofqual, la Oficina de Regulación de Calificaciones y Exámenes, recurrió a un algoritmo. A partir de ahí, las cosas salieron terriblemente mal.
Casi el 40% de los estudiantes terminaron recibiendo puntajes de exámenes rebajados de las predicciones de sus maestros, lo que amenazó con costarles sus lugares universitarios. El análisis del algoritmo también reveló que había dañado de manera desproporcionada a los estudiantes de la clase trabajadora y comunidades desfavorecidas e inflado las puntuaciones de los estudiantes de las escuelas privadas. El 16 de agosto, cientos de personas corearon “A la mierda el algoritmo” frente al edificio del Departamento de Educación del Reino Unido en Londres para protestar por los resultados. Al día siguiente, Ofqual había revocado su decisión . Los estudiantes ahora recibirán las puntuaciones previstas por su profesor o las del algoritmo, lo que sea más alto.
La debacle parece un ejemplo de libro de texto de discriminación algorítmica . Aquellos que desde entonces han analizado el algoritmo han señalado lo predecible que era que las cosas salieran mal; fue capacitado, en parte, no solo en el desempeño académico anterior de cada estudiante, sino también en el desempeño anterior en los exámenes de ingreso de la escuela del estudiante. El enfoque solo podría haber conducido al castigo de los valores atípicos sobresalientes a favor de un promedio constante.
Pero la raíz del problema es más profunda que los datos incorrectos o un diseño algorítmico deficiente. Los errores más fundamentales se cometieron incluso antes de que Ofqual decidiera seguir un algoritmo. En el fondo, el regulador perdió de vista el objetivo final: ayudar a los estudiantes a hacer la transición a la universidad durante tiempos de ansiedad. En esta situación sin precedentes, el sistema de exámenes debería haberse replanteado por completo.
“Simplemente hubo una espectacular falla de imaginación”, dice Hye Jung Han, investigadora de Human Rights Watch en los Estados Unidos, que se enfoca en los derechos de los niños y la tecnología. “Simplemente no cuestionaron la premisa misma de muchos de sus procesos, incluso cuando deberían haberlo hecho”.
En un nivel básico, Ofqual enfrentó dos objetivos potenciales después de que se cancelaron los exámenes. El primero fue evitar la inflación de calificaciones y estandarizar los puntajes; el segundo fue evaluar a los estudiantes con la mayor precisión posible de una manera útil para las admisiones universitarias. Bajo una directiva del secretario de Estado, priorizó el primer objetivo. “Creo que realmente ese fue el momento en el que surgió el problema”, dice Hannah Fry, profesora principal del University College London y autora de Hello World: How to Be Human in the Age of the Machine. “Estaban optimizando para lo incorrecto. Entonces, básicamente, no importa cuál sea el algoritmo, nunca será perfecto”.
“Hubo un espectacular fallo de imaginación”.
Hye Jung Han
El objetivo determinó por completo la forma en que Ofqual resolvió el problema. La necesidad de estandarización anuló todo lo demás. Luego, el regulador eligió lógicamente una de las mejores herramientas de estandarización, un modelo estadístico, para predecir una distribución de los puntajes de los exámenes de ingreso para 2020 que coincidiría con la distribución de 2019.
Si Ofqual hubiera elegido el otro objetivo, las cosas hubieran sido muy diferentes. Probablemente habría desechado el algoritmo y trabajado con las universidades para cambiar la forma en que se ponderan las calificaciones de los exámenes en sus procesos de admisión. “Si solo vieran un paso más allá de su problema inmediato y vieran cuál es el propósito de las calificaciones, ir a la universidad, poder conseguir trabajo, podrían haber trabajado de manera flexible con universidades y lugares de trabajo para decir: 'Oye, las calificaciones de este año se verán diferentes, lo que significa que cualquier decisión importante que tradicionalmente se tomaba en base a las calificaciones también debe ser flexible y debe cambiarse'”, dice Han.
Al fijarse en la justicia percibida de una solución algorítmica, Ofqual se cegó a las evidentes desigualdades del sistema en general. “Existe una injusticia inherente al definir el problema para predecir las calificaciones de los estudiantes como si no hubiera ocurrido una pandemia”, dice Han. "En realidad, ignora lo que ya sabemos, que es que la pandemia expuso todas estas brechas digitales en la educación".
Los fracasos de Ofqual no son únicos. En un informe publicado la semana pasada por el Instituto de Internet de Oxford, los investigadores encontraron que una de las trampas más comunes en las que caen las organizaciones al implementar algoritmos es la creencia de que solucionarán problemas estructurales realmente complejos. Estos proyectos "se prestan a una especie de pensamiento mágico", dice Gina Neff, profesora asociada del instituto y coautora del informe. "De alguna manera, el algoritmo simplemente eliminará cualquier sesgo del maestro, eliminará cualquier intento de hacer trampa o engañar al sistema".
"Creo que es la primera vez que una nación entera siente la injusticia de un algoritmo simultáneamente".
Hannah Fry
Pero la verdad es que los algoritmos no pueden reparar sistemas rotos. Heredan los defectos de los sistemas en los que están ubicados. En este caso, los estudiantes y su futuro finalmente sufrieron la peor parte del daño. “Creo que es la primera vez que una nación entera siente la injusticia de un algoritmo simultáneamente”, dice Fry.
A Fry, Neff y Han les preocupa que este no sea el final de los errores algorítmicos. A pesar de la nueva conciencia pública de los problemas, el diseño e implementación de algoritmos justos y beneficiosos es francamente muy difícil.
No obstante, instan a las organizaciones a aprovechar al máximo las lecciones aprendidas de esta experiencia. Primero, regrese al objetivo y piense críticamente si es el correcto. En segundo lugar, evalúe los problemas estructurales que deben solucionarse para lograr el objetivo. ("Cuando el gobierno canceló el examen en marzo, esa debería haber sido la señal para idear otra estrategia para permitir que una ecología mucho más amplia de tomadores de decisiones evaluaran de manera justa el desempeño de los estudiantes", dice Neff).
Por último, elija una solución que sea fácil de entender, implementar y cuestionar, especialmente en tiempos de incertidumbre. En este caso, dice Fry, eso significa renunciar al algoritmo a favor de los puntajes predichos por el maestro: "No estoy diciendo que sea perfecto", dice, "pero es al menos un sistema simple y transparente".