Tribunales, bancos y otras instituciones emplean sistemas automatizados de análisis de datos para tomar decisiones que afectan nuestras vidas. No dejemos que sean los fabricantes de algoritmos quienes decidan las prioridades de los algoritmos
Fue una historia sorprendente. "Máquinas sesgadas", decía el titular, y el subtítulo apostillaba: "Un software utilizado por todo el país para predecir futuros criminales tiene prejuicios en contra de los negros" (ver El día que los algoritmos empezaron a discriminar a la gente sin querer).
ProPublica, una organización de noticias sin ánimo de lucro y ganadora de un Premio Pulitzer, había analizado el software de evaluación de riesgos COMPAS, que Estados Unidos emplea para predecir qué criminales tienen mayores probabilidades de reincidir. Con los resultados en la mano, los jueces de todo EEUU deciden el futuro de los acusados y condenados mediante las cantidades de la fianza para salir en libertad y las sentencias penales. ProPublica comparó las evaluaciones de riesgo de COMPAS de más de 10.000 personas detenidas en un condado de Florida (EEUU) con la frecuencia con la que realmente volvían a reincidir. Según su análisis, algoritmo "predijo correctamente la reincidencia para los acusados blancos y negros con aproximadamente la misma tasa de éxito". Pero cuando el algoritmo fallaba, el error era distinto para negros y blancos. En concreto, "los negros son casi dos veces más propensos que los blancos a ser clasificados como un riesgo más alto sin llegar realmente a reincidir". Y COMPAS tendía a cometer el error opuesto con los blancos: "Son mucho más propensos que los negros a ser clasificados de bajo riesgo y después cometer otros delitos".
Elementos analizados:
- Machine Bias, ProPublica, 23 de mayo de 2016
- COMPAS Risk Scales: Demonstrating Accuracy Equity and Predictive Parity, Northpointe, 8 de julio de 2016
- Technical Response to Northpointe, ProPublica, 29 de julio de 2016
- False Positives, False Negatives, and False Analyses: A Rejoinder to ‘Machine Bias’Anthony Flores, Christopher Lowenkamp, y Kristin Bechtel, 10 de agosto de 2016
La cuestión de si el uso de sistemas como COMPAS es apropiado va más allá del sesgo racial. El Tribunal Supremo de EEUU está a punto de tratar el caso de un convicto de Wisconsin (EEUU) que afirma que su derecho a un debido proceso fue violado cuando el juez que lo sentenció consultó a COMPAS porque el funcionamiento del sistema era opaco para el acusado. Pero los problemas de los sistemas automatizados de toma de decisiones (ADM, por sus siglas en inglés) van más allá del sistema de justicia. A través de tests de personalidad, los ADM están ayudando a determinar si alguien es un candidato adecuado para un puesto de trabajo. Los algoritmos de evaluación de crédito son claves para decidir si alguien puede acceder a una hipoteca, una tarjeta de crédito o incluso las ofertas de teléfono móvil más rentables.
Usar sistemas de evaluación de riesgos como COMPAS no tiene por qué ser malo. En muchos casos, pueden aumentar la imparcialidad. La toma de decisiones humana puede ser tan incoherente que necesita supervisión para adaptarse a los estándares de justicia. Como demostró un estudio especialmente inquietante, las juntas de libertad condicional tenían más probabilidades de liberar a los convictos cuando los jueces acababan de hacer una pausa para comer. Esto probablemente nunca se les había ocurrido a los jueces. Un sistema ADM podría descubrir tales inconsistencias y mejorar el proceso.
Pero en realidad casi no sabemos nada sobre cómo funcionan, por lo que no se puede garantizar que sean más justos de lo que serían los humanos sin su intervención. Esto se debe a que los sistemas hacen elecciones en función de suposiciones que ni los propios diseñadores tienen claras. No siempre es posible determinar qué algoritmos están sesgados y cuáles no. E incluso cuando la respuesta parece clara, como sucedió con los hallazgos de ProPublica sobre COMPAS, la verdad es más complicada.
Los legisladores, los tribunales y un público informado deberían decidir las prioridades de los algoritmos.
¿Qué debemos hacer para mejorarlos? Las sociedades democráticas necesitan más supervisión de tales sistemas. AlgorithmWatch, una organización sin ánimo de lucro de Berlín (Alemania) que cofundé con un informático, un filósofo legal y un periodista como yo, tiene por objetivo ayudar a la gente a entender los efectos de tales sistemas. "El hecho de que la mayoría de los procedimientos de ADM sean cajas negras para las personas afectadas no es inmutable. Debe cambiar", afirmamos en nuestro manifiesto. Aun así, nuestra opinión es distinta a las de muchos críticos, porque nuestro temor es que la tecnología se demonice inmerecidamente. Lo importante es que las sociedades, y no sólo los fabricantes de algoritmos, hagan los juicios de valor que entren en los ADM.
Medidas de equidad
COMPAS determina el riesgo a partir de las respuestas a un cuestionario que explora la historia criminal de un acusado y sus actitudes respecto a la delincuencia. ¿Esto produce resultados sesgados?
Después de la investigación de ProPublica, Northpointe, la compañía que desarrolló COMPAS, critió los hallazgos. Defendía que los periodistas malinterpretaron los datos. También lo hicieron tres investigadores de justicia criminal, incluido uno de una organización de reforma judicial. ¿Quién tiene razón, los periodistas o los investigadores? El jefe del grupo de investigación de sistemas en red del Instituto Max Planck para Sistemas de Software radicado en Saarbrücken (Alemania), Krishna Gummadi, ofrece una respuesta sorprendente: todos lo son.
Según Gummadi, que ha investigado exhaustivamente la imparcialidad de los algoritmos, los resultados de ProPublica y Northpointe no se contradicen entre sí: Difieren porque utilizan diferentes medidas de equidad.
Si son utilizados correctamente, los algoritmos de justicia penal ofrecen "la oportunidad de una generación, y quizás de toda una vida, de reformar las condenas y revertir el encarcelamiento masivo de una manera científica".
Imagine que está diseñando un sistema para predecir qué delincuentes reincidirán. Una opción consiste en optimizarlo para "verdaderos positivos", lo que significa que se identificará a tantas personas como sea posible con un alto riesgo de cometer otro crimen. El problema de este enfoque es que tiende a aumentar el número de falsos positivos: personas que serán injustamente clasificadas como reincidentes probables. El algoritmo puede ajustarse para ofrecer el menor número posible de falsos positivos, pero eso tiende a crear más falsos negativos: reincidentes probables que esquivan el control y reciben un trato más indulgente de que deberían.
Tanto maximizar los verdaderos positivos como disminuir los falsos positivos son formas de mejorar una medida estadística conocida como valor predictivo positivo, o PPV. Ese es el porcentaje de todos los positivos reales.
Como señala Gummadi, ProPublica comparó las tasas de falsos positivos y negativos falsos para negros y blancos y encontró que se sesgaban a favor de los blancos. Por el contrario, Northpointe comparó los PPV para diferentes razas y los encontró similares. Esto se debe a que las tasas de reincidencia para negros y blancos son diferentes, así que es matemáticamente probable que los valores predictivos positivos para los dos grupos sean similares, mientras que las tasas de falsos negativos no.
Este fenómeno indica que la sociedad en general, legisladores, tribunales y un público informado, deberían decidir las prioridades de los algoritmos. ¿Nos interesa más minimizar el riesgo de que alguien se salte la fianza o reincida? ¿Qué concesiones deberíamos hacer para garantizar la justicia y reducir los masivos costes sociales del encarcelamiento?
Independientemente de cómo se ajuste el algoritmo, todos tendrán sesgos. Al fin y al cabo, sus predicciones se basan en estadísticas generalizadas, no en la situación individual de alguien. Pero podemos utilizarlos para lograr decisiones más sabias y justas que las que los seres humanos hacen por sí solos.
La polémica que rodea las prácticas de "parar y cachear" del Departamento de Policía de Nueva York (EEUU) demuestra por qué. Entre enero de 2004 y junio de 2012, la policía de la ciudad llevó a cabo 4,4 millones de altos bajo un programa que les permitía dar el alto, interrogar y registrar a personas en la calle en busca de armas y otros artículos de contrabando. Pero, de hecho, "el 88%de los 4,4 millones de altos y registros no condujo a nada, lo que significa que una gran mayoría de las personas a las que se les dio el alto no estaba haciendo nada malo", criticaba The New York Times en un editorial. Es más: "En el 83% de los casos, la persona en cuestión era negra o hispana, aunque los dos grupos sólo representaban a poco más de la mitad de la población". Este ejemplo del sesgo humano, iluminado por el análisis de datos, recuerda que los sistemas de ADM podrían desempeñar un papel positivo en la justicia penal. Los investigadores que detectaron el defecto en la metodología de ProPublica a la hora de analizar COMPAS, Anthony Flores, Christopher Lowenkamp, y Kristin Bechtel, defienden que los algoritmos penales "ofrecen la oportunidad de reformar las condenas y revertir el encarcelamiento masivo de una manera científica". Los autores temen que esta oportunidad "se esté desvaneciendo debido a la desinformación y el mal entendimiento" que rodea a la tecnología.
Pero, si aceptamos que los algoritmos podrían hacer la vida más justa si están bien diseñados, ¿cómo podemos saber si están diseñados de manera correcta?
Las sociedades democráticas deberían estar trabajando para determinar cuánta transparencia esperan de los sistemas de ADM. ¿Necesitamos nuevas regulaciones de software para garantizar que pueda ser inspeccionado correctamente? Los legisladores, los jueces y el público deberían tener voz en qué medidas de equidad deben priorizar los algoritmos. Pero si los algoritmos no reflejan realmente estos juicios de valor, ¿quién será el responsable?
Estas son las difíciles preguntas a las que debemos dar respuesta si queremos beneficiarnos de los avances de las tecnologías algorítmicas.
Matthias Spielkamp es el director ejecutivo de AlgorithmWatch, un grupo de defensa que analiza los riesgos y oportunidades de la toma de decisiones automatizada.