Ms Tech | Cindy Tang/Unsplash

Inteligencia Artificial

Ausencia de datos: el otro gran sesgo racista de la IA

El estudio más grande jamás realizado sobre los datos hipotecarios de personas reales demuestra que tener un menor historial bancario también afecta para que un algoritmo otorgue un préstamo. Los expertos piden un cambio de cultura crediticia para recopilar datos que mejoren los sistemas en el futuro

por Will Douglas Heaven | traducido por Ana Milutinovic
23 Junio, 2021

Ya sabíamos que los datos y algoritmos sesgados influyen en la toma de decisiones automatizada de una manera que perjudica a los grupos minoritarios y los de bajos ingresos. Por ejemplo, el software utilizado por los bancos para predecir si alguien pagará o no la deuda de la tarjeta de crédito generalmente favorece a los solicitantes blancos más ricos. Muchos investigadores y una gran cantidad de start-ups intentan solucionar este problema para que estos algoritmos sean más justos.

Sin embargo en el mayor estudio jamás realizado sobre los datos hipotecarios del mundo real, los economistas Laura Blattner de la Universidad de Stanford (EE. UU.) y Scott Nelson de la Universidad de Chicago (EE. UU.) demuestran que las diferencias en la aprobación de hipotecas entre los grupos minoritarios y mayoritarios no se deben solo al sesgo, sino al hecho de que los grupos minoritarios y los de bajos ingresos tienen menos datos en sus historiales crediticios.

Esto significa que cuando estos datos se utilizan para calcular una calificación crediticia con la que hacer una predicción sobre el impago del préstamo, esa predicción será menos precisa. Es esta falta de precisión la que conduce a la desigualdad, no solo el sesgo.

Las consecuencias son desoladoras, y los algoritmos más justos no solucionarán ese problema.

"Es un resultado sorprendente", afirma el investigador del aprendizaje automático y economía de la Universidad de Harvard (EE. UU.) Ashesh Rambachan, que no participó en el estudio. El sesgo y los historiales crediticios desiguales han sido temas candentes durante algún tiempo, pero este es el primer experimento a gran escala que analiza las solicitudes de préstamos de millones de personas reales.

La calificación crediticia reduce una variedad de datos socioeconómicos, como el historial laboral, los informes financieros y los hábitos de compra, en un solo número. Además de decidir sobre las solicitudes de préstamos, se utilizan para tomar muchas decisiones que cambian la vida, como el seguro, la contratación y la vivienda.

Para averiguar por qué los prestamistas hipotecarios trataban de manera diferente a los grupos minoritarios y mayoritarios, Blattner y Nelson recopilaron informes crediticios de 50 millones de estadounidenses anonimizados y vincularon a cada uno con sus detalles socioeconómicos tomados de un conjunto de datos de marketing, sus escrituras de propiedad y transacciones hipotecarias, y datos sobre quiénes les otorgaron los préstamos hipotecarios.

Una de las razones por las que este es el primer estudio de este tipo es que los conjuntos de datos suelen ser confidenciales y no están disponibles públicamente para los investigadores. Blattner admite: "Fuimos a una oficina de crédito y básicamente tuvimos que pagarles mucho dinero para hacer esto".

Datos ruidosos

Luego, experimentaron con diferentes algoritmos predictivos para demostrar que las calificaciones crediticias no estaban simplemente sesgadas sino que eran ruidosas (el término estadístico para los datos que no se pueden usar para hacer predicciones precisas). Por ejemplo, un solicitante de algún grupo minoritario tiene una calificación crediticia de 620. En un sistema sesgado, podríamos esperar que esta calificación siempre exagere el riesgo de ese solicitante y que la calificación más precisa fuera 625, por ejemplo. En teoría, este sesgo podría explicarse a través de alguna forma de acción afirmativa algorítmica, como reducir el umbral de aprobación para las minorías.

Pero Blattner y Nelson demuestran que el ajuste por sesgo no tuvo ningún efecto. Descubrieron que la calificación crediticia de 620 de un solicitante de una minoría era de hecho un mal indicador de su solvencia, pero que esto se debía a que el error podía aparecer en ambos sentidos: 620 podría ser 625 o también 615.

Esta diferencia puede parecer sutil, pero es importante. Debido a que la inexactitud proviene del ruido en los datos y no del sesgo en la forma en la que se utilizan estos, es algo que no se puede solucionar mejorando los algoritmos.

"Es un ciclo que se autoperpetúa", asegura Blattner. "Se dan los préstamos a las personas equivocadas, y una parte de la población nunca tiene la oportunidad de acumular los datos necesarios para conseguir un préstamo en el futuro".

Blattner y Nelson luego intentaron medir el tamaño del problema. Construyeron su propia simulación de la herramienta de predicción de un prestamista hipotecario y calcularon lo que habría sucedido si se hubieran revertido las decisiones sobre los solicitantes dudosos que habían sido aceptados o rechazados debido a las calificaciones inexactas. Para llevarlo a cabo, utilizaron una variedad de técnicas, como comparar a los solicitantes rechazados con otros similares que habían sido aceptados, o buscar otras líneas de crédito que habían recibido los solicitantes rechazados, como los préstamos para comprarse un coche.

Al juntar todo esto, incorporaron estas decisiones hipotéticas "precisas" de préstamos en su simulador y volvieron a medir la diferencia entre los grupos. Descubrieron que, cuando se suponía que las decisiones sobre las minorías y los solicitantes de bajos ingresos eran tan precisas como las de los blancos más ricos, la disparidad entre los grupos se reducía en un 50 %. Para los solicitantes de las minorías, casi la mitad se debía a la eliminación de errores donde el solicitante tenía que haber sido aprobado pero no lo fue. Para los solicitantes de bajos ingresos, se trataba de una ganancia menor, porque se compensó al eliminar los errores que iban en el sentido contrario: los solicitantes que deberían haber sido rechazados pero no lo fueron.

Blattner señala que abordar esta inexactitud beneficiaría tanto a los prestamistas como a los solicitantes desatendidos. "El enfoque económico nos permite cuantificar los costes de los algoritmos ruidosos de una manera significativa", explica. "Podemos estimar cuánta mala asignación de crédito se produce a causa de ello".

Corregir los errores

Pero solucionar ese problema no será fácil. Hay muchas razones por las que los grupos minoritarios tienen datos crediticios ruidosos, según la abogada e investigadora de tecnología y raza en la Universidad Northeastern (EE. UU.) Rashida Richardson. "Existen consecuencias sociales agravadas en las que ciertas comunidades no piden el crédito tradicional debido a la desconfianza en las instituciones bancarias", destaca la experta. Cualquier solución tendrá que lidiar con las causas subyacentes. Revertir los daños requerirá varias soluciones, incluidas nuevas regulaciones bancarias e inversiones en las comunidades minoritarias: "Las soluciones no son simples porque deben abordar muchas malas prácticas y políticas diferentes".

Una opción a corto plazo podría ser que el Gobierno presione a los prestamistas para que acepten el riesgo de otorgar préstamos a los solicitantes de los grupos minoritarios que son rechazados por sus algoritmos. Esto permitiría a los prestamistas comenzar por primera vez a recopilar datos precisos sobre estos grupos, lo que beneficiaría a largo plazo tanto a los solicitantes como a los prestamistas.

Algunos prestamistas más pequeños ya han empezado a hacerlo: "Si los datos existentes no son suficientes, hay que abrirse, hacer un montón de préstamos y aprender sobre las personas", destaca Blattner. Rambachan y Richardson también ven esto como un primer paso necesario, pero el segundo cree que hará falta un cambio cultural para los prestamistas más grandes. Esta idea tiene mucho sentido para los especialistas en ciencia de datos, subraya. Sin embargo, al hablar con esos equipos dentro de los bancos, admiten que no es una opinión predominante. "Suspirarán y dirán que no consiguen explicárselo al equipo de negocios". Y señala: " no sé con seguridad cuál sería la solución".

Blattner también piensa que las calificaciones crediticias deben complementarse con otros datos sobre los solicitantes, como las transacciones bancarias. Le parece muy bien el reciente anuncio de varios bancos, incluido JPMorgan Chase, de que empezarán a compartir datos sobre las cuentas bancarias de sus clientes como una fuente adicional de información para las personas con los historiales crediticios deficientes, pero se necesitará más investigación para ver qué diferencia hará esto en la práctica. Y los órganos de control deberán asegurarse de que un mayor acceso al crédito no vaya de la mano de un comportamiento crediticio abusivo, resalta Richardson.

Mucha gente es consciente de los problemas con los algoritmos sesgados, afirma Blattner. A ella le gustaría que también se empiece a hablar de los algoritmos ruidosos. El foco en el sesgo, y la creencia de que tiene una solución técnica, significa que los investigadores podrían estar pasando por alto un problema más amplio.

A Richardson le preocupa que los legisladores estén convencidos de que la tecnología tiene las respuestas cuando no las tiene. "Los datos incompletos son preocupantes porque detectarlos requerirá que los investigadores tengan una comprensión bastante matizada de las desigualdades sociales", concluye. "Si queremos vivir en una sociedad equitativa en la que todos sientan que pertenecen y sean tratados con dignidad y respeto, entonces debemos comenzar a ser realistas sobre la gravedad y el alcance de los problemas con los que nos enfrentamos".

Inteligencia Artificial

Ausencia de datos: el otro gran sesgo racista de la IA

Datos ruidosos

Corregir los errores

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025