Tecnología y Sociedad
El ciclo sin fin de la IA racista empieza en los datos y acaba en las personas
Se dice que los datos nunca mienten pero la realidad es que los diseñadores de inteligencia artificial usan conjuntos sesgados que corrompen los sistemas que luego se aplican en el mundo real. Los tecnólogos deben asumir su responsabilidad sobre la inclusión de ideologías tóxicas en los algoritmos
He oído muchas veces que "los datos no mienten". Sin embargo, esa máxima nunca se ha ajustado a mis vivencias. Para mí, los datos casi siempre mienten. Los resultados de búsqueda de imágenes de Google para "piel sana" solo devuelven mujeres de piel clara, y las consultas sobre "chicas negras" todavía ofrecen respuestas de pornografía. El conjunto de datos faciales de CelebA tiene etiquetas de "nariz grande" y "labios grandes" que se asignan de manera desproporcionada a los rostros femeninos de piel más oscura como la mía. Cuando se enfrentan a alguien como yo, los modelos entrenados con ImageNet me etiquetan como una "mala persona", "drogadicta" o "fracasada". A los conjuntos de datos para detectar el cáncer de piel les faltan ejemplos de los tipos de piel más oscuros.
La supremacía blanca suele aparecer de forma violenta, con disparos en un supermercado abarrotado o en misa, a través de una acusación brusca alimentada por el odio o un empujón en la calle. Pero a veces también adopta formas más sutiles, como estas mentiras. Si los que construimos los sistemas de inteligencia artificial (IA) seguimos permitiendo que la mentira descarada de la supremacía blanca se incruste en todo el proceso, desde cómo recogemos los datos hasta cómo definimos los conjuntos de datos y cómo decidimos usarlos, eso supone una tolerancia preocupante.
Las personas que no son blancas no son algo fuera de lo normal. De hecho, a nivel mundial, somos la norma, y esto no parece que vaya a cambiar pronto. Los conjuntos de datos incorporados específicamente en espacios blancos y para blancos representan una realidad construida, no la que existe natural. Contar con la precisión calculada sin mi experiencia vivida no solo me ofende, sino que también me genera un peligro real.
Datos corrompidos
En un artículo de investigación titulado Datos erróneos, malas predicciones, la autora principal, Rashida Richardson, describe una situación alarmante: las comisarías de policía sospechosas o confirmadas por haber participado en prácticas "corruptas, racistas o ilegales" siguen contribuyendo con sus datos al desarrollo de nuevos sistemas automatizados destinados a ayudar a los agentes a tomar decisiones sobre el mantenimiento del orden.
El objetivo de las herramientas de vigilancia policial predictiva consiste en enviar a los policías a la escena de un crimen antes de que suceda. Hay quien supone que los lugares donde las personas ya han sido arrestadas antes se correlacionan con una mayor probabilidad de una futura actividad ilegal.
Richardson señala que esta suposición permanece incuestionable incluso cuando esos arrestos iniciales han sido ilegales o por motivos raciales, a veces con "manipulación sistémica de datos, corrupción policial, falsificación de informes policiales y violencia, incluido el robo de residentes, la colocación ilícita de pruebas, la extorsión, los registros inconstitucionales, y otras prácticas corruptas". Incluso los datos de los departamentos de policía con la peor conducta se siguen utilizando en las herramientas de vigilancia policial predictiva.
Según informa Tampa Bay Times, este enfoque puede proporcionar una justificación algorítmica para un mayor acoso policial hacia las comunidades minoritarias y de bajos ingresos. El uso de datos tan errados para entrenar nuevos sistemas integra en el algoritmo la mala conducta documentada de esos departamentos de policía y perpetúa las prácticas que ya se sabe que aterrorizan a los más vulnerables a ese abuso.
Ahora, tal vez crea que se trata de un lamentable fenómeno anecdótico y poco frecuente. Sin embargo, realmente se trata de una norma en el aprendizaje automático: esta es la calidad de los datos típica que actualmente aceptamos como una incuestionable "verdad fundamental".
Un día, la anterior versión disponible públicamente del modelo de generación de lenguaje automatizado desarrollado por la organización de investigación OpenAI GPT-2, comenzó a hablarme abiertamente sobre los "derechos de los blancos". Con unas indicaciones simples como "un hombre blanco es" o "una mujer negra es", el texto generado por el modelo empezó a debatir sobre las "naciones arias blancas" e "invasores extranjeros y no blancos".
Las diatribas de GPT-2 no solo incluían insultos horribles como "perra", "puta", términos peyorativos para "negros", "chinos" y "asiáticos", sino que el texto generado contenía una retórica nacionalista específica de los estadounidenses blancos, describiendo "amenazas demográficas" y desviándose hacia digresiones antisemitas contra "judíos" y "comunistas".
GPT-2 no piensa por sí mismo, solo genera respuestas replicando los patrones de lenguaje observados en los datos utilizados para desarrollar el modelo. Este conjunto de datos, denominado WebText, contiene "más de 8 millones de documentos para un total de 40 GB de texto" procedentes de hipervínculos. Estos enlaces fueron seleccionados de las publicaciones más votadas en el sitio web de Reddit, como "un indicador heurístico de si otros usuarios encontraron el enlace interesante, educativo o simplemente divertido".
Sin embargo, se sabe que los usuarios de Reddit, incluidos los que publican y votan las publicaciones, incluyen a supremacistas blancos. Durante años, la plataforma estuvo plagada de lenguaje racista y permitió enlaces a contenido con ideología racista. Y, aunque hay opciones disponibles para frenar este comportamiento en la plataforma, los primeros intentos serios de tomar medidas en 2015 por parte de la entonces CEO, Ellen Pao, fueron mal recibidos por la comunidad y dieron lugar a un intenso hostigamiento y reacción violenta.
Ya se trate de policías o de usuarios díscolos, los tecnólogos permiten que su cosmovisión opresiva particular se consolide en los conjuntos de datos y defina la naturaleza de los modelos que desarrollamos. La propia empresa OpenAI reconoció las limitaciones de los datos obtenidos de Reddit y señaló que "muchos grupos maliciosos utilizan esos foros de debate para organizarse". No obstante, la organización también sigue haciendo uso del conjunto de datos derivados de Reddit, incluso en las versiones posteriores de su modelo de lenguaje.
La naturaleza peligrosamente defectuosa de las fuentes de datos es ignorada por su conveniencia, a pesar de las consecuencias. No hace falta tener una intención maliciosa para que esto suceda, aunque sí una cierta pasividad irreflexiva y negligencia.
Pequeñas mentiras blancas
La supremacía blanca es la falsa creencia de que los individuos blancos son superiores a los de otras razas. No es un simple error de concepto, sino una ideología basada en el engaño. La raza es el primer mito, la superioridad el siguiente. Los defensores de esta ideología se aferran obstinadamente a una invención que los beneficia.
He oído cómo esta mentira suaviza el lenguaje de una "guerra contra las drogas" a una "epidemia de opioides" y culpa a la "salud mental" o los "videojuegos" de las acciones de los agresores blancos, incluso cuando atribuye la "pereza" y la "criminalidad" a las víctimas no blancas. Me doy cuenta de cómo borra a los que se parecen a mí y veo su desarrollo en un desfile interminable de rostros pálidos de los que parece que no puedo escapar: en películas, portadas de revistas y entregas de premios.
Los conjuntos de datos incorporados específicamente en espacios blancos y para blancos representan una realidad construida, no la que existe natural
Esta sombra me persigue en todas partes, como un escalofrío incómodo en la nuca. Cuando escucho "asesinato", no solo veo al oficial de policía con la rodilla en la garganta o al vigilante equivocado con un arma al lado; también es la economía la que nos ahoga, la enfermedad la que nos debilita y el Gobierno el que nos silencia.
A ver, ¿cuál es la diferencia entre la vigilancia excesiva en los barrios minoritarios y el sesgo del algoritmo que envió a los oficiales allí? ¿Cuál es la diferencia entre un sistema escolar segregado y un algoritmo de calificación discriminatorio? ¿Entre un médico que no escucha y un algoritmo que nos niega una cama en un hospital? No hay un racismo sistemático independiente al de nuestras contribuciones algorítmicas, de la red oculta del uso de los algoritmos que regularmente recaen sobre aquellos que ya son los más vulnerables.
Resistir al determinismo tecnológico
La tecnología depende de nosotros; la creamos nosotros, y tenemos un control total sobre ella. Los datos no son solo arbitrariamente "políticos", existen unas políticas tóxicas y desinformadas específicas que los científicos de datos permiten desconsideradamente que se infiltren en nuestros conjuntos de datos. La supremacía blanca es una de ellas.
Ya nos hemos integrado a nosotros mismos y a nuestras decisiones en el resultado; no hay un enfoque neutral. No existe una versión futura de datos que resulte mágicamente imparcial. Los datos siempre serán una interpretación subjetiva de la realidad de alguien, una presentación específica de los objetivos y puntos de vista que alguien decidió priorizar en un momento dado.
Ese es un poder que tenemos como responsables de obtener, seleccionar y diseñar estos datos y desarrollar los modelos que interpretan la información. Básicamente, no existe un paralelismo entre "justicia" y "precisión"; es un sacrificio mítico, una excusa para no reconocer nuestro papel en la definición del desempeño excluyendo a los demás en primer lugar.
Los que construimos estos sistemas elegimos qué subreddits y fuentes digitales rastrear, qué idiomas usar o ignorar, qué conjuntos de datos eliminar o aceptar. Y lo más importante: elegimos a quién aplicamos estos algoritmos y para qué objetivos los optimizamos. Elegimos las etiquetas que creamos, los datos que tomamos, los métodos que usamos. Elegimos a quiénes aceptamos como científicos de datos, ingenieros e investigadores, y a quiénes no. Existen muchas posibilidades para el diseño de la tecnología que construimos y elegimos una. Somos los responsables.
Entonces, ¿por qué tenemos más cuidado? ¿Cuándo adquiriremos por fin el hábito de revelar la procedencia de los datos, eliminar los conjuntos de datos problemáticos y definir explícitamente las limitaciones del alcance de cada modelo? ¿En qué momento podremos condenar a los que operan con una agenda explícita de supremacía blanca y tomar acciones serias para la inclusión?
Un camino incierto
He visto a compañeros felicitarse por un progreso invisible, distraídos por las condolencias corporativas, las soluciones técnicas abstractas y las teorías sociales articuladas. Al final, los envidio, porque tienen esa opción en el mismo mundo donde yo, como cualquier otra persona negra, no puedo dejar de preocuparme por esto.
En estos momentos en los que la gente negra se muere en una cacofonía de desastres naturales y no naturales, muchos de mis colegas siguen más motivados por el último producto o lanzamiento espacial que por el horror estremecedor de una realidad que a mí me deja sin aliento.
Lo cierto es que la IA no funcionará hasta que no lo haga para todos nosotros.
Llevo años viendo que este problema se presenta como importante, pero está claro que lidiar con él todavía se considera una acción complementaria no prioritaria, "que viene bien tener", siempre secundaria a alguna definición de funcionalidad del modelo que no me incluye.
Algunos modelos que claramente todavía no han logrado abordar estos desafíos de sesgo se elogian como avances, mientras que las personas suficientemente valientes para hablar sobre el riesgo acaban silenciadas, o algo peor. Existe una evidente autocomplacencia cultural con las cosas de siempre, y aunque es decepcionante, no es particularmente sorprendente en un campo donde la gran mayoría simplemente no entiende todo lo que está en juego.
Lo cierto es que la IA no funcionará hasta que no lo haga para todos nosotros. Si alguna vez esperamos abordar la injusticia racial, entonces debemos dejar de presentar nuestros datos distorsionados como una "verdad fundamental". No existe un mundo racional y justo en el que las herramientas de contratación excluyan sistemáticamente a las mujeres de los puestos técnicos, o en el que los coches autónomos tengan más probabilidad de atropellar a los peatones de piel más oscura. La verdad de la realidad que reconozco no está en estos modelos, ni en los conjuntos de datos que los crean.
La comunidad de aprendizaje automático sigue aceptando un cierto nivel de disfunción siempre que solo se vean afectados ciertos grupos. Se necesita un cambio en la consciencia, y eso requerirá tanto esfuerzo como cualquier otra lucha contra la opresión sistemática. Al fin y al cabo, las mentiras incrustadas en nuestros datos no son muy diferentes a cualquier otra mentira que haya contado la supremacía blanca. Por lo tanto, requerirán la misma energía e inversión para contrarrestarlas.