Aunque sabe que todavía queda mucho trabajo por hacer, la pionera científica de datos Jennifer Chayes defiende el poder del campo para mejorar los sesgos y los abusos que dominan internet, y critica que el uso que las empresas hacen de los datos presenta innumerables problemas
Mientras trabajaba en Microsoft y en el mundo académico, Jennifer Chayes luchó por utilizar la ciencia de datos y la computación para que la inteligencia artificial (IA) fuera más justa y menos sesgada.
Desde que abandonó la escuela con 15 años hasta convertirse en la decana de Ciencia de Datos de la Universidad de California en Berkeley (UCLA, EE. UU.), ha tenido una gran trayectoria profesional. Se unió a la UCLA en 1987 como profesora titular de matemáticas. Diez años después, Microsoft la convenció para que cofundara su Grupo de Teoría de la Investigación Interdisciplinaria.
Fue en su laboratorio de Microsoft en Nueva York (EE. UU.) donde los investigadores descubrieron los sesgos en el software de reconocimiento facial de la empresa, demostrando que el sistema clasificaba las caras blancas con mayor precisión que las caras de piel oscura y negra. Este hallazgo provocó que la compañía rechazara un lucrativo contrato con un departamento de policía y comenzara a trabajar para eliminar el sesgo de tales algoritmos. El grupo FATE (Equidad, Responsabilidad, Transparencia y Ética en IA) fue creado en el laboratorio de Chayes.
Anil Ananthaswamy le preguntó a Chayes, quien en la actualidad es rectora asociada del Departamento de Computación, Ciencia de Datos y Sociedad y decana de la Facultad de la Información en Berkeley, cómo la ciencia de datos está transformando la informática y otros campos.
¿Cómo fue su transición del mundo académico a la industria?
Fue bastante sorprendente. El vicepresidente de Investigación de Microsoft, Dan Ling, me llamó para intentar convencerme de que fuera a una entrevista. Hablé con él durante unos 40 minutos. Y al final le pregunté: "¿De verdad quiere saber qué es lo que me molesta? Microsoft es un grupo de chicos adolescentes y no quiero pasar mi vida con un grupo de chicos adolescentes".
¿Cómo reaccionó?
Me respondió: "Oh, no, no lo somos. Debería venir a conocernos". Y cuando fui, conocí a algunas mujeres increíbles y a algunas personas extraordinariamente abiertas que querían probar cosas para cambiar el mundo.
¿Cómo la ciencia de datos ha cambiado la informática?
A medida que conseguíamos más datos, la informática ha empezado a mirar hacia afuera. Pienso en la ciencia de datos como un matrimonio entre la informática, la estadística, la ética, con énfasis en algún campo o disciplina, ya sea la biomedicina y la salud, el clima y la sostenibilidad, o el bienestar humano y la justicia social, etcétera. Sí que está transformando la informática.
¿Existe alguna diferencia en la forma en la que los científicos de datos resuelven los problemas?
Con la llegada de todos estos datos, tenemos la oportunidad de aprender de los datos sin tener una teoría que explique por qué está pasando algo. Especialmente en esta era del aprendizaje automático y aprendizaje profundo, nos permite sacar conclusiones y hacer predicciones sin una teoría subyacente.
¿Eso puede causar problemas?
Algunos lo consideran un problema en los casos en los que hay, [por ejemplo], datos biomédicos. Los datos predicen con mucha precisión qué va a funcionar y qué no, sin un mecanismo biológico subyacente.
¿Alguna ventaja?
En la actualidad, los datos nos han permitido, en muchos casos, ejecutar lo que un economista llamaría un contrafáctico, donde en realidad se ve una variación aleatoria en los datos que permite sacar conclusiones sin realizar experimentos. Eso es increíblemente útil.
¿Realmente quiero probar diferentes formas de educación en distintas poblaciones? ¿O quiero ver [si] hubo una variación aleatoria en algún momento que me permitiría hacer una conclusión causal realmente buena y, por lo tanto, podría basar la norma en ella?
¿Ve algún problema en cómo se utilizan los datos, especialmente por parte de las grandes empresas?
Hay innumerables problemas. No solo los utilizan las corporaciones tecnológicas, sino también las compañías de seguros, las plataformas gubernamentales, las de salud pública y las educativas. Si no se comprende qué sesgos pueden aparecer, tanto en los conjuntos de datos como en los algoritmos, es probable que el sesgo se intensifique.
Estos sesgos se infiltran [cuando] no hay muchos datos. Y también se pueden correlacionar con otros factores. Trabajé personalmente en la interpretación de biografías y currículums de forma automática. No se nos permite usar el género o la raza. Pero, aunque no mire estos atributos protegidos, hay muchas cosas [en los datos] que pueden indicar el género y la raza. Si alguien ha ido a ciertas escuelas, si ha crecido en ciertos distritos, si practicaba ciertos deportes y tenía ciertas actividades, todo eso está correlacionado [con el género o la raza].
¿Los algoritmos detectan estos indicadores?
Sí. Hay que comprender esto explícitamente y evitarlo explícitamente al escribir el algoritmo.
¿Cómo podemos abordar estos problemas?
Existe toda esta área de FATE: equidad, responsabilidad, transparencia y ética en la IA, que es el diseño de estos algoritmos y la comprensión de lo que son. Pero queda mucho más por hacer.
¿Y la ciencia de datos ayuda?
Eso es la ciencia de datos. Hay una parte de la web llamada "machosfera" o "manosfera", donde se genera mucho odio. Resulta un poco difícil de localizar. Pero si usamos el procesamiento de lenguaje natural y otras herramientas, se puede ver de dónde proviene. Otra posibilidad consiste en intentar construir interfaces que permitan a los grupos de defensa y a otros a encontrarlo y ayudar a erradicarlo. Esto va más allá de la justicia. Está cambiando las tornas en cómo estas plataformas han sido usurpadas para aumentar el sesgo y el odio, y hay que decir: "Vamos a utilizar el poder de la informática y de la ciencia de datos para identificar y mitigar el odio".