Ms Tech | Getty, Unsplash

Inteligencia Artificial

Internet está tan sesgado que, para la IA, las mujeres solo llevan bikini

Se cree que los sesgos de la inteligencia artificial proceden de etiquetas puestas a mano, pero una investigación demuestra que el contenido de la web también altera su neutralidad. Dos algoritmos alimentados con imágenes tienden a autocompletar fotos de hombre con trajes mientras que para las mujeres aplican bikinis o camisetas escotadas

por Karen Hao | traducido por Ana Milutinovic
03 Febrero, 2021

Ya se sabe que los algoritmos de generación de lenguaje se entrenan con textos de internet, incluidos los de rincones oscuros de Reddit y Twitter (que suelen incluir discursos de odio y desinformación). Así, los propios sistemas acaban incorporando ideas racistas y sexistas. Si están presentes en esos foros, se normalizan como parte del proceso de aprendizaje y entrenamiento del algoritmo.

El estudiante de doctorado de la Universidad Carnegie Mellon (EE. UU.) Ryan Steed y la profesora asistente de la Universidad George Washington (EE. UU.) Aylin Caliskan ya habían demostrado que este mismo fenómeno se produce con los algoritmos de generación de imágenes.

Si se introduce una foto de un hombre recortada justo debajo de su cuello en uno de ellos, el 43 % de las veces autocompletarán la imagen con un traje. Pero, cuando al mismo algoritmo se le presenta una foto recortada de una mujer, incluso una mujer famosa como la diputada en el Congreso de Estados Unidos Alexandria Ocasio-Cortez, el 53 % de las veces la autocompletará con una camiseta escotada o un bikini.

Esto tiene implicaciones no solo para la generación automática de imágenes, sino para todas las aplicaciones de visión artificial, incluidos los algoritmos de evaluación de candidatos mediante vídeo, el reconocimiento facial y la vigilancia.

Los investigadores analizaron dos algoritmos: iGPT de OpenAI (una versión de GPT-2 que se entrena con píxeles en lugar de palabras) y SimCLR de Google. Aunque cada uno aprende de una manera diferente, comparten una característica importante: ambos utilizan aprendizaje no supervisado, lo que significa que no necesitan ayuda humana para etiquetar las imágenes.

Esta es una innovación relativamente nueva que surgió en 2020. Los anteriores algoritmos de visión artificial utilizaban principalmente aprendizaje supervisado, lo que implica introducirles imágenes etiquetadas manualmente: fotos de gatos con la etiqueta "gato" y las de bebés con la etiqueta "bebé". Pero en 2019, la investigadora Kate Crawford y el artista Trevor Paglen descubrieron que estas etiquetas creadas por personas en ImageNet (el conjunto de datos de imágenes más importante para entrenar los modelos de visión artificial), a veces contenían lenguaje perturbador, como "puta" para las mujeres e insultos raciales para minorías.

Su nuevo artículo demuestra una fuente de toxicidad aún más profunda. Incluso sin estas etiquetas humanas, las propias imágenes codifican patrones no deseados. Este problema es similar a lo que la comunidad del procesamiento de lenguaje natural (PLN) ya había descubierto. Los enormes conjuntos de datos creados para alimentar estos algoritmos hambrientos de datos capturan todo lo que hay en internet. Pero la web acumula una cantidad excesiva de imágenes de mujeres con poca ropa y con otros estereotipos a menudo perjudiciales.

Para llevar a cabo su estudio, Steed y Caliskan adaptaron hábilmente una técnica que Caliskan ya había usado para examinar el sesgo en los modelos no supervisados de PLN. Estos modelos aprenden a manipular y generar lenguaje utilizando incrustaciones de palabras, una representación matemática del lenguaje que agrupa las palabras que se suelen usar juntas y separa las que habitualmente se encuentran lejos.

En un artículo de 2017 publicado en Science, Caliskan midió las distancias entre los diferentes pares de palabras que los psicólogos usan para medir sesgos humanos en el Test de Asociación Implícita (IAT, por sus siglas en inglés). Caliskan descubrió que esas distancias recreaban casi a la perfección los resultados del IAT. Las parejas estereotipadas de palabras como hombre y carrera o mujer y familia estaban muy juntas, mientras que las parejas opuestas como hombre y familia o mujer y carrera estaban muy separadas.

iGPT también se basa en estas incrustaciones: agrupa o separa píxeles en función de la frecuencia con la que aparecen dentro de sus imágenes de entrenamiento. Esas incrustaciones de píxeles se pueden usar luego para comparar lo cerca o lejos que están dos imágenes en el espacio matemático.

En su estudio, Steed y Caliskan encontraron de nuevo que esas distancias reflejan los resultados del IAT. Las fotos de hombres y corbatas y trajes aparecen juntas, mientras que las fotos de mujeres aparecen más separadas. Los investigadores obtuvieron los mismos resultados con SimCLR, a pesar de utilizar un método diferente para encontrar las incrustaciones de las imágenes.

Estos resultados tienen preocupantes implicaciones para la generación de imágenes. Otros algoritmos de este tipo, como las redes generativas antagónicas, han llevado a una explosión de pornografía deepfake que ataca casi exclusivamente a las mujeres. En especial, iGPT añade otra forma para que las personas generen fotos de mujeres con un componente sexual.

Pero los posibles efectos posteriores son mucho mayores. En el campo de PLN, los modelos no supervisados se han convertido en la columna vertebral de todo tipo de aplicaciones. Los investigadores comienzan con un modelo existente no supervisado como BERT o GPT-2 y utilizan conjuntos de datos específicos para "ajustarlo" con un propósito concreto. Este enfoque semisupervisado, que combina aprendizaje supervisado y no supervisado, se ha convertido en una norma de facto.

Igualmente, el campo de la visión artificial está empezando a notar la misma tendencia. A Steed y Caliskan les preocupan lo que podrían significar estos sesgos incorporados cuando los algoritmos se utilizan para algunas aplicaciones sensibles, como la vigilancia o la contratación, donde los modelos ya analizan las grabaciones de vídeo de los candidatos para decidir si son adecuados para el trabajo. "Se trata de aplicaciones muy peligrosas que toman decisiones trascendentales", resalta Caliskan.

La coautora de un influyente estudio que revela los sesgos en el reconocimiento facial y que trabaja en Mozilla, Deborah Raji, cree que el estudio debería servir como llamada de atención al campo de la visión artificial. "Durante mucho tiempo, gran parte de las críticas sobre el sesgo se centraron en la forma en la que se etiquetan las imágenes", explica. Pero añadei que este artículo demuestra que "la composición real de los conjuntos de datos es la que provoca estos sesgos". Y sentencia: "Debemos asumir la responsabilidad sobre cómo seleccionamos estos conjuntos de datos y recopilamos esta información".

Steed y Caliskan instan a una mayor transparencia de las empresas que desarrollan estos modelos para que sean de código abierto y dejen que la comunidad académica continúe con sus investigaciones. También animan a otros investigadores a realizar más pruebas antes de implementar un modelo de visión, por ejemplo, usando los métodos que desarrollaron para este artículo. Y, finalmente, esperan que el propio campo desarrolle formas más responsables de reunir y documentar lo que se incluye en los conjuntos de datos para el entrenamiento.

Caliskan cree que el objetivo final consiste en crear una mayor conciencia y control a la hora de aplicar la visión artificial. Y concluye: "Debemos tener mucho cuidado sobre cómo lo usamos, pero, al mismo tiempo, ahora que tenemos estos métodos, podemos intentar usarlos para el bien social".

Inteligencia Artificial

Internet está tan sesgado que, para la IA, las mujeres solo llevan bikini

El gobierno de EE UU pone bajo la lupa a las empresas de IA por publicidad engañosa

Las emisiones de la IA están a punto de dispararse aún más

La IA llega al campo de batalla para redefinir la toma de decisiones en la guerra moderna