Ms Tech | Pixabay

Inteligencia Artificial

Despídase de controlar su cara si alguien la usa en una base de datos

Distintas investigaciones demuestran que, cuando un conjunto se publica, resulta imposible evitar que se expanda y se use por terceros, incluso aunque se borre poco después. La comunidad de la inteligencia artificial necesita solucionarlo para seguir avanzando sin amenazar la privacidad y la ética de la gente

por Karen Hao | traducido por Ana Milutinovic
20 Agosto, 2021

En 2016, Microsoft tuvo la idea de fomentar los avances en el reconocimiento facial haciendo pública la base de datos de caras más grande del mundo, denominada MS-Celeb-1M, que contenía 10 millones de imágenes de 100.000 rostros de celebridades. Pero el término "celebridad" se definió vagamente.

Tres años después, los investigadores Adam Harvey y Jules LaPlace examinaron el conjunto de datos y encontraron muchas personas como periodistas, artistas, activistas y académicos, que mantenían una presencia online para su vida profesional. Ninguno había dado su consentimiento para ser incluido en esa base de datos, pero, aun así, sus rostros habían llegado ahí y más allá. El conjunto fue utilizado en muchas investigaciones por empresas como Facebook, IBM, Baidu y SenseTime, uno de los mayores gigantes de reconocimiento facial de China, que vende su tecnología a la policía china.

Poco después de la investigación de Harvey y LaPlace, y tras recibir muchas críticas por parte de los periodistas, Microsoft eliminó el mencionado conjunto de datos, con la siguiente explicación: "El reto de la investigación ha terminado". Pero las preocupaciones sobre la privacidad que se crearon persisten en la eternidad de internet. Y este caso no es el único.

La búsqueda de imágenes y texto en la web antes se consideraba una estrategia ingeniosa para reunir datos del mundo real. Actualmente, las leyes como el GDPR (el Reglamento de Protección de Datos europeo) y la creciente preocupación pública por la privacidad y la vigilancia de los datos han hecho que esa práctica resulte arriesgada e impropia desde el punto de vista legal. Como resultado, los investigadores de inteligencia artificial (IA) se van retractando cada vez más de los conjuntos de datos que crearon de esta manera.

Pero un nuevo estudio de la Universidad de Princeton (EE. UU.) muestra que esto no ha hecho gran cosa para evitar la proliferación y el uso de datos delicados. Los autores del estudio eligieron tres de los conjuntos de datos más citados que contenían rostros o personas, dos de los cuales se habían retirado, y rastrearon cómo cada uno había sido copiado, usado y reutilizado en cerca de 1.000 documentos.

En el caso de MS-Celeb-1M, todavía existen copias en sitios de terceros y en los conjuntos de datos derivados construidos sobre el conjunto original. Los modelos de código abierto previamente entrenados con estos datos también siguen disponibles. Asimismo, el conjunto de datos y sus derivados fueron citados en cientos de artículos publicados entre seis y 18 meses después de la retirada de la mencionada base de datos.

DukeMTMC, el conjunto de datos de imágenes de personas que caminan por el campus de la Universidad de Duke (EE. UU.) que se retiró el mismo mes que MS-Celeb-1M, persiste de manera similar en conjuntos de datos derivados y centenares de citas en papel.

La lista de los lugares donde persisten los datos es "más amplia de lo que pensábamos al principio", afirma el estudiante de segundo año de la Universidad de Princeton (EE. UU.) y coautor del estudio Kenny Peng. E incluso eso, señala, es probablemente una subestimación, porque las citas en los artículos de investigación no siempre reflejan las formas en las que los datos se pueden usar comercialmente.

A lo loco

Parte del problema, según el artículo de la Universidad de Princeton, es que quienes crean los conjuntos de datos pierden rápidamente el control sobre ellos.

Los conjuntos de datos publicados para un fin concreto pueden acabar siendo utilizados para otros que nunca fueron previstos o imaginados por los primeros creadores. MS-Celeb-1M, por ejemplo, estaba destinado a mejorar el reconocimiento facial de las celebridades, pero se ha utilizado para reconocimiento facial más general y análisis de rasgos faciales, según encontraron los autores del estudio. También se ha vuelto a etiquetar o procesar en los conjuntos de datos derivados como Racial Faces in the Wild, que agrupa sus imágenes por raza, lo que abre la puerta a distintas aplicaciones controvertidas.

El análisis de los investigadores también sugiere que el conjunto de datos Labeled Faces in the Wild (LFW), creado en 2007 y el primero en usar imágenes de rostros extraídas de internet, se ha transformado varias veces a lo largo de casi 15 años de su uso. Aunque empezó como recurso para evaluar los modelos de reconocimiento facial solo para investigación, actualmente se utiliza casi exclusivamente para evaluar los sistemas diseñados para su uso en el mundo real, a pesar de un aviso en el sitio web del conjunto de datos que advierte contra dicho uso.

Más recientemente, el conjunto de datos se ha reutilizado para el derivado SMFRD, que agregó mascarillas faciales a cada una de las imágenes para avanzar en el reconocimiento facial durante la pandemia. Los investigadores señalan que esto podría plantear nuevos desafíos éticos. Los defensores de la privacidad han criticado estas aplicaciones por fomentar la vigilancia, por ejemplo, y especialmente por permitir que el gobierno identifique a manifestantes enmascarados.

"Se trata de un trabajo realmente importante, porque las personas no han podido ver las complejidades y los posibles daños y riesgos de los conjuntos de datos", cree la investigadora de ética de IA y líder en prácticas de datos responsables Margaret Mitchell, que no participó en el estudio.

Durante mucho tiempo, la cultura de la comunidad de IA ha sido asumir que los datos existen para ser utilizados, añade. Este estudio muestra cómo eso puede generar problemas en el futuro. "Es muy importante pensar en los diversos valores que codifica un conjunto de datos, así como los valores que se codifican con un conjunto de datos disponible", señala.

Un apaño

Los autores del estudio ofrecen varias recomendaciones para el avance de la comunidad de IA. Primero, los creadores deberían informar de forma más clara sobre el uso previsto de sus conjuntos de datos, tanto a través de permisos como con otra documentación detallada. También deberían imponer límites más estrictos al acceso a sus datos, quizás exigiendo a los investigadores que firmen unas condiciones de uso o pidiéndoles que hagan una solicitud, especialmente si tienen la intención de construir un conjunto de datos derivado.

En segundo lugar, las conferencias de investigación deberían establecer normas sobre cómo se tendrían que recoger, etiquetar y utilizar los datos, y crear incentivos para la creación responsable de los conjuntos de datos. NeurIPS, la mayor conferencia de investigación de IA, ya incluye una lista de las mejores prácticas y pautas éticas.

Mitchell sugiere llevarlo aún más lejos. Como miembro del proyecto BigScience (la colaboración entre investigadores de IA para desarrollar un modelo de IA capaz de analizar y generar lenguaje natural bajo un riguroso estándar de ética), ha experimentado con la idea de crear organizaciones de gestión de conjuntos de datos, con equipos de personas que no solo manejarían la conservación, el mantenimiento y el uso de los datos, sino también trabajarían con abogados, activistas y la sociedad en general para asegurarse del cumplimiento de los estándares legales, que se recopilen los datos solo con el consentimiento y que se puedan eliminar si alguien decide retirar la información personal. Dichas organizaciones de gestión no serían necesarias para todos los conjuntos de datos, pero sí para los extraídos que podrían contener información biométrica o de identificación personal o la propiedad intelectual.

"La recogida y el control de los conjuntos de datos no es una tarea para una o dos personas. Si se hace de manera responsable, se divide en un montón de tareas diferentes que requieren un pensamiento profundo, una gran experiencia y una variedad de distintas personas", resalta Mitchell.

En los últimos años, este campo se ha ido moviendo cada vez más hacia la creencia de que los conjuntos de datos cuidadosamente seleccionados serán clave para superar muchos de los desafíos técnicos y éticos de la industria. Ya está claro que construir conjuntos de datos más responsables no es suficiente. Los que trabajan en IA también deben comprometerse a largo plazo a mantenerlos y usarlos de manera ética.

Inteligencia Artificial

Despídase de controlar su cara si alguien la usa en una base de datos

A lo loco

Un apaño

DeepSeek cuestiona la idea de que la IA necesita más energía

El hambre de energía de la IA alimenta el resurgir nuclear

La carrera por la IA entre EE UU y China pone en peligro la paz mundial