Inteligencia Artificial
Los modelos de IA reproducen fotos de personas reales e imágenes con derechos de autor
Este nuevo hallazgo podría fortalecer a los artistas que acusan a las empresas de inteligencia artificial de infringir sus derechos de autor
Los modelos populares de generación de imágenes pueden producir fotos identificables de personas reales, algo que podría amenazar la privacidad de estas, según una nueva investigación. Este trabajo también muestra que estos sistemas de inteligencia artificial (IA) se pueden crear para producir copias exactas de imágenes médicas y obras con derechos de autor. El hallazgo podría fortalecer el argumento de los artistas que están demandando a las empresas de inteligencia artificial por violaciones de derechos de autor.
Los investigadores de Google, DeepMind, UC Berkeley, ETH Zürich y Princeton obtuvieron sus resultados solicitando a Stable Diffusion e Imagen de Google los subtítulos para las imágenes, como el nombre de una persona. Después, analizaron si alguna de las imágenes que generaron coincidía con las imágenes originales en la base de datos del modelo. Así el grupo logró extraer más de 100 réplicas de imágenes en el conjunto de entrenamiento de la IA.
Estos modelos de IA que generan imágenes están entrenados por grandes conjuntos de datos que consisten en imágenes con descripciones de texto extraídos de internet. Esta tecnología de última generación funciona tomando imágenes en el conjunto de datos y cambiando un píxel cada vez hasta que la imagen original no sea más que un conjunto de píxeles aleatorios. Luego, el modelo de IA invierte el proceso para convertir ese caos de píxeles en una nueva imagen.
Es la primera vez que los investigadores logran demostrar que estos modelos de IA memorizan las imágenes en sus conjuntos de entrenamiento, según explica Ryan Webster, estudiante de doctorado de la Universidad de Caen (Normandía, Francia), cuyo trabajo se centra en la privacidad de otros modelos de generación de imágenes, pero que no ha participado en esta investigación. Esto podría tener consecuencias para las start-ups que deseen utilizar modelos generativos de IA en sanidad, ya que muestra el riesgo de filtrar información privada y confidencial. OpenAI, Google y Stability.AI no respondieron a nuestras solicitudes de comentarios.
Eric Wallace, estudiante de doctorado en UC Berkeley (EE UU) que formó parte del grupo del estudio, explica que esperan alertar sobre los posibles problemas de privacidad en torno a estos modelos de IA antes de que se implementen en algunos sectores sensibles, como la medicina.
"Muchas personas se sienten tentadas a tratar de aplicar estos enfoques generativos a los datos confidenciales. Nuestro trabajo advierte de que eso es una mala idea, a menos que se tomen medidas de seguridad extremas para prevenir [infracciones de privacidad]", afirma Wallace.
La forma en que estos modelos de IA memorizan y regurgitan imágenes de sus bases de datos también es la raíz de la disputa entre las empresas de IA y los artistas. Stability.AI se enfrenta a dos demandas de un grupo de artistas y de Getty Images, quienes argumentan que la compañía extrajo y procesó de manera ilegal su material protegido por derechos de autor.
Estos hallazgos de los investigadores podrían fortalecer el argumento de los artistas que acusan a las empresas de IA de violaciones de derechos de autor. Si los artistas, cuyo trabajo se utilizó para entrenar a Stable Diffusion, pueden demostrar que el modelo ha copiado su trabajo sin permiso, es posible que la empresa tenga que compensarlos.
Este descubrimiento es oportuno y destacable, opina Sameer Singh, profesor asociado de informática de la Universidad de California en Irvine (EE UU) que no participó en la investigación. "Resulta importante para la concienciación social en general, y para iniciar debates sobre la seguridad y la privacidad de estos grandes modelos", añade Singh.
Este trabajo demuestra que es posible determinar si los modelos de IA han copiado las imágenes y calcular en qué medida ha ocurrido, lo que es valioso a largo plazo, según el profesor.
Stable Diffusion es de código abierto, lo que significa que cualquiera puede analizarlo e investigarlo. Imagen no lo es, pero Google concedió acceso a los investigadores. Singh cree que este trabajo es un gran ejemplo de la importancia de dar acceso a la investigación de estos modelos para su análisis, y argumenta que las empresas también deberían ser transparentes con otros modelos de IA, como ChatGPT de OpenAI.
Sin embargo, aunque los resultados son impresionantes, también vienen con advertencias. Las imágenes que los investigadores extrajeron ya habían aparecido varias veces en los datos de entrenamiento, o eran inusuales en relación con otras imágenes en el conjunto de datos, señala Florian Tramèr, profesor asistente de informática en ETH Zürich (Suiza) que formó parte del grupo.
Es decir, las personas que parecen inusuales o tienen nombres extraños corren un mayor riesgo de ser memorizados, indica Tramèr.
Los investigadores pudieron extraer unas pocas copias exactas de las fotos de las personas del modelo de IA: solo una entre un millón de imágenes eran copias, según Webster.
Sin embargo, eso sigue siendo preocupante, concluye Tramèr: "Espero que nadie vea estos resultados y diga 'Oh, estos números no son tan malos, si es solo uno entre un millón'".
"El hecho de que sean más que cero es lo que importa", agrega Tramèr.