A medida que más actores maliciosos usan IA generativa para producir imágenes de odio en línea, Humane Intelligence quiere buscar formas de utilizar la IA para rastrearlas y eliminarlas
Humane Intelligence, una organización dedicada a evaluar sistemas de inteligencia artificial (IA), ha lanzado un concurso que reta a los desarrolladores a crear un modelo monitorización por ordenador que sea capaz de rastrear la propaganda basada en imágenes que inciten al odio en Internet. Organizado en colaboración con el grupo antiterrorista nórdico Revontulet, el programa de recompensas se abrió el 26 de septiembre. Está abierto a cualquier persona, mayor de 18 años, que quiera competir y promete premios de 10.000 dólares (8.960 euros) para los ganadores.
Este es el segundo de una serie prevista de 10 programas de "recompensas por prejuicios algorítmicos" lanzados por Humane Intelligence, una organización sin ánimo de lucro que investiga el impacto social de la IA y que fue lanzada en 2022 por el destacado investigador Rumman Chowdhury. La serie cuenta con el apoyo de Google.org, la rama filantrópica de Google.
"El objetivo de nuestros programas de recompensas es, en primer lugar, enseñar a la gente cómo hacer evaluaciones algorítmicas; pero también, en segundo lugar, resolver un problema realmente apremiante en nuestro campo", explica Chowdhury.
En el primer reto se pedía a los participantes que evaluaran las lagunas en los conjuntos de datos de muestra que suelen utilizarse para entrenar los modelos de IA; lagunas que pueden producir resultados inexactos, sesgados o engañosos.
El segundo reto trata del seguimiento de imágenes de odio en Internet, un problema increíblemente complejo. La IA generativa ha hecho posible una explosión de este tipo de contenidos, y la IA también se utiliza para manipular contenidos con el fin de que no sean eliminados de las redes sociales. Por ejemplo, los grupos extremistas pueden utilizar la IA para alterar ligeramente una imagen que una plataforma ya ha prohibido, creando rápidamente cientos de copias diferentes que no pueden ser marcadas fácilmente por los sistemas de detección automatizados. Las redes extremistas también pueden utilizar la IA para incrustar un patrón en una imagen que sea indetectable para el ojo humano, pero que confunda y evada los sistemas de detección. En esencia, se ha creado un juego del gato y el ratón entre los grupos extremistas y las plataformas en línea.
El reto tiene dos categorías. La primera es una tarea para aquellos con habilidades intermedias y consiste en identificar imágenes de odio. La segunda, considerada ya un reto avanzado, es un modelo que intenta engañar al primero. "De hecho, se imita cómo funciona el mundo real: los bienhechores hacen una aproximación y luego los malos hacen otra", explica Chowdhury. El objetivo es involucrar a los investigadores del aprendizaje automático en la mitigación del extremismo, lo que puede conducir a la creación de nuevos modelos que puedan detectar eficazmente las imágenes de odio.
Uno de los principales retos del proyecto es que la propaganda basada en el odio puede depender mucho de su contexto. Y alguien que no conozca a fondo ciertos símbolos o significantes puede no ser capaz de distinguir lo que se considera propaganda de un grupo nacionalista blanco.
"Si [el modelo] nunca ve un ejemplo de una imagen de odio de una parte del mundo, entonces no va a ser bueno para detectarla", dice Jimmy Lin, profesor de informática en la Universidad de Waterloo, que no está asociado con el programa de recompensas.
Este efecto se amplifica a lo largo y ancho del mundo, ya que a muchos modelos les falta conocimiento de los contextos culturales. Por eso Humane Intelligence decidió asociarse con una organización no estadounidense para este reto concreto. "La mayoría de estos modelos suelen ajustarse a ejemplos estadounidenses, por eso es importante que trabajemos con un grupo antiterrorista nórdico", afirma Chowdhury.
Lin, sin embargo, advierte de que resolver estos problemas puede requerir algo más que cambios algorítmicos. "Tenemos modelos que generan contenidos falsos. ¿Podemos desarrollar otros modelos capaces de detectar contenidos generados falsamente? Sí, ése es sin duda uno de los enfoques", explica. "Pero creo que, en general, a largo plazo, los esfuerzos de formación, alfabetización y educación van a ser realmente más beneficiosos y van a tener un impacto más duradero. Porque no vamos a estar sometidos a este juego del gato y el ratón".
El reto durará hasta el 7 de noviembre de 2024. Se seleccionarán dos ganadores, uno para el reto intermedio y otro para el avanzado; recibirán 4.000 y 6.000 dólares (3.575 y 5.363 euros), respectivamente. Los participantes también verán sus modelos revisados por Revontulet, que podría decidir añadirlos a su actual conjunto de herramientas para combatir el extremismo.