MS Tech | Getty, Unsplash

Inteligencia Artificial

Por qué la IA aún modera mal el discurso de odio

Los científicos trabajan para medir dónde falla cada sistema, ante las trabas para entender el lenguaje natural. Los contradiscursos y el uso de insultos por parte de colectivos para empoderarse son algunas de las razones

por Karen Hao | traducido por Ana Milutinovic
09 Junio, 2021

A pesar de los últimos avances en la tecnología de inteligencia artificial (IA) del lenguaje, todavía existen dificultades con una de las aplicaciones más básicas. En un nuevo estudio, científicos probaron cuatro de los mejores sistemas de IA para detectar el discurso de odio y descubrieron que todos tenían diferentes problemas para distinguir las frases tóxicas de las inofensivas.

Los resultados no son sorprendentes: es difícil crear una IA que comprenda los matices del lenguaje natural. Pero resulta importante la forma en la que los investigadores diagnosticaron el problema. Han desarrollado 29 pruebas diferentes para distintos aspectos del discurso del odio, con el objetivo de identificar con mayor precisión dónde falla cada sistema. Esto facilita comprender cómo superar las debilidades de un sistema, y ya está ayudando a un servicio comercial a mejorar su IA.

Los autores del estudio, dirigidos por científicos de la Universidad de Oxford (Reino Unido) y el Instituto Alan Turing en Londres (Reino Unido), entrevistaron a los empleados de 16 organizaciones sin ánimo de lucro que se dedican al odio online. El equipo utilizó estas entrevistas para crear una taxonomía de 18 tipos diferentes de discurso de odio, centrándose únicamente en aquel basado en texto y en inglés, incluidas expresiones despectivas, insultos y lenguaje amenazador. También identificaron 11 ejemplos sin odio que suelen confundir a los moderadores de IA, como el uso de blasfemias en declaraciones inocuas, los insultos que han sido reclamados por el colectivo al que se dirigen y las denuncias de odio que citan o hacen referencia al discurso de odio original (conocidas como contradiscurso).

Para cada una de las 29 categorías diferentes, crearon a mano decenas de ejemplos y usaron frases de "modelo" como "Odio a [IDENTIDAD]" o "Eres solo un [INSULTO] para mí", con el fin de generar los mismos conjuntos de ejemplos para siete grupos protegidos: las identidades protegidas jurídicamente de la discriminación según la ley de EE. UU. Han hecho público el conjunto final de datos, denominado HateCheck y que contiene cerca de 4.000 ejemplos en total.

Luego, los investigadores probaron dos servicios comerciales populares: Perspective API, de Google Jigsaw, y SiftNinja, de Two Hat. Ambos permiten a los usuarios marcar el contenido infractor en las publicaciones o comentarios. Perspective, en concreto, se utiliza en las plataformas como Reddit y en las organizaciones de noticias como The New York Times y The Wall Street Journal. Detecta y da prioridad a las publicaciones y comentarios para la revisión humana en función de su medida de toxicidad.

Si bien SiftNinja fue demasiado indulgente con el discurso de odio, al no detectar casi ninguna de las variaciones, Perspective fue demasiado duro. Destacó en la detección de la mayoría de las 18 categorías de odio, pero también marcó muchas de las que no eran de odio, como los insultos reivindicados y el contradiscurso. Los investigadores encontraron el mismo patrón cuando probaron dos modelos académicos de Google que representan algunas de las mejores tecnologías disponibles de IA del lenguaje y probablemente sirvan como base para otros sistemas comerciales de moderación de contenido. Los modelos académicos también mostraron un desempeño desigual entre los grupos protegidos, clasificando erróneamente el odio dirigido a algunos grupos con más frecuencia que a otros.

Los resultados apuntan a uno de los aspectos más desafiantes en la actualidad de la detección del discurso de odio basada en la IA: si se modera muy poco, no se resuelve el problema; si se modera demasiado, se podría censurar el tipo de lenguaje que usan los grupos marginados para empoderarse y defenderse: "De repente, se estarían penalizando las mismas comunidades que son el blanco de los ataques de odio", afirma el doctorando en el Oxford Internet Institute y coautor del artículo Paul Röttger.

La ingeniera principal de software de Jigsaw, Lucy Vasserman, explica que Perspective supera estas limitaciones confiando en los moderadores humanos para tomar la decisión final. Pero este proceso no es escalable para otras plataformas más grandes. Jigsaw está trabajando en el desarrollo de una función que cambiaría la prioridad de las publicaciones y de los comentarios en función de la incertidumbre de Perspective, eliminando automáticamente el contenido que seguramente es de odio y señalando el contenido dudoso a los moderadores humanos.

Lo interesante del nuevo estudio, según Vasserman, es que proporciona una forma detallada de evaluar el estado del arte. "Muchas de las cosas que se destacan en este artículo, como que las palabras reivindicadas [por colectivos] son un desafío para estos modelos, son algo conocido en la industria, pero difícil de cuantificar", indica. Jigsaw ha empezado a utilizar HateCheck para comprender mejor las diferencias entre sus modelos y dónde deben mejorar.

Los investigadores universitarios también están entusiasmados con el estudio. El científico de IA del lenguaje de la Universidad de Washington (EE. UU.) Maarten Sap resalta: "Este estudio nos ofrece un recurso claro y bueno para evaluar los sistemas de la industria". Eso "permite que las empresas y los usuarios pidan mejoras".

El profesor asistente de Sociología de la Universidad de Rutgers (EE. UU.) Thomas Davidson está de acuerdo: las limitaciones de los modelos de lenguaje y el caos del propio lenguaje significan que siempre habrá términos medios entre un discurso de odio insuficiente o excesivo. "El conjunto de datos de HateCheck ayuda a hacer visibles estos términos medios", añade.

Inteligencia Artificial

Por qué la IA aún modera mal el discurso de odio

Por qué medir la IA sigue siendo un desafío pendiente

Qué es el 'red-teaming', el proceso que permite a OpenAI detectar fallos en ChatGPT

Al habla con la IA: el reto de lograr voces más diversas e inclusivas