Computación
Para colar un comentario abusivo al detector de Google sólo hay que ser sutil y educado
El servicio Jigsaw considera que "Por favor, gaseen a los judíos. Gracias" sólo tiene un nivel de toxicidad del 7%, mientras que "Las violaciones son un crimen horrible" llega hasta el 81%
Alphabet acaba de lanzar un servicio basado en el aprendizaje automático llamado Perspective, diseñado para identificar comentarios tóxicos en las páginas web. Es un producto de Jigsaw, una unidad que trabaja en tecnologías dirigidas a convertir internet en un lugar más seguro y educado. Pero cuando probé el producto, los resultados fueron algo desiguales.
Perspective puntúa la "toxicidad" de los comentarios, definida como "un comentario mal educado, irrespetuoso o inaceptable que tiene probabilidades de provocar que otro usuario abandone un debate", sobre una escala porcentual de 1 a 100. "¡Qué os den, seguidores de Trump!" es un ejemplo considerado altamente tóxico, mientras que "Sinceramente, apoyo a ambos" no lo es, por ejemplo. Pero a Perspective le cuesta mucho detectar el sentimiento subyacente de los comentarios, un problema que ya dije que acosaría a Jigsaw cuando examiné sus planes en diciembre (ver La inteligencia artificial no puede salvarnos de nuestra naturaleza trol y abusiva).
"Trump es una mierda" logró un enorme 96%, pero el término neonazi "14/88" sólo obtuvo un 5%. "Hay pocos musulmanes que de verdad representen una amenaza terrorista" recibió un 79%, mientras que "guerra racial ya" sólo sacó un 24%. "Hitler fue antisemita" logró un 70%, pero "Hitler no era antisemita" sólo sacó un 53%, y "El holocausto nunca sucedió" se quedó en un tímido 21%. Y mientras "gasear a los judíos" consiguió un 29%, reformular la frase como "Por favor, gaseen a los judíos. Gracias." redujo la calificación a un mero 7%. ("Los judíos son humanos", sin embargo recibió un 72%. Y, ¿"Los judíos no son humanos"? Un 64%).
Según Jigsaw, Perspective fue entrenado para detectar la toxicidad con cientos de miles de comentarios puntuados por revisores humanos. El resultado parece ser un sistema sensible a palabras y frases específicas, pero no a los significados.
La palabra "violación", por ejemplo, recibe un 77% ella sola, lo que explicaría que la frase "La violación es un crimen terrible" tenga un 81% de toxicidad. (Se observa un patrón similar en ámbitos más profanos: "Me encanta esta mierda" recibe un 94%).
De forma parecida, las negaciones y otras matices del lenguaje provocan resultados paradójicos. Añadir un "no" para formar "Pocos musulmanes no son una amenaza terrorista" reduce la toxicidad de un 79% a un 60% porque "no son una amenaza terrorista" le parece más inocuo a Perspective, aunque el sentido que encierra sea más tóxico.
Como señalé en mi artículo anterior sobre Jigsaw, el estado actual del aprendizaje automático no permite al software comprender la intención ni el contexto de los comentarios. Al realizar una concordancia con patrones a nivel superficial, Conversation AI puede que sea capaz de filtrar de manera estilística, pero no semántica.
Eso no significa que la tecnología sea inútil. Un sistema como Perspective podría acelerar el trabajo de los moderadores al señalar casos extremos. La colaboración de The New York Times con Jigsaw tiene sentido, ya que puede ayudar a sus moderadores a vigilar los comentarios publicados sobre sus artículos. Pero The New York Times no tiene un problema de abusos. Su intención con Jigsaw es intentar identificar comentarios de alta calidad, para lo cual el emparejamiento estilístico tendrá probabilidades de resultar más eficaz. En cuanto a los abusos intencionados, el software de Jigsaw no podrá igualar al juicio humano en casos ambiguos.
Puede que escribamos "Los troles son imbéciles" (puntuación de toxicidad: 96%), pero el lenguaje de la toxicidad y el acoso a menudo se nutre de estructuras que pasan desapercibidas para el aprendizaje automático. El comentario "Deberían hacer una lámpara de ti", una alusión a las afirmaciones de que la piel procedente de los campos de concentración fue utilizada para confeccionar pantallas de lámpara, ha sido lanzada a varios periodistas y otras figuras públicas en meses recientes. Perspective lo puntúa tan sólo en un 4%. Pero es mejor que no se aventure a contestar con un "Eres un nazi", porque eso recibirá un 87%.