El análisis por ordenador descubre las huellas que dejan tras de sí los evaluadores fraudulentos.
La gente suele acudir a críticas publicadas en sitios como TripAdvisor para buscar hoteles en ciudades que nunca han visitado. Pero, ¿cómo saber si esas opiniones no han sido escritas por el director del hotel en cuestión, o por alguien a quien han pagado por publicar opiniones en línea falsas? La Comisión Federal de Comercio de Estados Unidos ha llegado a poner multas en aquellos casos en que se ha descubierto que las opiniones eran spam, pero no existe una forma fácil de detectarlas.
Diversos investigadores de la Universidad Estatal de Nueva York, en Stony Brook (Estados Unidos), han creado un método científico para detectar si alguien ha estado publicando reseñas falsas en línea. Su técnica, presentada en la Conferencia Internacional sobre Weblogs y Medios Sociales en Dublín, Irlanda, a principios de este mes, no identifica las críticas fraudulentas individuales. En su lugar, analiza el modo en que las opiniones falsas distorsionan la distribución estadística de los resultados de un hotel, una especie de análisis forense que muestra que algo raro está pasando.
La técnica es "capaz de identificar la localización de las densidades de opiniones falsas en un hotel determinado", afirma Yejin Choi, profesora asistente de ciencias informáticas en Stony Brook, que llevó a cabo el trabajo con sus compañeros.
Si los resultados de las críticas de cualquier producto -por ejemplo, un hotel- se trazan en un gráfico, producen de forma natural un patrón con una apariencia aproximada a la letra J. Es decir, cuando algo se califica con entre una y cinco estrellas, debería tener un nivel relativamente alto de opiniones con una estrella, una cantidad menor de opiniones con dos, tres y cuatro, y después un elevado número de calificaciones con cinco estrellas. Paul Pavou, profesor asociado de sistemas de gestión de la información en la Escuela Fox de Negocios de la Universidad de Temple (EE.UU.), dedicado al estudio del comercio en línea, explica que esta distribución se debe a una tendencia por parte de las personas a comprar cosas que son de su agrado, y a quienes por lo tanto les gusta lo que compran. Además, señala, si una compra cumple en general con las expectativas, el comprador suele estar menos motivado a escribir una opinión que si la experiencia es extremadamente positiva o negativa.
Sin embargo, las opiniones falsas distorsionan este patrón normal. Para encontrar la distorsión, y con ello demostrar que hubo comentarios falsos en el conjunto de críticas, el equipo de Stony Brook seleccionó en primer lugar a los críticos que, a su juicio, eran más fiables. Se trataba de aquellos que habían escrito por lo menos 10 comentarios, con más de un día o dos entre sí, y cuya calificación no se había apartado ostensiblemente de la media de todos los hoteles.
Los investigadores compararon las calificaciones de dichos evaluadores con calificaciones de evaluadores únicos, para ver si el segundo grupo tenía un número inusualmente alto de críticas con cinco estrellas. Los hoteles con grandes discrepancias entre estos dos grupos de revisores se etiquetaron como más sospechosos. Choi también comparó la proporción de críticas positivas y negativas entre los diferentes grupos de revisores. También analizó picos de actividad de calificación que podrían ser parte de una campaña de marketing.
Para validar los resultados, Choi y sus colegas se basaron en un trabajo anterior realizado junto al científico informático Jeff Hancock, de la Universidad de Cornell (EE.UU.). Contrataron gente que escribiera reseñas de hotel falsas. A continuación, un algoritmo de aprendizaje de máquinas analizó las críticas falsas y observó indicios textuales (por ejemplo, el uso de demasiados superlativos) que las hicieron destacar entre los comentarios verdaderos. En esta ocasión, hicieron que el ordenador midiera el efecto que las reseñas falsas conocidas tuvieron en el patrón de la distribución. Al compararlo con los resultados del otro enfoque de Choi, se descubrió que había habido actividad fraudulenta el 72 por ciento del tiempo.
Usando esta técnica, un sitio como TripAdvisor podría aplicar una corrección a las calificaciones de los hoteles. Y los resultados sospechosos podrían comprobarse con otros métodos, como el análisis textual, para aumentar la confianza.
Choi admite que, dada la dificultad de asegurarse de qué críticas son en realidad falsas, el enfoque es imperfecto, pero el hecho de que sus resultados sean significativamente mejores que el azar significa que está funcionando. "Es muy poco probable que una estrategia aleatoria lograse un 72 por ciento de precisión", señala. Pavou, que no estuvo involucrado en la investigación, afirma que este método parece válido.
Choi indica que los evaluadores falsos "podrían pensar que su crimen era perfecto, pero la verdad es que distorsionan el patrón de resultados de las críticas de sus propios hoteles, y dejan una huella de la actividad engañosa que, cuanto más se lleva a cabo, más constancia deja".