Otros

Las matemáticas pueden descubrir las cuentas maliciosas de Twitter

Las redes de usuarios legítimos suelen seguir la ley de Benford, que ya se usa para detectar otro tipo de fraudes

por The Physics Arxiv Blog | traducido por Lía Moya
29 Abril, 2015

En la década de 1880, el astrónomo estadounidense Simon Newcomb detectó algo extraño en el libro de tablas de logaritmos de la biblioteca: las primeras páginas estaban mucho más desgastadas que las posteriores, lo que implicaba que la gente consultaba los logaritmos que empiezan por 1 con mucha más frecuencia que los que empiezan por 9.

Tras algo de investigación, llegó a la conclusión de que en cualquier listado de cifras, las que empiezan por 1 son mucho más comunes que las que empiezan por otros números. A continuación formuló la racional matemática que subyace tras este fenómeno y que pasó a conocerse como ley de Benford después de que el físico Frank Benford la descubriera de forma independiente unos 50 años después.

La ley de Benford parece ir en contra de la lógica. Después de todo, no se entiende por qué las cifras que empiezan por 1 deberían ser más frecuentes que otras. Pero esta ley predice que en los datos que se adaptan a esta regla, las cifras que tienen un 1 como primer número deberían darse un 30% de las veces, mientras que los números que empiezan por el 9 deben componer menos del 5% del total.

Y es algo que se cumple en términos generales para una amplia gama de series de datos y desde luego para casi cualquier serie de datos que abarca varios órdenes de magnitud. Eso incluye la población de las ciudades, el valor de las acciones en la bolsa, las constantes físicas, las cifras en un ejemplar de Reader's Digest y así sucesivamente.

Aunque parezca raro, la ley de Bedford resulta tremendamente útil para detectar el fraude financiero. La idea es que a la hora de que alguien se invente cifras, lo más probable es que la distribución de número en la primera cifra será bastante uniforme. Y cuando hay una influencia externa sobre el comportamiento de la gente, aparece la posibilidad de una desviación de la ley de Benford.

Evidentemente, una serie de datos que se desvían de la ley de Benford no demuestran que haya un fraude, sino que indican la necesidad de investigar más.

Y aunque los estadísticos han buscado la ley de Benford en muchas series de datos, nunca la han aplicado al mundo de las redes sociales. Ahora eso cambia gracias al trabajo de Jennifer Golbeck en la Universidad de Maryland en College Park (EEUU), que demuestra que la ley de Benford no sólo es aplicable a muchas series de datos asociadas con las redes sociales, sino que las desviaciones de esta ley están claramente relacionadas con actividad sospechosa en línea.

Golbeck empieza con los datos de usuarios de cinco de las principales redes sociales: Facebook (18.000 usuarios), Twitter (78.000 usuarios), Google Plus (20.000 usuarios), Pinterest (40 millones de usuarios) y LiveJournal (45.000 usuarios). Su método fue sencillo. Analizó el número de amigos y seguidores asociados con cada usuario en estas series de datos y contabilizó la distribución de los primeros números en las cifras.

Los resultados son muy interesantes. En cada serie de datos, salvo una, la distribución estadística de los primeros números sigue muy de cerca la ley de Benford.

No resulta sorprendente. No hay motivo por el que estas series de datos, que abarcan varios órdenes de magnitud no deban seguir la ley de Benford. Pero una de ellas no la seguía. La cantidad de seguimientos en Pinterest. Goldbeck señala que esto en sí mismo no indica actividad fraudulenta, pero sugiere que hay que investigar más.

A Golbeck no le llevó mucho tiempo identificar la causa. Resulta que cuando la gente se une a Pinterest están obligados a seguir cinco "intereses" o más antes de poder seguir con el proceso de registro. Esto exige seguir al menos cinco pines iniciales para cada usuario. "Aunque los usuarios pueden borrar esos pines, pocos lo hacen, y este proceso de iniciación afecta a toda la distribución", afirma.

Es un ejemplo interesante de cómo una influencia externa hace que una serie de datos se desvíen de la ley de Benford. Los contables forenses buscan desviaciones parecidas en los datos financieros pero estas no siempre indican la existencia de un fraude. Por ejemplo, el número 3 puede aparecer más a menudo de lo esperado en las cuentas de una empresa si suele comprar productos que cuestan 39,99 euros.

Golbeck siguió investigando para ver si la ley de Benford sirve para detectar una supuesta actividad sospechosa en las redes sociales. En concreto no observó sólo el número de amigos de un individuo, sino las redes de sus amigos, las denominadas redes egocéntricas.

A continuación midió la correlación entre la red egocéntrica de un individuo y la ley de Benford y halló que para la gran mayoría de la gente esta correlación era mayor de 0,9. "En términos generales, la gran mayoría de las redes egocéntricas se adaptaban a lo que predice la ley de Benford", afirma.

En el caso de Twitter, sólo 170 personas de las 21.000 que investigó tenían una correlación menor de 0,5. Goldbeck investigó cada una de estas cuentas y consiguió unos resultados curiosos. "Casi todas estas cuentas parecían dedicarse a actividades sospechosas", afirma.

Algunas de las cuentas eran un claro ejemplo de correo basura, pero la mayoría formaban parte de una red de robots rusos que publican trozos al azar de obras literarias o citas. "Todas las cuentas rusas se comportaban de la misma forma, seguían a cuentas de su tipo, y subían exactamente la misma imagen de archivo y usando otra imagen de archivo como foto para el perfil", explica.

No está claro para qué existen exactamente estas cuentas ni con qué intención. Pero su comportamiento es muy raro. De hecho, sólo dos de las 170 cuentas con una correlación baja con la ley de Benford parecen pertenecer a usuarios legítimos, según Goldbeck.

Es un trabajo interesante que tiene importantes implicaciones en la ciencia forense de las redes sociales. En los últimos años se ha hecho cada vez más difícil detectar cuentas en las redes sociales implicadas en actividades sospechosas. Si se compara una gran cantidad de estas contra la ley de forma, es una forma rápida y sencilla de encontrar cuentas que hay que investigar más.

Evidentemente este proceso no encontrará todas las cuentas sospechosas. Cualquier cuenta que crezca de la misma forma que una convencional seguiría oculta y es posible que usuarios maliciosos puedan usar técnicas sencillas para hacer que sus cuentas sean menos identificables ahora que se conoce este método.

Pero por el momento la ley de Benford parece una herramienta valiosa en la guerra contra el fraude y la actividad sospechosa en las redes sociales. "La aplicabilidad de la ley de Benford a las redes sociales es una nueva herramienta para analizar el comportamiento de los usuarios, comprender cuándo y por qué se pueden dar desviaciones naturales y, en última instancia, detectar fuerzas anómalas en funcionamiento", concluye Goldbeck.

Ref: arxiv.org/abs/1504.04387: La Ley de Benford Aplicada a las Redes Sociales

Otros

Las matemáticas pueden descubrir las cuentas maliciosas de Twitter

Robotaxis

Combustible más limpio para aviones

Robots que aprenden rápido