Si tuiteas sobre tu vida, el nuevo algoritmo identifica los sucesos más significativos y compone un historial preciso de tu vida, según los investigadores que lo han creado.
Twitter permite a cualquiera describir su vida con una cantidad de detalles sin precedentes. Muchas cuentas se basan en un flujo continuo de comentarios sobre los intereses, actividades y opiniones de sus usuarios.
Así pues, no cuesta imaginar que se pudiera reconstruir la historia de una persona simplemente a través del análisis de su cuenta de Twitter.
Pero hacerlo de forma automática es más complejo de lo que parece porque la mayoría de las cuentas de Twitter mezclan noticias de eventos importantes con detalles triviales sobre eventos de poca o ninguna importancia. La dificultad estriba en diferenciar unos de otros.
El lunes, Jiwei Li de la Universidad Carnegie Mellon en Pittsburgh y Claire Cardie de la Universidad Cornell en Ithaca (ambas en EEUU) afirmaron haber desarrollador un algoritmo que hace precisamente eso. Su nueva técnica es capaz de crear un historial preciso para cualquier individuo mediante el minado de sus tuits y los de sus seguidores. Esto les permite generar una cronología escalofriantemente precisa de los eventos clave en la vida de una persona, sin conocer más detalles que su nombre de cuenta de Twitter.
La clave detrás de este trabajo es una técnica para separar el grano de la paja en cualquier cuenta de Twitter. Li y Cardie lo hacen clasificando cada tuit en una de cuatro categorías. Los tuits más importantes son los que describen eventos importantes de naturaleza personal en un momento concreto.
Un tuit que habla del primer día en un nuevo trabajo sería un buen ejemplo. Por el contrario, un tuit sobre una carrera de 5 kilómetros dentro de un régimen de ejercicio rutinario no contaría porque es algo que sucede de forma regular. Por esto, los eventos personales entran dentro de dos categorías: pertenecientes a un momento concreto y genéricos.
Del mismo modo, los tuits sobre eventos no personales entran dentro de dos categorías parecidas: concretos y genéricos. Un tuit sobre las elecciones en Estados Unidos sería un ejemplo de los primeros, mientras que una opinión sobre el tiempo que hace en verano entrará dentro de los últimos.
El problema que han solucionado Li y Cardie es cómo distinguir automáticamente los tuits que pertenecen a la primera categoría de los demás. La solución se basa en el descubrimiento de que el patrón de tuits, retuits y respuestas varía para cada una de las categorías que han definido.
Por ejemplo, un tuit sobre un nuevo trabajo tienen un patrón de respuestas distinto por parte de los seguidores que un tuit sobre correr, las elecciones estadounidenses, o el tiempo. Así que el truco está en identificar la 'firma tuitera' de estos eventos personales importantes y después minar la cuenta de Twitter correspondiente en busca de otros ejemplos. Una lista cronológica de esos eventos compondría el historial de la persona.
Al menos esa es la teoría. Li y Cardie han puesto a prueba su idea minando las cuentas de 20 usuarios de Twitter normales y 20 famosos en un periodo de 21 meses entre 2011 y 2013. Después pidieron a los usuarios ordinarios que crearan su propio historial identificando manualmente sus tuits más importantes. En el caso de os famosos, Li y Cardie usaron biografías en Wikipedia y otras fuentes de información para crear manualmente historiales control a modo de referencia.
Finalmente, compararon estos historiales con los generados por su algoritmo. Los resultados no están mal. El algoritmo escoge con precisión muchos eventos vitales importantes que también se identifican en el historial de referencia. Según los responables, "los experimentos con datos reales de Twitter demuestran cuantitativamente la eficacia de nuestro método".
Pero está lejos de ser perfecto. Para empezar, la técnica solo funciona con los usuarios que tuitean regularmente y con una cantidad de seguidores suficiente como para permitir al algoritmo detectar el patrón único de respuestas que identifica los tuits importantes.
Aún así, esto representa a una cantidad significativa de personas, y Li y Cardie aseguran que su técnica se puede aplicar de forma general. "Se puede ampliar a cualquier individuo (es decir, amigo, competidor o estrella de cine) solo si tiene una cuenta de Twitter", añaden.
Li y Cardie hablan de sus planes para el futuro en términos de mejorar la precisión de su técnica. Sin embargo, no hablan de poner el algoritmo a disposición de quien lo quiera. Si funciona tan bien como sugieren, habrá una abundancia de partes interesadas en utilizarlo.
La capacidad de minar el flujo de Twitter en busca de los historiales de las masas será valiosa. Quién puede querer usar esta técnica y cómo lo dejo para los comentarios.
Y el trabajo despierta algunas preguntas interesantes, como mínimo sobre la privacidad. ¿Sabiendo lo fácil que resulta destilar nuestro historial, nos lo pensaremos antes de colocar esa información en el dominio público?
La nueva técnica implica que los historiales detallados estarán disponible para amigos y familiares con tocar un botón, pero también para futuros empleadores, la competencia, el gobierno, los medios, las agencias de seguridad, los merodeadores y demás.
Está claro es que las redes sociales son un aspecto importante de la vida moderna. Lo que no está tan claro aún es cómo de potentes y reveladoras resultarán ser.
Ref:arxiv.org/abs/1309.7313 : Generación de Líneas Temporales: Siguiendo a Individuos en Twitter