.

Otros

Tus tuits revelan dónde vives

1

Un algoritmo predice tu ciudad de residencia con una efectividad del 70% en base a tus 200 últimos micromensajes

  • por The Physics Arxiv Blog | traducido por Lía Moya
  • 26 Marzo, 2014

Uno de los extras opcionales que permite Twitter es que cada tuit incluya los datos de localización del usuario. Es útil si quieres que la gente sepa dónde estás y para recordar después dónde tuvieron lugar determinados eventos. También da a los investigadores una herramienta valiosa para estudiar la distribución geográfica de los tuits de distintas formas.

Pero también revela problemas en torno a la privacidad, sobre todo cuando los usuarios no son conscientes, u olvidan, que sus tuits están geoetiquetados. Se cree que varios famosos han revelado su dirección de esta forma. En 2007, cuatro helicópteros Apache del ejército de Estados Unidos fueron destruidos por fuego de mortero en Irak cuando los insurgentes averiguaron su localización gracias imágenes geoetiquetadas publicadas por soldados americanos.

Quizá estos problemas sean el motivo por el que hay tan pocos tuits geoetiquetados. Varios estudios han demostrado que menos de un 1% de los tuits contienen metadatos de geolocalización.

Pero que no haya datos de geoetiquetado no significa que tu localización sea secreta. Jalal Mahmud y un par de compañeros en el laboratorio de investigación de IBM en California (EEUU) afirman haber desarrollado un algoritmo capaz de analizar los últimos 200 tuits de cualquier persona y establecer su ciudad de residencia con una precisión de casi el 70%.

Esto podría ser útil para investigadores, periodistas, empresas y de marketing que quieren identificar el origen de los tuits. Pero también supone un problema de privacidad para quienes prefieren que no se conozca dónde residen.

El método de Mahmud es relativamente sencillo. Entre julio y agosto de 2011 filtraron Twitter en busca de tuits geoetiquetados con cualquiera de las 100 mayores ciudades de Estados Unidos hasta encontrar a 100 usuarios en cada localización.

Después, descargaron los últimos 200 tuits de cada usuario, sin contar a aquellos publicaban de forma privada. Eso les dejó con más de 1,5 millones de tuits geoetiquetados de casi 10.000 personas.

Posteriormente, dividieron esta serie de datos en dos grupos, usando el 90% de los tuits para entrenar a su algoritmo y el 10% restante para ponerlo a prueba.

La idea principal que subyace en el algoritmo es que los tuits contienen información importante sobre la localización probable del usuario. Por ejemplo, más de 1000.000 tuits de la serie estaban generados por el sitio de networking social basado en la localización Foursquare y, por lo tanto, contenían un enlace que daba la localización exacta. Y casi 300.000 tuits contenían el nombre de ciudades recogidas en el registro del servicio geológico de Estados Unidos.

Otros tuits contenían pistas relativas a su localización con frases como "Vamos, Red Sox", una referencia al equipo de béisbol de Boston. Y Mahmud y su equipo afirman que la distribución de los tuits a lo largo del día es básicamente constante en todo Estados Unidos, teniendo en cuenta las diferencias de los husos horarios. Así que el patrón de tuits de un usuario a lo largo del día puede dar una buena indicación de en qué huso horario se encuentran.

La pregunta a la que buscaban respuesta estos investigadores es si es posible usar esta información para predecir la ciudad de residencia de un usuario, un resultado que podían comprobar comparándolo con los metadatos de geoetiquetado del usuario.

Los investigadores usaron un algoritmo conocido como Naive Bayes Multimonial para procesar los números. Lo adiestradon administrando la serie de datos de entrenamiento junto con los datos de geolocalización.

Después, probaron el algoritmo en el 10% restante de los datos para ver si podía predecir la geolocalización.

Los resultados son interesantes. Afirman que cuando excluyen a quienes están evidentemente de viaje, su algoritmo predice correctamente la ciudad de residencia de una persona el 68% de las veces, su estado de residencia el 70% y su zona horaria el 80% de las veces. Y aseguran que el algoritmo tarda menos de un segundo en hacer esto para cada individuo.

Podría ser una herramienta útil. Los periodistas, por ejemplo, podrían usarlo para decidir qué tuits provienen de una región en la que hay una crisis, por ejemplo un terremoto, y quiénes comentan desde lejos. Las empresas de marketing podrían usarlo para conocer la popularidad de sus productos en determinadas ciudades.

Y también sugiere una forma de que la gente proteja su privacidad: no mencionando su localización, evidentemente.

El equipo sostiene que su algoritmo podría mejorar en el futuro. Por ejemplo, creen que pueden conseguir detalles más precisos buscando entre los tuits menciones de monumentos locales que se pueden localizar con mayor exactitud. Habrá que esperar a ver si es posible.

Una reflexión final interesante es que nuestra idea de la privacidad es mucho más frágil de lo que la mayoría imaginamos. Cómo podemos fortalecerla y protegerla debería ser el tema de un debate público importante.

Ref: arxiv.org/abs/1403.2345 : Identificación de la Localización de Residencia de los Usuarios de Twitter

Otros

  1. Robotaxis

    Las 10 Tecnologías Emergentes 2025: los coches sin conductor solicitados mediante 'apps' se extienden a más ciudades

  2. Combustible más limpio para aviones

    Las 10 Tecnologías Emergentes 2025: los combustibles alternativos fabricados a partir de desechos industriales o dióxido de carbono podrían ayudar a reducir las emisiones climáticas de la aviación

  3. Robots que aprenden rápido

    Las 10 Tecnologías Emergentes 2025: los avances de la IA han hecho que sea más rápido que nunca entrenar a los robots para realizar nuevas tareas