Investigadores en informática han desarrollado una técnica para reconstruir recursos web desaparecidos partiendo del contexto en el que aparecieron originalmente, igual que los arqueólogos en el mundo físico.
Internet está desapareciendo. Y con ella se va una parte importante de nuestra historia registrada. Esa era la conclusión de un estudio analizado por este blog el año pasado, que medía la velocidad a la que desparecían los enlaces compartidos en las plataformas de las redes sociales como Twitter.
La conclusión era que estos datos se estaban perdiendo a un ritmo del 11 por ciento en el primer año y del 27 por ciento en dos años.
Ayer, los investigadores que había detrás de este trabajo revelaron que no todo está perdido. Hany SalahEldeen y Michael Nelson en la Universidad Old Dominion de Virginia (EE.UU.), han encontrado una forma de reconstruir el material borrado y afirman que funciona razonablemente bien.
Primero, algunos antecedentes. Estos investigadores comenzaron su trabajo estudiando los miles de tuits, entradas de blog y otros recursos que se publicaron durante los 18 días de levantamiento en la revolución egipcia de 2011. Afirman que los recursos eran importantes porque proporcionan un valioso registro de un hecho histórico.
Sin embargo, también descubrieron que algunos de estas entradas y otras en la web estaban desapareciendo, y empezaron a medir la velocidad a la que desaparecían, de ahí las cifras mencionadas anteriormente.
El nuevo trabajo es su intento por reconstruir estas entradas y recursos desaparecidos, al menos parcialmente, partiendo de las pistas que dejaron en la red.
SalahEldeen y Nelson empezaron por intentar confirmar los primeros resultados y ya eso resultó sorprendente. "Ocurrió un fenómeno interesante dado que varios de los recursos que anteriormente se habían dado por desaparecidos estaban disponibles de nuevo", explican.
Algo que puede ser si la desaparición original fue el resultado de un dominio interrumpido o un archivo que se restauró posteriormente, o si una cuenta de usuario que había sido suspendida se volvió a activar.
Así que SalahEldeen y Nelson se preguntaron cómo se podría encontrar este material resucitado, incluso cuando ya no se encuentra en su ciberbarrio original Señalan que la mayoría de los recursos compartidos dejan rastros en otros lugares de la web, como retuits, hashtags, comentarios y más.
La idea que se les ocurrió a SalahEldeen y Nelson fue intentar reconstruir un recurso desaparecido buscando los rastros que hubiera dejado en la web. Para ello usaron el motor de búsqueda de Twitter, Topsy, que les permite introducir la dirección de un recurso desaparecido y devuelve los tuits que se refieren a él. Esta es la "firma tuitera" del recurso.
Entonces extraen los cinco términos más frecuentes de esta firma y los usan como pregunta de búsqueda en Google. El resultado es un listado de potenciales sustitutos para el recurso desaparecido.
Evidentemente, una pregunta importante es cómo de parecidos son los sustitutos respecto al recurso original. Para probarlo, SalahEldeen y Nelson llevaron a cabo el mismo proceso para recursos que no hubieran desaparecido y después compararon los candidatos para la sustitución con los originales. Afirman que los sustitutos tenían una parecido textual del 70 por ciento con el recurso original en un 40 por ciento de los casos.
No es perfecto, claro, pero es mejor que nada. Y quizá, con el tiempo, se pueda hacer mejor.
Lo interesante de este proceso es que es una especie de arqueología en Internet que reconstruye una página web histórica partiendo del contexto en el que sucedió. Es una nueva disciplina fascinante.
En el mundo real, arqueólogos y antropólogos son muy hábiles reconstruyendo la historia natural de esta forma. Las conclusiones que se pueden extraer del descubrimiento y análisis de un único diente, por ejemplo, son auténticamente asombrosas.
No existe motivo por el cual los arqueólogos de Internet no puedan acabar siendo igual de habilidosos.
Ref: arxiv.org/abs/1309.2648: Resucitar Mi Revolución: Usar Enlaces Sociales por Barrios para Dar Contexto a la Web que Desaparece