Una nueva herramienta de base de datos mejora considerablemente la velocidad de procesamiento gracias una tecnología que ya tienes en tu ordenador
Foto: Una nueva tecnología de visualización tarda sólo unos milisegundos en convertir decenas o cientos de millones de puntos de datos en mapas y animaciones como la de este ejemplo, que muestra la frecuencia de la palabra 'rain' ('lluvia') en tuits de EEUU.
Un nuevo software puede utilizar los procesadores gráficos instalados en los ordenadores corrientes para procesar torrentes de datos más rápidamente de lo que normalmente es posible, lo que da lugar a nuevas formas de explorar visualmente desde mensajes de Twitter hasta las donaciones políticas.
Conocida como MapD, o base de datos paralela masiva, la nueva tecnología logra grandes ganancias de velocidad al almacenar los datos en la memoria interna de unidades de procesamiento gráfico (GPU) en lugar de en las unidades centrales de procesamiento (CPU), como suele ser lo habitual. Con una sola tarjeta GPU de alto rendimiento se puede hacer que el procesamiento de datos sea hasta 70 veces más rápido.
Actualmente se está demostrando la tecnología prototipo en tuits. Puede mostrar la propagación de un meme en tiempo real a través de mapas regionales y mundiales. Muchas visualizaciones de Twitter a gran escala, entre ellas mapas animados y gráficos, tardan varios segundos o más en procesar los datos antes de poder ser mostradas. Con MapD, el usuario puede ajustar los términos de búsqueda y otros parámetros, como el espacio de tiempo y la región geográfica, y ver una nueva visualización al instante, sin tener que esperar a que cada nuevo mapa y animación se calculen y carguen.
Esta interfaz pública se puede utilizar para visualizar 50 millones de tuits geocodificados y publicados entre el 28 de septiembre y el 6 de octubre. La herramienta permite a los usuarios explorar los diferentes términos de búsqueda, examinar amplias tendencias geográficas y explorar con más detalle cada tuit. Para cada uno de los 30 fotogramas por segundo que genera cuando hace animaciones de Twitter, MapD escanea todos los tuits que se han cargado en la GPU, y construye visualizaciones tales como el modo en que el uso de una palabra, que podría ser un nombre de producto o noticia, se propaga en una región o en todo el mundo en tiempo real.
El profesor de ciencias informáticas en el Instituto de Tecnología de Massachusetts (MIT, en EEUU), Samuel Madden, señala: "Las visualizaciones [de Twitter] existentes que conocemos están enlatadas, es decir, se basan en algún cálculo anterior de un mapa o una imagen, en lugar de ser verdaderamente interactivas", y añade: "Hemos creado un nuevo tipo de sistema de base de datos. Con él, podemos dar una respuesta o crear un mapa de cada solicitud mediante la exploración de todos los tuits en la base de datos, y podemos hacerlo en tan solo unos pocos milisegundos. El sistema puede mantener el ritmo, incluso si la base de datos posee cientos de millones de tuits.
La tecnología fue ideada el año pasado por Todd Mostak, que por aquel entonces era estudiante graduado de la Universidad de Harvard (EEUU) en estudios de Oriente Medio, y a quien le frustraba la lentitud del proceso cuando intentaba hacer cálculos conjuntos de datos de medios sociales de Egipto y otros lugares de Oriente Medio. Mostak afirma: "Al construir una herramienta para explorar conjuntos de datos como este y de forma totalmente interactiva, con latencias medidas en milisegundos en lugar de segundos o minutos, esperamos poder eliminar los atascos computacionales que se producen durante el proceso de formulación, comprobación y refinamiento de hipótesis".
La tecnología podría facilitar obtener datos útiles a partir de la gran cantidad de información que ofrece Twitter. Por ejemplo, combinar los datos del censo con tuits podría mostrar cómo la mención de la palabra 'McDonald's' en tuits con etiquetas geográficas se relaciona con variables como el nivel de ingresos y el desempleo.
Uno de los primeros en usar la tecnología será la Fundación Sunlight, que promueve la transparencia en el financiamiento de campañas. La organización va a introducir en MapD 22 años de datos de donaciones a campañas federales y estatales en EEUU, lo que proporcionará rápidas visualizaciones con las que descomponer más de 20 millones de donaciones en base a los donantes, la región, el funcionario electo y otros parámetros. Cada nuevo tipo de consulta generará una nueva visualización en tan sólo unos milisegundos.
Gracias a los métodos existentes, una visualización podría tardar segundos en cargarse, porque ese es el tiempo que se tarda en consultar la información en una base de datos. Una acceso más rápido permite a los investigadores probar hipótesis y refinar las visualizaciones más rápidamente. Eso podría hacer que los grandes conjuntos de datos fueran más útiles. "Incluso muchos ordenadores portátiles tienen GPU bastante potentes, lo suficientemente rápidas para acelerar significativamente la exploración interactiva de conjuntos de datos de tamaño medio, como por ejemplo 20 millones de tuits", señala Mostak.
"La tecnología de MapD promete la posibilidad de hacer nuevos tipos de consultas en tiempo real", afirma el desarrollador de Sunlight Labs Bob Lannon, que desarrolla herramientas de análisis de datos para la Fundación Sunlight. "Pronto seremos capaces de explorar rápidamente grandes cantidades de datos y darles la vuelta, filtrarlos y resumirlos de formas que hasta ahora no estaban disponibles. Tenemos muchas ganas de ver lo que podría significar para nuestros usuarios".
Nvidia, uno de los principales fabricantes de GPU, planea hacer una demostración de MapD en más de mil millones de tuits con ocho GPU en una próxima conferencia. Sus investigadores también están planeando hacer una demostración conjunta con Gnip, el distribuidor líder de datos de medios sociales a partir de fuentes como Twitter, Foursquare y Facebook. La portavoz de Gnip, Elaine Ellis, señaló que la compañía no estaba preparada para hablar sobre la colaboración.
Twitter informó recientemente que cuenta con 215 millones de usuarios activos mensuales que emiten más de 400 millones de tuits al día. De ellos, alrededor de siete millones de tuits contienen etiquetas de geolocalización GPS, por lo general desde dispositivos móviles. Ser capaz de visualizar los flujos masivos de datos de medios sociales y telefonía móvil geográficamente identificables en tiempo real podría tener profundas repercusiones en la epidemiología y la respuesta a desastres (véase "Big Data con teléfonos baratos").
Además de usar chips gráficos, Madden y Mostak están trabajando con investigadores de Intel para que MapD pueda aprovechar los nuevos procesadores masivamente paralelos de la compañía, así como los procesadores X86 comunes que se usan en la mayoría de ordenadores.