Una nueva herramienta puede utilizarse para recolectar, analizar y visualizar grandes cantidades de datos.
En internet existen enormes cantidades de datos libremente a nuestra disposición, y pueden llegar a constituir todo un tesoro para muchos negocios—siempre y cuando sepan cómo utilizarlos de forma efectiva.
Una compañía es capaz, por ejemplo, de analizar los datos provenientes del registro de la Oficina de Patentes y Marcas de los EE.UU. antes de adquirir otra compañía y ver si alguna de entre sus propiedades intelectuales está involucrada en alguna acción legal. En la práctica, no obstante, orquestar toda esta enorme cantidad de información lleva tiempo y esfuerzo.
IBM espera que una nueva herramienta, llamada BigSheets, ayude a los usuarios a analizar los datos de la web de forma más sencilla. La compañía ha desarrollado una versión de prueba del software para la Biblioteca Británica.
“La posibilidad de que cualquier usuario realice sus propios tipos de analíticas interesantes es cada vez algo más real,” afirma Rod Smith, vicepresidente de tecnologías de internet emergentes en IBM.
BigSheets se basa en otro programa llamado Hadoop. Se trata de una plataforma de código abierto para procesar cantidades de datos web de gran tamaño mediante la división de las tareas y su entrega a distintos clusters de ordenadores. Hadoop a menudo se utiliza para analizar grandes cantidades de datos web no estructurados.
BigSheets utiliza Hadoop para ir a través de las páginas web, analizándolas para extraer términos clave u otros tipos de datos importantes. BigSheets organiza esta información en una hoja de cálculo de gran tamaño, que los usuarios son capaces de analizar utilizando las herramientas y macros que se encuentran en los programas de escritorio de hoja de cálculo. No obstante, y al contrario que con los programas normales de hoja de cálculo, no existe límite en cuando al tamaño de la hoja creada con BigSheets.
Para utilizar BigSheets, el usuario tiene que indicar a la herramienta una serie de URLs o un almacén de datos. Se pueden usar listas de términos para organizar los datos en filas y tablas, y se pueden ajustar más tarde.
Smith afirma que IBM escogió la hoja de cálculo como modelo para organizar los datos puesto que la mayoría de los usuarios ya están familiarizados con ese tipo de software. Si los usuarios desean representar los datos de formas más complejas, la herramienta puede ejecutarse junto a una herramienta de visualización de IBM llamada Many Eyes, así como con otros programas de visualización.
“BigSheets posee un nivel de integración que no había visto hasta ahora,” señala Ben Lorica, analista senior en el grupo de investigación de la compañía de publicación técnica O’Reilly Media. De forma tradicional, afirma Lorica, las compañías han dividido las funciones que lleva a cabo BigSheets en tres tareas distintas—rastreo de la web, análisis de datos, y visualizaciones. Puesto que BigSheets está construido sobre la base de Hadoop, que fundamentalmente está diseñado para trabajar con enormes cantidades de datos, señala Lorica, “la escala no es un problema” para BigSheets.
Sin embargo advierte que BigSheets está en una fase inicial y que necesita ser puesto a prueba con otros datos. Puesto que la tecnología está siendo desarrollada junto a unos socios en particular de IBM, no está claro cómo será de fácil que las compañías empiecen a utilizarla, afirma. La configuración de un cluster de Hadoop puede ser una tarea compleja, afirma, y si BigSheets no se empaqueta de forma apropiada, las compañías podrían acabar necesitando un ejército de asesores para preparar el funcionamiento de la herramienta.
La primera prueba para BigSheets llegó de la mano de la Biblioteca Británica, que ha estado trabajando desde 2004 en la creación de un archivo de las casi ocho millones de páginas web del Reino Unido. A intervalos regulares, la Biblioteca toma información de las páginas web, la convierte en un formato de fichero archivable, y la almacena. Sin embargo la búsqueda y análisis de este tipo de datos resulta otro reto de por sí, y ahí es donde BigSheets resulta de ayuda.
En menos de ocho horas, afirma Smith, su equipo tomó 4,5 terabytes de ficheros de archivo y los procesó utilizando un cluster Hadoop de cuatro máquinas. Con la guía de los investigadores de la Biblioteca Británica, el equipo utilizó BigSheets para extraer palabras clave, información acerca del autor, y otros metadatos procedentes de estas páginas web sin estructura. Experimentaron con el análisis de la frecuencia de términos y ejecutaron una nube de etiquetas así como otros tipos de visualización.
A lo largo del primer día, los investigadores de la Biblioteca Británica fueron capaces de ajustar los tipos de metadatos en los que estaban interesados, enfocándose más en los autores de las páginas de lo que originalmente querían. Las visualizaciones ofrecieron una nueva forma de entender los resultados. Por ejemplo, mediante el uso de una nube de etiquetas, los investigadores descubrieron que el nombre de la figura política británica y escritor Alastair Campbell a menudo se deletreaba erróneamente como “Alistair,” sacando así a la luz grandes cantidades de registros relevantes que de lo contrario habrían pasado por alto fácilmente.
Eytan Adar, profesor asistente de información y ciencias informáticas en la Universidad de Michigan, dedicado a la investigación de sistemas a escala de internet, minería de texto y visualización, afirma que la herramienta podría tener un gran impacto. “Aunque el contenido de la Biblioteca Británica parece estar restringido a un par de tomas de datos por cada página, aún así estamos hablando de toneladas de datos, y el simple hecho de sólo obtener resultados de búsqueda en respuesta a una petición no resulta útil,” señala Adar.
Adar ha diseñado su propia herramienta, llamada Zoetrope, para analizar la forma en que las páginas web han cambiado a lo largo del tiempo. BigSheets trae consigo nuevas formas de entender la información, señala, mediante la comparación de los datos de muchas páginas distintas y también a lo largo del tiempo. Adar afirma que las visualizaciones efectivas son “cruciales para permitir a los usuarios entender rápidamente grandes cantidades de datos.”
Después de una serie de pruebas adicionales, IBM espera incorporar BigSheets a su red de servicios y productos existentes.