Una startup utiliza los tiempos de inactividad de una red de PCs para hacer rastreos a medida de páginas web.
A medida que la cantidad de información en internet sigue creciendo, también toma más importancia la forma en que esa información se procesa y se convierte en algo útil. Una startup llamada 80legs, con sede en Houston, Texas, espera que la distribución de un servicio de análisis web de bajo coste ayude a las startups a rastrear la web en busca de información sin tener que construir las enormes granjas de servidores que utilizan los principales motores de búsqueda. La compañía comenzó sus operaciones esta semana en DEMO, una conferencia en San Diego dedicada a la presentación de nuevas compañías.
Los rastreadores web, o arañas, son un tipo de software que visita páginas de forma automática en internet y se utiliza para indexarlas y recopilar información de distintas páginas. Por ejemplo, los rastreadores son utilizados por los motores de búsqueda para analizar la localización de la información en la web. No obstante el tamaño de la red hace que los rastreos detallados consuman mucha potencia de proceso, lo que normalmente se traduce en la construcción de enormes centros de datos para dar la potencia necesaria al software.
80legs espera hacer que esta tecnología sea más accesible a las pequeñas compañías e individuos mediante el acceso al servicio y la posibilidad de que los clientes sólo paguen por la información que rastreen.
La tecnología de rastreo web es también crucial para los sitios semánticos y los servicios diseñados para procesar peticiones con lenguaje natural. Aunque 80legs espera contar con usuarios interesados en aplicaciones semánticas y de búsqueda, Sino Deysarkar, director de la compañía, afirma que entre los consumidores que están poniendo a prueba el servicio se encuentran clientes con intereses menos técnicos. Algunos investigadores de mercado, por ejemplo, utilizan 80legs para encontrar menciones específicas sobre compañías o temas a lo largo de la web.
Los usuarios pueden iniciar un rastreo web a través del interfaz basada en la web de 80legs. El formulario en la web de la compañía les permite configurar los parámetros del proyecto y subir el código a medida necesario para controlar la forma en que el rastreador lleva a cabo su trabajo. Por ejemplo, puede que el usuario desee que el rastreador busque imágenes y las contraste con una base de datos de imágenes con copyright. Deysarkar afirma que los rastreadores de su compañía son capaces de procesar hasta dos billones de páginas diarias. La compañía cobra 2 dólares por cada millón de páginas rastreadas, más una cuota de tres centavos por cada hora de proceso utilizada.
Muchas startups tienen problemas a la hora de encontrar la financiación necesaria para construir grandes centros de datos, aunque ese no es el camino que siguió 80legs para construir su infraestructura de rastreo web. En vez de eso, la compañía ejecutó su software en una red distribuida de ordenadores personales, muy parecidos a los que se utilizaron para el proyecto SETI@home. La red de computación distribuida se unifica mediante Plura Processing, que la alquila a 80legs. Plura busca a usuarios de ordenadores para que provean potencia de procesado no utilizada a cambio del acceso a juegos, donaciones a entidades caritativas y otros premios.
Deysakar afirma que este método reduce significativamente los costes para 80legs, lo que permite a la compañía ofrecer su servicio por mucho menos de lo que sería posible si utilizase un centro de datos, o incluso un servicio de computación en la nube como Amazon Web Services.
Daniel Tunkelang, cofundador de la compañía de búsquedas Endeca, con sede en Cambridge, Massachusetts, afirma que un buen servicio de rastreo web podría resultar de mucha utilidad para aquellas startups que quieren centrarse en construir la experiencia de búsqueda y no tanto en recolectar los datos. No obstante, Tunkelang afirma que el éxito de 80legs puede depender de la facilidad con la que los usuarios puedan hacer el rastreo a medida. “La gran pregunta es, ¿hasta qué punto se puede adaptar y programar el rastreo?” señala.
Tunkelang también denota que es importante que cualquier rastreador web capture la mayor cantidad de información posible. Por ejemplo, el camino que siga un rastreador para llegar a una página en particular puede ofrecer a una compañía de búsquedas un tipo de información útil relativa a los contenidos de dicha página.
Un servicio como 80legs también podría ser útil para los investigadores universitarios. “El rastreo a gran escala es, de hecho, una tarea con un coste muy elevado para los proyectos experimentales a nivel académico, que a menudo no poseen infraestructuras a gran escala,” afirma Kevin Chang, profesor asociado de ciencias informáticas en la Universidad de Illinois en Urbana-Champaign.
Chang cree que la naturaleza distribuida de 80legs es “una dirección a tomar interesante y suena prometedora a la hora de reducir los costes de rastreo.” Al mismo tiempo, está de acuerdo con que todo depende en gran manera de la eficiencia con la que funcione el sistema y el grado de efectividad con el que los usuarios puedan escoger qué datos desean procesar.
80legs tiene previsto lanzar un mercado en el que los usuarios sin conocimientos técnicos puedan comprar aplicaciones para controlar las funciones del rastreador. Las compañías asociadas también podrán vender aplicaciones para controlar los rastreadores de 80legs.