El concepto de tiempo real va más allá de los microblogs y las actualizaciones en las redes sociales.
La “web en tiempo real” es uno de los conceptos más en boca de todo el mundo estos días. Tanto Google como Microsoft están a la carrera por añadir más información en tiempo real a sus resultados de búsqueda, y una gran cantidad de nuevas startups están desarrollando tecnologías para recoger y distribuir la información más fresca procedente de toda la web.
Sin embargo el concepto de internet en tiempo real va más allá del microblogging, las actualizaciones de las redes sociales, y las últimas noticias. Cada vez que una persona ve un video, hace clic sobre un anuncio, o lleva a cabo cualquier otra acción en internet, se generan enormes volúmenes de datos entre bambalinas. Y si este tipo de datos generados por el usuario es capaz de ser procesada rápidamente, podrían hallarse nuevas formas de ajustar los contenidos de una página web determinada, acercándose al concepto de tiempo real.
Muchas compañías web ya usan la analítica para optimizar sus contenidos a través del curso del día. Algunos sitios de noticias online, por ejemplo, cambian la configuración de su página de inicio en función de la popularidad de los distintos artículos. Sin embargo, de forma tradicional la información se ha recogido, almacenado y después analizado posteriormente. El próximo paso es el uso de datos con sólo segundos de antigüedad para ajustar los contenidos automáticamente. En particular, mucha de la información generada en tiempo real está relacionada con la publicidad. Unas cuantas startups están desarrollando tecnologías para procesar estos datos rápidamente.
Sailesh Krishnamurthy, vicepresidente y cofundador de la compañía de análisis de datos Truviso, con sede en Foster City, California, señala los cientos de miles de millones de puntos de datos generados cada día a través de la distribución de videos por internet. “Si piensas en esos hits y en los anuncios asociados que se distribuyen con ellos,” afirma, “entonces nos encontramos con complejo ecosistema de compañías sirviendo los anuncios, administrando los anuncios, compañías que intentan medir los datos. Es bastante impresionante pensar en que una única interacción por parte del usuario conduce a este tipo de explosión de actividad bajo las sábanas.”
El análisis de datos en tiempo real tiene sus raíces en los mercados financieros, sin embargo Ben Lorica, analista senior en el grupo de investigación de O’Reilly Media, cree que las compañías web querrán optimizar sus anuncios, videos y campañas multimedia lo más rápidamente posible. Añade que aquellos servicios dedicados a la distribución de contenidos web de forma instantánea también hacen que el método sea relevante para los usuarios finales. “A medida que la gente se dé cuenta de que pueden sacar contenidos y que el resto los podrán empezar a consumir en tiempo real, naturalmente la gente querrá tener informes de consumo también en tiempo real,” afirma.
Truviso, junto a otra startup llamada Streambase, con sede en Lexington, Massachusetts, ha creado un software que procesa datos analíticos en tiempo real. Ambas compañías fueron creadas a partir de investigaciones universitarias destinadas al procesado de datos en tiempo real procedentes de redes de sensores, tales como los utilizados para vigilar las condiciones medioambientales. Richard Tibbetts, director tecnológico de Streambase, nos explica que los mercados financieros constituyen alrededor de un 80 por ciento de los clientes actuales de la compañía. Las compañías web están empezando a adoptar la tecnología.
“A partir de ahora vamos a ver híbridos web de tiempo real, donde los datos se integren desde varias fuentes,” afirma Tibbetss. Este tipo de mezcolanza podría, por ejemplo, usarse para vigilar las fluctuaciones durante cada segundo del precio de los billetes de avión, y hacer una compra automática si caen por debajo de un precio concreto.
Truviso lanzó recientemente una característica que permite a los usuarios calcular los visitantes únicos de una página web en tiempo real. Históricamente esto ha resultado un gran problema puesto que se deben llevar a cabo varios pasos cada vez para asegurarse de que es usuario es realmente distinto. Tanto Streambase como Truviso dependen del acceso a bases de datos convencionales y estructuradas. Lorica ve potencial para el análisis en tiempo real de datos sin estructurar—un grupo de números encontrados esparcidos a lo largo de un párrafo de texto en vez de formateados en una tabla.
Ciertas plataformas de software, tales como Hadoop y el MapReduce de Google, encargados de procesar grandes cantidades de datos web utilizando un alto número de ordenadores, a menudo se utilizan para analizar datos sin estructurar. Una reciente investigación de Yahoo y la Universidad de California, en Berkeley, también promete hacer que estas plataformas funcionen en tiempo real.
Joseph Hellerstein, profesor de ciencias informáticas de la UC Berkeley y que estuvo involucrado en este trabajo, explica que lo principal fue encontrar la forma de hacer que Hadoop y MapReduce fuesen más rápidos y más interactivos sin comprometer su capacidad para proteger los datos.
Las aplicaciones en tiempo real, tanto si se usa una tecnología de base de datos tradicional o Hadoop, se harán más sofisticadas a medida que pase el tiempo. “Cuando la gente habla de web en tiempo real, su visión es reducida—aplicaciones de consumo como Twitter, Facebook, y un poco de búsquedas,” afirma Tibbetts desde Streambase.