Michael Stonebraker ayudó a inventar la tecnología que llevó las bases de datos a todos los negocios. En la actualidad, un creciente flujo de datos implica que tiene que reinventarla.
Desde Facebook hasta el Departamento de Vehículos Motorizados, el mundo está catalogado en bases de datos. Nadie lo sabe mejor que el profesor adjunto del MIT y emprendedor Michael Stonebraker, quien ha pasado los últimos 25 años desarrollando la tecnología que lo permitió. Stonebraker tuvo su gran oportunidad al inventar y comercializar la tecnología que subyace en la mayoría de las bases de datos, conocidas como bases de datos relacionales, utilizadas en la actualidad. Sin embargo, en este momento Stonebraker afirma felizmente que sus invenciones anteriores están en gran medida obsoletas. El emprendedor está trabajando en una nueva generación de tecnología de bases de datos que pueda manejar el flujo de datos digital que está comenzando a abrumar a los métodos establecidos.
"Las bases de datos relacionales son omnipresentes como solución para los datos de las empresas. Han sido fabulosamente exitosas", afirma Stonebraker. Sin embargo, el emprendedor indica que los principales proveedores de bases de datos, incluyendo Oracle, IBM y Microsoft, todavía venden estos productos como adecuados para cualquier negocio. Stonebraker tiene un punto de vista diferente: que las nuevas tecnologías de base de datos son necesarias para manejar el aumento exponencial de la información que las empresas deben gestionar. Stonebraker, de 67 años, ya está teniendo éxito con varios de sus nuevos enfoques propios.
Uno de ellos es un sistema de bases de datos denominado C-Store. A diferencia de la mayoría de los sistemas en uso actualmente, éste almacena los datos en disco columna por columna, en vez de fila por fila. Esta modificación tan simple requiso una reescritura completa del funcionamiento de las bases de datos, pero encaja perfectamente tanto con el funcionamiento de la memoria de los ordenadores como con la forma en que se accede a las bases de datos. Esto produce un rendimiento mucho más rápido y unos datos más comprimidos.
Esta modificación y otras realizadas por Stonebraker y sus colaboradores del MIT, Brown, Brandeis, Yale y la Universidad de Massachusetts permitió el lanzamiento de Vertica, una empresa que comercializaba C-Store y permitía a los clientes consultar extensas bases de datos prácticamente en tiempo real. Vertica fue adquirida por Hewlett-Packard en febrero y cuenta con clientes como Comcast, que la utiliza para controlar los millones de dispositivos que forman parte de sus redes de televisión e Internet, y Groupon, que la utiliza para analizar las acciones de sus millones de suscriptores.
Otro sistema relacionado desarrollado por Stonebraker y algunos de los mismos colaboradores académicos, H-Store , se basa en las mismas ideas con algunas mejoras adicionales, tales como que se ejecuta en su totalidad en la memoria de un ordenador, en vez de en el disco; este método es particularmente útil en el procesamiento de transacciones en línea. El código de H-Store es libre, pero la tecnología está siendo comercializada por una empresa llamada VoltDB, con Stonebraker como CTO. Stonebraker sostiene que este tipo de sistemas de bases de datos de uso específico y con un énfasis en la velocidad es lo que la mayoría de empresas tendrán que adoptar lo antes posible para hacer frente a la avalancha de datos digitales.
Algunas organizaciones ya se han visto atrapadas por esa avalancha. Considere Facebook. La red social ya almacena más fotos digitales que cualquier otra empresa, Facebook está construyendo nuevas instalaciones de almacenamiento e infraestructuras de procesamiento tan rápido como puede. Sin embargo, la empresa está llevando la tecnología de base de datos que utiliza hasta el límite, dividiendo su famoso gráfico social entre 4.000 bases de datos que deben funcionar como si fuera una sola, comenta Stonebraker. "Se están muriendo bajo la carga de la capa de gestión necesaria para mantener este sistema funcionando," afirma Stonebraker. "Ellos tienen el problema de base de datos más complicado del planeta, y actualmente no hay ningún sistema que satisfaga sus necesidades."
Las soluciones que Stonebraker está construyendo para un sector muy diferente que ya se está ahogando en los datos podría resultar de ayuda. Hace algunos años, el emprendedor se enteró de los problemas a los que se enfrenta el Gran Telescopio para Rastreos Sinópticos en construcción en Chile. "El telescopio recopilará 100 petabytes de datos brutos y también los datos derivados", afirma Stonebraker, "y no tenían ni idea de qué hacer con tanta información."
Stonebraker y su colaborador David DeWitt, afiliado a la Universidad de Wisconsin-Madison, construyeron un sistema de bases de datos único al que llamaron SciDB. Actualmente, el proyecto de código libre cuenta con inversión de capital riesgo y una gran comunidad de voluntarios del campo de la ciencia. Sin embargo, Stonebraker piensa que las características de SciDB podrían eventualmente resultar útiles más allá del sector académico.
"Todos los datos de la ciencia son inciertos y constan de barras de error, a diferencia de los datos en una base de datos de salarios, por lo que SciDB puede prestar atención a la incertidumbre. Asimismo, tampoco se puede sobrescribir, porque los científicos no quieren tirar nada," explica Stonebraker. Estas características no son muy diferentes de la necesidad del análisis a alto nivel con un gran peso estadístico o "ciencia de datos", cada vez más fundamental en los negocios exitosos con una importante parte tecnológica. Un ejemplo es la publicidad en línea: la orientación de la publicidad a cada persona de forma individual requiere un análisis computacionalmente intenso para agrupar a las personas similares.
Sin embargo, Stonebraker no clama que los nuevos sistemas de bases de datos como aquellos en los que está trabajando, puedan ser una panacea para las empresas que justo están descubriendo los límites de las tecnologías más establecidas. La creciente importancia para las empresas del almacenamiento y procesamiento de datos de todo tipo las obliga a convertirlo cada vez más en una prioridad. "Si usted está gestionando una empresa, tiene que pensar en la escalabilidad desde el principio," afirma Stonebraker, "porque no hay duda que más adelante necesitará haberlo hecho."