El sistema podría permitir simulaciones detalladas de fenómenos del mundo real; o almacenar 24 mil millones de MP3s.
Un almacén de datos casi 10 veces más grande que cualquier otro fabricado hasta ahora está siendo construido por diversos investigadores en el laboratorio de investigación de IBM en Almaden, California, EE.UU.. La "unidad" de 120 petabytes -es decir, 120 millones de gigabytes- se compone de 200.000 unidades de disco duro convencionales trabajando en conjunto. Se espera que el gigante contenedor de datos almacene alrededor de un billón de archivos y proporcione el espacio necesario para permitir simulaciones más potentes de sistemas complejos, como los utilizados para el modelado de la temperatura y el clima.
Una unidad de 120 petabytes podría contener 24 mil millones de archivos MP3 típicos de cinco megabytes, o engullir sin problemas 60 copias de la copia de seguridad más grande de Internet, los 150 mil millones de páginas que componen el Wayback Machine del Internet Archive.
El grupo de almacenamiento de datos en IBM Almaden está desarrollando el sistema de almacenamiento sin precedentes para un cliente anónimo que necesita un nuevo superordenador para simulaciones detalladas de fenómenos del mundo real. Sin embargo, las nuevas tecnologías desarrolladas para construir un almacén tan grande como este podrían permitir la creación de sistemas similares para la computación comercial más convencional, afirma Bruce Hillsberg, director de investigación de almacenamiento de IBM y líder del proyecto.
"Este sistema de 120 petabytes está al borde de resultar una locura, aunque quizá dentro de unos años todos los sistemas de computación en la nube sean como él", asegura Hillsberg. Solo el hecho de hacer el seguimiento de los nombres, tipos y otros atributos de los archivos almacenados en el sistema va a consumir alrededor de dos petabytes de capacidad.
Steve Conway, vicepresidente de investigación de la firma de analistas IDC especializado en informática de alto rendimiento (HPC, por sus siglas en inglés), afirma que el almacén de IBM es significativamente mayor que los sistemas de almacenamiento anteriores. "Una matriz de almacenamiento de 120 petabytes probablemente sería la más grande que he visto hasta ahora", afirma. Las mayores matrices disponibles en la actualidad son de alrededor de 15 petabytes de tamaño. Los problemas de supercomputación que podrían beneficiarse de una mayor capacidad de almacenamiento de datos incluyen las previsiones meteorológicas, el procesamiento sísmico en la industria del petróleo y los estudios moleculares de los genomas y proteínas, señala Conway.
Los ingenieros de IBM han desarrollado una serie de nuevas técnicas de hardware y software para permitir un aumento tan importante como este en la capacidad de almacenamiento de datos. Encontrar una manera de combinar de manera eficiente las miles de unidades de disco duro que componen el sistema fue todo un reto. Al igual que en la mayoría de centros de datos, las unidades se colocan en cajones horizontales apilados dentro de altos bastidores. Sin embargo, los investigadores de IBM tuvieron que crear estas estructuras significativamente más anchas de lo habitual para poder colocar más discos en un área más pequeña. Los discos deben ser enfriados con agua en circulación en lugar de con un sistema de ventiladores estándar.
Los inevitables fallos que ocurren con frecuencia en una enorme colección de discos como esta presentan otro gran reto, afirma Hillsberg. IBM utiliza una táctica estándar consistente en almacenar múltiples copias de los datos en discos diferentes, aunque emplea nuevas mejoras que permiten a un superordenador seguir trabajando a una velocidad casi total incluso cuando una unidad falla.
Cuando un disco individual muere, el sistema toma los datos de otras unidades y los escribe lentamente en el reemplazo del disco, para que el superordenador pueda seguir funcionando. Si se producen más fallos entre las unidades cercanas, el proceso de reconstrucción se acelera para evitar la posibilidad de que ocurra otro fallo y se borren datos de forma permanente. Hillsberg indica que el resultado es un sistema que no debería perder ningún dato durante un millón de años, todo ello sin comprometer el rendimiento.
El nuevo sistema también se beneficia de un sistema de archivos conocido como GPFS, desarrollado en IBM Almaden para permitir que los superordenadores accedan más rápidamente a los datos. Propaga archivos individuales a través de múltiples discos, de modo que una gran cantidad de partes de un archivo puedan ser leídas o escritas al mismo tiempo. El sistema GPFS también permite a un sistema de gran tamaño llevar un registro de sus numerosos archivos sin tener que escanearlos todos de forma laboriosa. El mes pasado, un equipo de IBM utilizo el GPFS para crear un índice de 10 mil millones de archivos en 43 minutos, rompiendo sin esfuerzo el récord anterior de mil millones de archivos escaneados en tres horas.
El tipo de mejoras en el software como las desarrolladas para el GPFS y la recuperación de datos son cruciales a la hora de permitir crear esta clase de unidades de disco gigantes, afirma Hillsberg, porque para que sean prácticas, tienen que ser no solo más grandes, sino también más rápidas. Los discos duros no están consiguiendo ser más rápidos y fiables en proporción a las demandas de mayor capacidad de almacenamiento, por lo que el software debe compensar esa diferencia.
Conway, desde IDC, coincide en que un acceso más rápido a los grandes sistemas de almacenamiento de datos se está convirtiendo en algo crucial para la supercomputación -a pesar de que frecuentemente los superordenadores son comparados en público según sus velocidades de procesador, como en el caso de la lista mundial TOP500, usada para determinar a nivel internacional quién tiene más derecho a presumir de sistema. Las unidades de gran tamaño están adquiriendo importancia puesto que las simulaciones son cada vez mayores y muchos problemas se abordan usando los, así llamados, métodos iterativos, en los que se ejecuta un simulación miles de veces y se comparan los resultados, explica Conway. El checkpointing, una técnica en la que un superordenador guarda instantáneas de su trabajo en caso de que la tarea no se realice correctamente, es también algo común. "Estas tendencias han producido una explosión de datos en la comunidad de HPC", opina Conway.