Por 25 dólares al año (20 euros), Google Genomics guardará una copia de cualquier genoma en la nube
Google está presentado a hospitales y universidades su nueva oferta: ¿Tenéis genomas? Almacenadlos con nosotros.
El primer producto del gigante de las búsquedas en la era del ADN es Google Genomics, un servicio de computación en la nube puesto en marcha en marzo pasado, aunque pasó prácticamente desapercibido entre un aluvión de anuncios de proyectos de I+D de alto perfil de la propia Google, como el de finales del mes pasado sobre un improbable plan para luchar con el cáncer con nanopartículas (ver "Expertos tildan el objetivo médico de Google como fantasía de 'Star Trek'").
Google Genomics podría tener más relevancia que estos otros proyectos de mayor dificultad. Conectar y comparar miles de genomas, y muy pronto millones, es lo que impulsará los descubrimientos médicos de la próxima década. La cuestión sobre quién va a almacenar los datos ya es un punto álgido de competencia entre Amazon, Google, IBM y Microsoft.
Google comenzó a trabajar en Google Genomics hace 18 meses, reuniéndose con científicos y construyendo una interfaz, o API, que les permite mover datos de ADN a sus granjas de servidores y hacer experimentos con la misma tecnología de base de datos que indexa internet y hace un seguimiento de miles de millones de usuarios en la red.
"Hemos visto cómo los biólogos han pasado de estudiar un genoma a la vez a estudiar millones", señala el ingeniero de software que dirigió la iniciativa, David Glazer, y que anteriormente fue jefe de Ingeniería de plataforma en la red social Google +. "La oportunidad reside en cómo aplicar los avances en tecnología de datos para ayudarles en esta transición".
Hay científicos que creen que los datos del genoma siguen siendo demasiado complejos como para que Google pueda servir de ayuda. Pero otros creen que se avecina un gran cambio. Cuando el experto en bioinformática en Stanford (EEUU) Atul Butte asistió a la presentación que hizo Google de sus planes para este año, comentó que ahora entendía "cómo se sintieron las agencias de viajes cuando descubrieron Expedia".
A medida que los laboratorios adoptan equipos nuevos y más rápidos para la decodificación del ADN se está produciendo una explosión de datos. Por ejemplo, el Instituto Broad en Cambridge (EEUU), asegura que durante el mes de octubre decodificó el equivalente a un genoma humano cada 32 minutos. Eso traduce en cerca de 200 terabytes de datos en bruto.
Este flujo de datos es menor al que las grandes empresas de internet manejan habitualmente (durante dos meses, Broad producirá el equivalente de lo que se sube a YouTube en un solo día), pero supera cualquier cifra que los biólogos hayan manejado hasta ahora. Eso está provocando una gran esfuerzo para almacenar y acceder a los datos en ubicaciones centrales, a menudo comerciales. El Instituto Nacional del Cáncer de EEUU señaló el mes pasado que iba a gastar 19 millones de dólares (15 millones de euros) en mover copias de los 2,6 petabytes del Atlas del Genoma del Cáncer a la nube. Las copias de los datos, de varios miles de pacientes con cáncer, residirán tanto en Google Genomics como en los centros de datos de Amazon.
La idea es crear "nubes del genoma del cáncer" donde los científicos puedan compartir información y ejecutar rápidamente experimentos virtuales con la misma facilidad que una búsqueda en internet, asegura la científica de investigación del Instituto de Biología de Sistemas en Seattle (EEUU), Sheila Reynolds. "No todo el mundo tiene la capacidad de descargar un petabyte de datos, o tiene la potencia de cálculo para trabajar con él", asegura.
La guerra de precios entre Google y Amazon que se ha producido este último año también está acelerando el movimiento de datos de ADN a la nube. Google señala que hoy día cobra cerca de 25 dólares (20 euros) al año por almacenar un genoma, y más por hacer cálculos con el mismo. Los datos científicos en bruto que representan el genoma de una sola persona tiene unos 100 gigabytes de tamaño, aunque una versión pulida del código genético de una persona es mucho más pequeña, y ocupa menos de un gigabyte. Eso costaría sólo 25 centavos de dólar (20 céntimos de euro) por año.
El almacenamiento en la nube está dando impulso a nuevas empresas como Tute Genomics, Seven Bridges y NextCode Health. Estas compañías construyen "navegadores" que los hospitales y los científicos pueden utilizar para explorar datos genéticos. "Google o Amazon proporcionan la estructura (back end). Lo que nos están diciendo es que 'podemos construir una empresa de genómica en su nube'", señala el director general de Seven Bridges, Deniz Kural, que almacena los datos del genoma en nombre de 1.600 investigadores en la nube de Amazon.
El aspecto más importane, señala, es que pronto la medicina dependerá de una especie de internet de ADN mundial en los que los médicos podrán hacer búsquedas. "Según lo vemos nosotros, si por ejemplo en el futuro yo contrajese cáncer de pulmón los médicos secuenciarían mi genoma y el genoma de mi tumor para después consultar una base de datos de 50 millones de genomas", asegura. "El resultado será: 'Este el medicamento que te va a funcionar mejor'".
En Google, Glazer afirma que comenzó a trabajar en Google Genomics cuando quedó claro que la biología iba a pasar de "algo artesanal a una producción de datos a escala de fábrica". Empezó a estudiar genética, tomando una clase en línea, Introducción a la Biología, impartida por el jefe de Broad, Eric Lander. También secuenció su genoma y lo subió a la nube de Google.
Glazer no habla del tamaño de Google Genomics o sobre cuántos clientes tiene actualmente, pero por lo menos 3.500 genomas de proyectos públicos ya están almacenados en los servidores de Google. También asegura que no hay vínculo, por el momento, entre la nube de Google y sus esfuerzos más especulativos en la atención sanitaria, como por ejemplo la empresa que Google lanzó este año, llamada Calico, para investigar cómo extender la esperanza de vida humana. "Lo que les une es sólo una creciente conciencia de que la tecnología puede lograr avances de última generación en las ciencias de la vida," señala Glazer.
Una de las físicas que gestionan el mayor grupo de ordenadores de la Universidad de Stanford (EEUU) dedicados a datos de la genética, Somalee Datta, afirma que debido a los recientes recortes en los precios, hoy día cuesta prácticamente lo mismo almacenar genomas en Google o Amazon que en su propio centro de datos. "Los precios finalmente están siendo razonables, y creemos que van a seguir cayendo", asegura.
Datta señala que algunos científicos de Stanford han empezado a utilizar un sistema de base de datos de Google, BigQuery, que gracias al equipo de Glazer es compatible con los datos del genoma. Fue desarrollado para analizar grandes bases de datos de correo basura, documentos web o compras de consumidores. Pero también puede llevar a cabo rápidamente grandes experimentos que los investigadores quieran probar para comparar miles, o decenas de miles, de genomas de personas. "A veces quieren hacer locuras, y necesitan poder hacerlo a gran escala", afirma Datta. "Puede manejar la escala de la genética, por lo que resulta la tecnología adecuada para un problema nuevo".