Las emisiones de los centros de datos se han triplicado desde 2018. A medida que modelos de IA más complejos como Sora de OpenAI comiencen a generalizarse, es probable que esas cifras se disparen
No es ningún secreto que el actual auge de la IA está consumiendo cantidades inmensas de energía. Ahora sabemos cuánta. Un estudio reciente, elaborado por equipos de la Escuela de Salud Pública T.H. Chan de Harvard y la Escuela de Salud Pública Fielding de la UCLA, examina 2.132 centros de datos que operan en Estados Unidos (el 78% de todas las instalaciones del país). Estas instalaciones –que son esencialmente edificios llenos hasta los topes de filas de servidores– son el lugar en el que se entrenan los modelos de IA, y también los que reciben señales cada vez que enviamos una solicitud a través de modelos como ChatGPT. Estos centros requieren enormes cantidades de energía, tanto para alimentar los servidores como para mantenerlos refrigerados.
Desde 2018, las emisiones de carbono de los centros de datos en Estados Unidos se han triplicado. A lo largo de 12 meses, hasta agosto de 2024, los centros de datos fueron responsables de 105 millones de toneladas de CO2, lo que supone el 2,18% de las emisiones nacionales (a modo de comparación, las aerolíneas comerciales nacionales son responsables de unos 131 millones de toneladas). Alrededor del 4,59% de toda la energía consumida en Estados Unidos se destina a los centros de datos, una cifra que se ha duplicado desde 2018.
Es difícil poner en cifras la medida en que la IA, que ha estado en auge desde el lanzamiento de ChatGPT en noviembre de 2022, es responsable de este aumento. Esto se debe a que los centros de datos procesan muchos tipos diferentes de datos: además de entrenar o enviar señales a los modelos de IA, hacen de todo, desde alojar sitios web hasta almacenar tus fotos en la nube. Sin embargo, según los investigadores, la parte correspondiente a la IA está creciendo a gran velocidad, puesto que casi todos los ámbitos están intentando adoptar esta tecnología.
"Es una irrupción realmente grande", afirma Eric Gimon, investigador principal del think tank Energy Innovation, que no participó en la investigación. "Hay un montón de análisis sobre lo rápido que podría evolucionar este crecimiento exponencial. Sin embargo, aún es pronto para que la industria alcance la eficiencia o desarrolle distintos tipos de chips".
Las fuentes de toda esta energía son especialmente contaminantes. Dado que muchos centros de datos están situados en regiones productoras de carbón, como Virginia, la "intensidad del carbono" que utilizan es un 48% superior a la de la media nacional. El artículo, publicado en arXiv y que aún no ha sido revisado por pares, concluye que el 95% de los centros de datos de EE UU se construyen en lugares con fuentes de electricidad más contaminantes que la media nacional.
Según Falco Bargagli-Stoffi, autor del estudio y profesor adjunto de la Escuela de Salud Pública Fielding de la UCLA (California, EE UU), no basta con estar en una zona carbonífera. "La energía más contaminante está disponible durante todo el día", dice, y muchos centros de datos la necesitan para mantener un funcionamiento óptimo 24 horas al día, 7 días a la semana. "La energía renovable, como la eólica o la solar, puede no estar igual de disponible". Los incentivos políticos o fiscales, así como el rechazo local, también pueden determinar la ubicación de los centros de datos.
Actualmente, una novedad en el campo de la IA implicaría que las emisiones se disparasen. Los modelos de IA están pasando rápidamente de ser simples generadores de texto, como ChatGPT, a convertirse en complejos generadores de imágenes, vídeos y música. Hasta ahora, muchos de estos modelos "multimodales" se habían quedado estancados en la fase de investigación, pero la situación está cambiando.
El pasado 9 de diciembre, OpenAI puso a disposición del público su modelo de generación de vídeo Sora, y su sitio web ha recibido tal avalancha de visitas de usuarios deseosos de probarlo que todavía no funciona correctamente. Los modelos de la competencia, como Veo de Google y Movie Gen de Meta, aún no se han hecho públicos, pero si estas empresas siguen el ejemplo de OpenAI como en el pasado, es posible que lo hagan pronto. Los modelos de generación de música de Suno y Udio están creciendo (a pesar de las querellas), y Nvidia lanzó su propio generador de audio el mes pasado. Google está trabajando en el proyecto Astra, que consistirá en un asistente de vídeo e inteligencia artificial capaz de conversar con el usuario sobre su entorno en tiempo real.
"A medida que aumentamos el número de imágenes y vídeos, el tamaño de los datos crece exponencialmente", afirma Gianluca Guidi, doctorando en Inteligencia Artificial por la Universidad de Pisa y el IMT Lucca (Italia), además de investigador visitante en Harvard (Massachusetts, EE UU) y autor principal del artículo. "Si esto se combina con una mayor adopción, las emisiones no tardarán en dispararse".
Uno de los objetivos de los investigadores era crear un método más fiable para saber cuánta energía consumen los centros de datos. Ha sido una tarea más complicada de lo que cabría esperar, dado que los datos están dispersos en varias fuentes y organismos. Ahora han creado un portal que muestra las emisiones de los centros de datos de todo el país. El objetivo a largo plazo de la recopilación de datos es servir de base a futuros esfuerzos normativos para frenar las emisiones de los centros de datos, que se prevé que crezcan considerablemente en los próximos años.
"Va a aumentar la presión entre la comunidad preocupada por el medio ambiente y la sostenibilidad, así como en las grandes empresas tecnológicas", afirma Francesca Dominici, directora de la Harvard Data Science Initiative, profesora de Harvard (Massachusetts, EE UU) y otra de las coautoras. "Sin embargo, mi predicción es que no va a producirse una regulación. Al menos no en los próximos cuatro años".