
Cuando nos propusimos escribir un artículo sobre las mejores estimaciones disponibles sobre el impacto energético y las emisiones de la IA, sabíamos que habría salvedades e incertidumbres en estas cifras. Pero pronto descubrimos que las salvedades también forman parte de la historia.
Medir la energía que consume un modelo de IA no es como evaluar el consumo de combustible de un coche o la clasificación energética de un electrodoméstico. No existe un método consensuado ni una base de datos pública con valores. No hay organismos reguladores que impongan normas y los consumidores no tienen la posibilidad de evaluar un modelo frente a otro.
A pesar de que se están invirtiendo miles de millones de dólares en remodelar la infraestructura energética en función de las necesidades de la IA, nadie ha establecido una forma de cuantificar el consumo energético de la IA. Peor aún, las empresas no suelen estar dispuestas a revelar su parte del rompecabezas. También existen limitaciones para estimar las emisiones asociadas a esa demanda energética, ya que la red eléctrica alberga una mezcla compleja y en constante cambio de fuentes de energía.
En resumen, es un gran lío. Dicho esto, estas son las numerosas variables, hipótesis y advertencias que hemos utilizado para calcular las consecuencias de una consulta de IA. (Puede ver los resultados completos de nuestra investigación aquí).
Medición de la energía que utiliza un modelo
Las empresas como OpenAI, que trabajan con modelos de código cerrado, suelen ofrecer acceso a sus sistemas a través de una interfaz en la que se introduce una pregunta y se recibe una respuesta. Lo que ocurre entre medias (¿qué centro de datos del mundo procesa la solicitud, la energía que se necesita para hacerlo y la intensidad de carbono de las fuentes de energía utilizadas?) sigue siendo un secreto que solo conocen las empresas. Hay pocos incentivos para que divulguen esta información y, hasta ahora, la mayoría no lo ha hecho.
Por eso, para nuestro análisis, hemos analizado modelos de código abierto. Son un indicador muy imperfecto, pero el mejor que tenemos. (OpenAI, Microsoft y Google se han negado a compartir datos específicos sobre la cantidad de energía que consumen sus modelos de código cerrado).
Los mejores recursos para medir el consumo energético de los modelos de IA de código abierto son: AI Energy Score, ML.Energy y MLPerf Power . El equipo responsable de ML.Energy nos ayudó con los cálculos de los modelos de texto e imagen, y el equipo responsable de AI Energy Score nos ayudó con los cálculos de los modelos de vídeo.
Modelos de texto
Los modelos de IA consumen energía en dos fases: cuando aprenden inicialmente a partir de grandes cantidades de datos, lo que se denomina entrenamiento, y cuando responden a consultas, lo que se denomina inferencia. Cuando se lanzó ChatGPT hace unos años, el entrenamiento era el centro de atención, ya que las empresas tecnológicas se apresuraban a mantenerse al día y crear modelos cada vez más grandes. Pero ahora, la inferencia es donde se consume más energía.
La forma más precisa de comprender cuánta energía consume un modelo de IA en la fase de inferencia es medir directamente la cantidad de electricidad utilizada por el servidor que gestiona la solicitud. Los servidores contienen todo tipo de componentes: potentes chips llamados GPU que realizan la mayor parte del trabajo de cálculo, otros chips llamados CPU, ventiladores para mantener todo y mucho más. Los investigadores suelen medir la cantidad de energía que consume la GPU y estimar el resto.
Para ello, recurrimos al doctorando Jae-Won Chung y al profesor asociado Mosharaf Chowdhury de la Universidad de Michigan (EE UU), que dirigen el proyecto ML.Energy . Una vez recopilados los datos sobre el consumo energético de las GPU de los diferentes modelos, tuvimos que estimar cuánta energía se utiliza para otros procesos, como la refrigeración. Examinamos la bibliografía científica, incluido un artículo de 2024 de Microsoft, para comprender qué porcentaje del consumo energético total de un servidor corresponde a las GPU. Resulta que es aproximadamente la mitad. Así que tomamos la estimación de energía de las GPU del equipo y la duplicamos para tener una idea del consumo energético total.
El equipo de ML.Energy utiliza un lote de 500 prompts de un conjunto de datos más amplio para probar los modelos. El hardware es el mismo en todos los casos; la GPU es un popular chip de Nvidia llamado H100. Decidimos centrarnos en modelos de tres tamaños de la familia Meta Llama: pequeño (8 billones de parámetros), mediano (70 billones) y grande (405 billones). También identificamos una selección de indicaciones para probar. Las comparamos con los promedios de todo el lote de 500 prompts.
Modelos de imagen
Stable Diffusion 3 de Stability AI es uno de los modelos de generación de imágenes de código abierto más utilizados, por lo que lo hemos convertido en nuestro objetivo. Aunque probamos varios tamaños del modelo Meta Llama basado en texto, nos centramos en uno de los tamaños más populares de Stable Diffusion 3, con 2 billones de parámetros.
El equipo utiliza un conjunto de datos de ejemplos de prompts para probar los requisitos energéticos de un modelo. Aunque la energía utilizada por los modelos de lenguaje grandes viene determinada en parte por el prompt, esto no es así en el caso de los modelos de difusión. Los modelos de difusión pueden programarse para pasar por un número predeterminado de pasos de eliminación de ruido cuando generan una imagen o un vídeo, siendo cada paso una iteración del algoritmo que añade más detalles a la imagen. Para un número de pasos y un modelo determinados, todas las imágenes generadas tienen la misma huella energética.
Cuantos más pasos, mayor es la calidad del resultado final, pero también mayor es el consumo de energía. El número de pasos varía según el modelo y la aplicación, pero 25 es bastante habitual, y es el que hemos utilizado para nuestra calidad estándar. Para obtener una calidad superior, hemos utilizado 50 pasos.
Hemos mencionado que las GPU suelen ser responsables de aproximadamente la mitad de la demanda energética de las solicitudes de modelos de lenguaje grandes. No hay suficientes investigaciones para saber cómo cambia esto en los modelos de difusión que generan imágenes y vídeos. A falta de una estimación más precisa, y tras consultar con investigadores, hemos optado por mantener esta regla general del 50 % también para las imágenes y los vídeos.
Modelos de vídeo
Chung y Chowdhury prueban modelos de vídeo, pero solo aquellos que generan GIF cortos y de baja calidad. No creemos que los vídeos que producen estos modelos reflejen la fidelidad de los vídeos generados por IA a los que mucha gente está acostumbrada.
En su lugar, recurrimos a Sasha Luccioni, responsable de IA y clima en Hugging Face, que dirige el proyecto AI Energy Score. Ella mide la energía utilizada por la GPU durante las solicitudes de IA. Elegimos dos versiones del modelo CogVideoX para realizar las pruebas: una versión más antigua y de menor calidad y otra más reciente y de mayor calidad.
Le pedimos a Luccioni que utilizara su herramienta, llamada Code Carbon, para probar ambas y medir los resultados de un lote de indicaciones de vídeo que seleccionamos, utilizando el mismo hardware que en nuestras pruebas de texto e imágenes para mantener el mayor número posible de variables iguales. Ella nos informó del consumo energético de la GPU, que volvimos a duplicar para estimar el consumo energético total.
Rastreando el origen de esa energía
Una vez que comprendemos cuánta energía se necesita para responder a una consulta, podemos traducir eso en el impacto total de las emisiones. Para ello, es necesario examinar la red eléctrica de la que los centros de datos obtienen su electricidad.
Determinar el impacto climático de la red puede ser complicado, ya que está interconectada y es increíblemente local. Imaginemos la red como un sistema de canales y depósitos de agua conectados entre sí. Las centrales eléctricas añaden agua a los canales y los usuarios de electricidad, o cargas, la extraen. En Estados Unidos, las interconexiones de la red se extienden por todo el país. Así que, en cierto modo, todos estamos conectados, pero también podemos dividir la red en sus componentes para hacernos una idea de cómo varían las fuentes de energía en todo el país.
Comprender la intensidad de carbono
La métrica clave para entender esto se llama intensidad de carbono, que es básicamente una medida de cuántos gramos de contaminación de dióxido de carbono se liberan por cada kilovatio-hora de electricidad que se produce.
Para obtener las cifras de intensidad de carbono, nos pusimos en contacto con Electricity Maps, una empresa danesa de nueva creación que recopila datos sobre las redes eléctricas de todo el mundo. El equipo recopila información de fuentes como gobiernos y empresas de servicios públicos y la utiliza para publicar estimaciones históricas y en tiempo real de la intensidad de carbono de la red. Pueden encontrar más información sobre su metodología aquí.
La empresa nos facilitó datos históricos desde 2024, tanto para todo Estados Unidos como para algunas autoridades reguladoras clave. Tras debatirlo con el fundador de Electricity Maps, Olivier Corradi, y otros expertos, tomamos algunas decisiones sobre las cifras que utilizaríamos en nuestros cálculos.
Una forma de medir la intensidad de carbono es simplemente observar todas las centrales eléctricas que operan en la red, sumar la contaminación que producen en ese momento y dividir el total por la electricidad que producen. Pero eso no tiene en cuenta las emisiones asociadas a la construcción y demolición de las centrales eléctricas, que pueden ser significativas. Por lo tanto, hemos optado por utilizar cifras de intensidad de carbono que tienen en cuenta todo el ciclo de vida de una central eléctrica.
También hemos optado por utilizar la intensidad de carbono basada en el consumo de energía, en lugar de la basada en la producción. Esta cifra tiene en cuenta las importaciones y exportaciones que se mueven entre diferentes partes de la red y representa mejor la electricidad que se utiliza, en tiempo real, dentro de una región determinada.
La empresa compartió con nosotros datos históricos de 2024, tanto para todo Estados Unidos como para algunas autoridades de balance clave. Después de discusiones con el fundador de Electricity Maps, Olivier Corradi, y otros expertos, tomamos algunas decisiones sobre qué cifras utilizaríamos en nuestros cálculos.
Comprender las autoridades reguladoras
Aunque puede ser útil comprender la situación en todo Estados Unidos, la red puede ser muy diferente en distintos lugares. Una forma de dividirla es fijándonos en las autoridades de equilibrio. Se trata de organismos independientes responsables del equilibrio de la red en una región específica que operan de forma mayoritariamente independiente, aunque también hay un movimiento constante de electricidad entre ellos. Hay 66 autoridades de equilibrio en EE UU, y podemos calcular la intensidad de carbono de la parte de la red que abarca una autoridad de equilibrio específica.
Electricity Maps proporcionó cifras de intensidad de carbono para algunas autoridades de equilibrio clave, y nos centramos en varias de las que desempeñan un papel más importante en el funcionamiento de los centros de datos. ERCOT que cubre la mayor parte de Texas y PJM, un grupo de estados de la costa este, que incluye Virginia, Pensilvania y Nueva Jersey (EE UU) son dos de las regiones con mayor carga de centros de datos, según una investigación de la Escuela de Salud Pública de Harvard (EE.UU)
Añadimos CAISO, en California (EE UU) porque cubre el estado más poblado del país que también gestiona una red con un número significativo de fuentes de energía renovable, lo que la convierte en un buen ejemplo de cómo la intensidad de carbono puede cambiar drásticamente según la hora del día. A mediodía, tiende a predominar la energía solar, mientras que el gas natural desempeña un papel más importante durante la noche, por ejemplo.
Una advertencia importante es que no sabemos con certeza dónde suelen enviar las empresas las solicitudes individuales de inferencia de IA. Hay grupos de centros de datos en las regiones que hemos elegido ejemplos, pero cuando se utiliza el modelo de IA de un gigante tecnológico, la solicitud puede ser gestionada por cualquiera de los centros de datos que la empresa posee o con los que tiene contrato. Una aproximación razonable es la ubicación: es probable que el centro de datos que atiende una solicitud esté cerca del lugar donde se realiza, por lo que es muy probable que una solicitud en la costa oeste se dirija a un centro de datos de esa parte del país.
Explicación de lo que hemos descubierto
Para contextualizar mejor nuestros cálculos, hemos introducido algunas comparaciones con las que la gente puede estar más familiarizada que los kilovatios-hora y los gramos de dióxido de carbono. En algunos casos, hemos tomado la cantidad de electricidad que se estima que consume un modelo y hemos calculado cuánto tiempo podría alimentar un microondas estándar, así como la distancia que podría recorrer alguien en una bicicleta eléctrica.
En el caso de la bicicleta eléctrica, hemos supuesto una eficiencia de 25 vatios-hora por milla, lo que se encuentra dentro del rango de eficiencias más citadas para una bicicleta con pedaleo asistido. Para el microondas, hemos supuesto un modelo de 800 vatios, que se encuentra dentro del rango medio en EE UU.
También introdujimos una comparación para contextualizar las emisiones de gases de efecto invernadero: las millas recorridas en un coche de gasolina. Para ello, utilizamos datos de la Agencia de Protección Ambiental de EE UU, que sitúa el consumo medio ponderado de combustible de los vehículos en el país en 2022 en 393 gramos de dióxido de carbono equivalente por milla.
Predicción del consumo energético de la IA en el futuro
Después de medir la demanda energética de una consulta individual y las emisiones que generaba, era el momento de estimar cómo todo esto se sumaba a la demanda nacional.
Hay dos formas de hacerlo. En un análisis ascendente, se estima cuántas consultas individuales hay, se calcula la demanda energética de cada una y se suman para determinar el total. En un análisis descendente, se estima cuánta energía consumen todos los centros de datos observando las tendencias generales.
El enfoque ascendente es especialmente difícil porque, una vez más, las empresas de código cerrado no comparten esa información y se negaron a darnos detalles. Aunque podemos hacer algunas estimaciones fundamentadas para hacernos una idea de lo que podría estar ocurriendo en este momento, para mirar hacia el futuro quizá sea mejor adoptar un enfoque descendente.
Estos datos también son escasos. El informe más importante fue publicado en diciembre por el Laboratorio Nacional Lawrence Berkeley (California, EE UU), financiado por el Departamento de Energía, y los autores del informe señalaron que es solo el tercer informe de este tipo publicado en los últimos 20 años. Los investigadores académicos en materia de clima y energía con los que hablamos señalaron que es un problema importante que la IA no se considere un sector económico independiente a efectos de la medición de las emisiones y que no existan requisitos rigurosos de información. Como resultado, es difícil hacer un seguimiento del impacto climático de la IA.
Aun así, examinamos los resultados del informe, los comparamos con otros hallazgos y estimaciones, y consultamos a expertos independientes sobre los datos. Aunque gran parte del informe trataba sobre los centros de datos en general, extrajimos datos específicos sobre el futuro de la IA.
Objetivos de las empresas
Queríamos contrastar estas cifras con las cantidades de energía que las propias empresas de IA dicen necesitar. Para ello, recopilamos informes de las principales empresas tecnológicas y de IA sobre sus planes de expansión de energía y centros de datos, así como las cantidades en dólares que prometieron invertir. Siempre que fue posible, verificamos las promesas realizadas en estas declaraciones. (Por ejemplo, los compromisos de Meta y Microsoft de utilizar más energía nuclear reducirían efectivamente las emisiones de carbono de las empresas, pero se necesitarán años, si no décadas, para que estas centrales nucleares adicionales entren en funcionamiento).
Solicitudes a las empresas
Enviamos solicitudes a Microsoft, Google y OpenAI para mantener conversaciones basadas en datos sobre las necesidades energéticas de sus modelos para la inferencia de IA. Ninguna de las empresas puso a disposición de los medios a sus ejecutivos o directivos para entrevistas oficiales sobre su consumo energético.