
Desde que el modelo de inteligencia artificial chino DeepSeek saltó a la fama, han circulado numerosos rumores con distintos grados de certeza: que recopila datos personales (posiblemente), que podría transformar la inteligencia artificial tal como la conocemos (aún es pronto para afirmarlo, aunque mi colega Will ha escrito al respecto) y, quizá lo más relevante, que su nuevo enfoque más eficiente podría reducir el descomunal consumo de energía de la inteligencia artificial actual.
Esta última idea es engañosa, y las cifras compartidas con MIT Technology Review ayudan a entender el por qué. Los primeros datos, basados en el rendimiento de uno de los modelos más pequeños de DeepSeek en un número limitado de preguntas, sugieren que su consumo de energía al generar respuestas podría ser mayor que el de un modelo de tamaño equivalente de Meta. El problema podría residir en que, aunque DeepSeek ahorra energía durante el entrenamiento, este ahorro se ve compensado por el uso de técnicas más exigentes para responder preguntas y por la generación de respuestas más largas.
Si a esto añadimos que otras empresas tecnológicas, inspiradas por el planteamiento de DeepSeek, podrían empezar a construir sus propios modelos de razonamiento de bajo coste, el panorama del consumo de energía ya parece mucho menos halagüeño.
El ciclo de vida de cualquier modelo de IA consta de dos fases: entrenamiento e inferencia. El entrenamiento es el proceso, a menudo de meses de duración, en el que el modelo aprende de los datos. A continuación, el modelo está listo para la inferencia, que tiene lugar cada vez que alguien en el mundo le pregunta algo. Ambas suelen tener lugar en centros de datos, donde se necesita mucha energía para hacer funcionar los chips y refrigerar los servidores.
Para entrenar su modelo R1, el equipo de DeepSeek optimizó una técnica conocida como “mezcla de expertos”. Este enfoque permite que solo una parte de los miles de millones de parámetros del modelo —los “botones” que ajustan sus respuestas— se activen en cada momento del entrenamiento y así se mejora la eficiencia. Además, han perfeccionado el aprendizaje por refuerzo, un proceso donde los resultados del modelo se puntúan para mejorar su rendimiento. Normalmente, esta tarea la realizan humanos, pero DeepSeek ha logrado automatizarla.
La optimización del entrenamiento podría hacer pensar que las empresas de IA reducirán el consumo de energía para alcanzar un determinado nivel de rendimiento en sus modelos. Sin embargo, en la práctica, no es tan sencillo.
«Como el valor de tener un sistema más inteligente es tan alto, esto provoca que las empresas gasten más, no menos, en modelos de formación», escribió el cofundador de Anthropic, Dario Amodei, en su blog. Si las compañías obtienen más por su dinero, les merecerá la pena gastar más y, por tanto, utilizar más energía. «Las ganancias en eficiencia de costes acaban dedicándose íntegramente a formar modelos más inteligentes, limitadas únicamente por los recursos financieros de la empresa», añade el especialista. Es un ejemplo de lo que se conoce como la paradoja de Jevons.
Esto ha sido así desde que comenzó la carrera de la inteligencia artificial. No obstante, es en el consumo de energía durante la inferencia donde las cosas se ponen realmente interesantes.
DeepSeek está diseñado como un modelo de razonamiento. Está pensado para funcionar bien en cosas como la lógica, la búsqueda de patrones, las matemáticas y otras tareas con las que los modelos típicos de IA generativa tienen dificultades. Los modelos de razonamiento utilizan algo llamado «cadena de pensamiento». Permite al modelo de IA dividir su tarea en partes y trabajar a través de ellas en un orden lógico antes de llegar a su conclusión.
Esto se puede observar claramente en DeepSeek. Al preguntarle si está bien mentir para proteger los sentimientos de alguien, el modelo aborda primero la cuestión desde una perspectiva utilitarista, evaluando el bien inmediato frente al posible daño futuro. Luego, considera la ética kantiana, que defiende actuar según máximas que podrían convertirse en leyes universales. Después de sopesar estos y otros matices, el modelo comparte su conclusión. Es decir, llega a la conclusión de que mentir es “generalmente aceptable en situaciones donde la bondad y la prevención del daño son prioritarias, aunque con matices y sin una solución universal”.
Los modelos de cadena de pensamiento tienden a obtener mejores resultados en determinadas pruebas, como MMLU, que evalúa tanto el conocimiento como la resolución de problemas en 57 materias. Como queda claro con DeepSeek, también requieren mucha más energía para llegar a sus respuestas. Tenemos algunas pistas sobre cuánto más.
Scott Chamberlin pasó años en Microsoft, y más tarde en Intel, creando herramientas para ayudar a revelar los costes medioambientales de determinadas actividades digitales. El experto, realizó algunas pruebas iniciales para ver cuánta energía consume una GPU cuando DeepSeek llega a su respuesta. El experimento viene con un montón de advertencias: silo probó una versión de tamaño medio de la R-1 de DeepSeek y utilizó un número reducido de preguntas. También es difícil hacer comparaciones con otros modelos de razonamiento.
«DeepSeek es realmente el primer modelo de razonamiento popular al que cualquiera de nosotros tiene acceso«, destaca Chamberlin. El modelo o1 de OpenAI es su competidor más cercano, pero la empresa no lo pone a prueba. En su lugar, lo comparó con un modelo de Meta con el mismo número de parámetros: 70.000 millones.
La pregunta sobre si está bien mentir generó una respuesta de 1.000 palabras por parte del modelo DeepSeek, que requirió 17.800 julios para ser procesada. Esto equivale más o menos al consumo de energía de un vídeo de YouTube de 10 minutos y representa un 41% más de energía que la utilizada por el modelo de Meta para responder a la misma pregunta. En general, cuando se probaron 40 preguntas, DeepSeek mostró una eficiencia energética similar a la del modelo de Meta, pero tiende a generar respuestas mucho más largas y esto deriva enun consumo de energía un 87 % mayor.
¿Cómo se compara esto con los modelos que utilizan IA generativa a la antigua usanza, en lugar de razonamiento en cadena? Las pruebas realizadas en octubre por un equipo de la Universidad de Michigan (EE UU) revelaron que la versión de 70.000 millones de parámetros de la Llama 3.1 de Meta solo alcanzaba una media de 512 julios por respuesta.
Ni DeepSeek ni Meta respondieron a la petición de comentarios para este artículo.
Una vez más, abundan las incertidumbres. Se trata de modelos diferentes, diseñados para fines distintos, y aún no se ha realizado un estudio científicamente sólido que compare cuánta energía consume DeepSeek en relación con sus competidores. Es evidente, basándonos únicamente en la arquitectura de los modelos, que los modelos de cadena de pensamiento requieren mucha más energía a medida que generan respuestas más completas y fundamentadas.
A Sasha Luccioni, investigador de IA y responsable de clima en Hugging Face, le preocupa que el entusiasmo en torno a DeepSeek pueda llevar a una carrera por insertar este enfoque en todo, incluso donde no sea necesario. «Si empezáramos a adoptar este paradigma de forma generalizada, el uso de energía de inferencia se dispararía. Si todos los modelos que se lanzan son más intensivos en computación y se convierten en cadenas de pensamiento, entonces se anula por completo cualquier aumento de la eficiencia», señala el especialista.
La IA ya ha estado aquí antes. Antes del lanzamiento de ChatGPT en 2022, la IA se centraba en la extracción. Es decir, en la búsqueda de información en grandes cantidades de texto o en la clasificación de imágenes. En 2022, se pasó de la IA extractiva a la generativa, que se basa en hacer predicciones cada vez mejores. Esto requiere más energía.
“Este es el primer cambio de paradigma”, afirma Luccioni. Según su investigación, este cambio ha llevado a un consumo de energía mayor para realizar tareas similares. Si el entusiasmo en torno a DeepSeek sigue creciendo, las empresas podrían verse presionadas a integrar sus modelos de cadena de pensamiento en todos los ámbitos, de manera similar a cómo la IA generativa se ha incorporado en todo, desde la búsqueda de Google hasta las aplicaciones de mensajería.
Parece que nos encaminamos hacia un mayor razonamiento en cadena: OpenAI anunció el 31 de enero que ampliaría el acceso a su propio modelo de razonamiento, o3. Por el momento, no sabremos más sobre los costes energéticos hasta que DeepSeek y otros modelos similares estén mejor estudiados.
«Dependerá de si los beneficios compensan los costes económicos para la empresa en cuestión. Los costes energéticos tendrían que aumentar considerablemente para que estos modelos tengan un papel relevante en la toma de decisiones», afirma Nathan Benaich, fundador y socio general de Air Street Capital.