Nuevas cifras muestran que si a todo se le suma el razonamiento de “cadena de pensamiento” del modelo, que consume mucha energía, la promesa de eficiencia se torna turbia.
En la semana transcurrida desde que un modelo chino de IA llamado DeepSeek se convirtió en un nombre familiar, una cantidad vertiginosa de narrativas han ganado fuerza, con distintos grados de precisión: que el modelo está recopilando sus datos personales ( tal vez ); que cambiará la IA tal como la conocemos (es demasiado pronto para decirlo, ¡pero lea la historia de mi colega Will al respecto!); y quizás lo más notable, que el nuevo enfoque más eficiente de DeepSeek significa que la IA podría no necesitar consumir las enormes cantidades de energía que consume actualmente.
Esta última idea es engañosa, y los nuevos números compartidos con MIT Technology Review ayudan a demostrar por qué. Estas primeras cifras, basadas en el rendimiento de uno de los modelos más pequeños de DeepSeek en una pequeña cantidad de indicaciones, sugieren que podría consumir más energía al generar respuestas que el modelo de tamaño equivalente de Meta. El problema podría ser que la energía que ahorra en el entrenamiento se ve compensada por sus técnicas más intensivas para responder preguntas y por las respuestas largas que producen.
Si a esto le sumamos el hecho de que otras empresas tecnológicas, inspiradas por el enfoque de DeepSeek, pueden ahora empezar a construir sus propios modelos de razonamiento de bajo coste similares, las perspectivas para el consumo de energía ya parecen mucho menos optimistas.
El ciclo de vida de cualquier modelo de IA tiene dos fases: entrenamiento e inferencia. El entrenamiento es el proceso que suele durar meses y en el que el modelo aprende de los datos. Luego, el modelo está listo para la inferencia, que ocurre cada vez que alguien en el mundo le pregunta algo. Ambas fases suelen tener lugar en centros de datos, donde se requiere mucha energía para hacer funcionar los chips y enfriar los servidores.
En cuanto al entrenamiento de su modelo R1, el equipo de DeepSeek mejoró lo que se denomina una técnica de “mezcla de expertos”, en la que solo una parte de los miles de millones de parámetros de un modelo (los “perillas” que utiliza un modelo para formar mejores respuestas) se activan en un momento dado durante el entrenamiento. Más notablemente, mejoraron el aprendizaje de refuerzo, donde los resultados de un modelo se califican y luego se utilizan para mejorarlo. Esto lo suelen hacer anotadores humanos, pero el equipo de DeepSeek se volvió bueno en automatizarlo .
La introducción de una forma de hacer que el entrenamiento sea más eficiente podría sugerir que las empresas de IA utilizarán menos energía para llevar sus modelos de IA a un determinado estándar. Sin embargo, en realidad no es así como funciona.
“Como el valor de tener un sistema más inteligente es tan alto”, escribió el cofundador de Anthropic, Dario Amodei, en su blog, “eso hace que las empresas gasten más , no menos, en entrenar modelos”. Si las empresas obtienen más por su dinero, considerarán que vale la pena gastar más y, por lo tanto, utilizar más energía. “Las ganancias en eficiencia de costos terminan destinándose por completo a entrenar modelos más inteligentes, limitadas solo por los recursos financieros de la empresa”, escribió. Es un ejemplo de lo que se conoce como la paradoja de Jevons.
Pero eso ha sido así en el ámbito del entrenamiento desde que comenzó la carrera de la IA. La energía necesaria para la inferencia es donde las cosas se ponen más interesantes.
DeepSeek está diseñado como un modelo de razonamiento, lo que significa que está pensado para funcionar bien en tareas como lógica, búsqueda de patrones, matemáticas y otras tareas con las que los modelos de IA generativa típicos tienen dificultades. Los modelos de razonamiento hacen esto utilizando algo llamado "cadena de pensamiento". Permite que el modelo de IA divida su tarea en partes y las resuelva en un orden lógico antes de llegar a su conclusión.
Esto se puede comprobar con DeepSeek. Si se pregunta si está bien mentir para proteger los sentimientos de alguien, el modelo primero aborda la cuestión desde el punto de vista del utilitarismo, sopesando el bien inmediato frente al daño potencial futuro. A continuación, considera la ética kantiana, que propone que se debe actuar de acuerdo con máximas que podrían ser leyes universales. Considera estos y otros matices antes de compartir su conclusión (concluye que mentir es “generalmente aceptable en situaciones en las que la amabilidad y la prevención del daño son primordiales, aunque con matices y sin una solución universal”, por si siente curiosidad).
Los modelos de cadena de pensamiento tienden a tener un mejor desempeño en ciertos puntos de referencia como el MMLU, que evalúa tanto el conocimiento como la resolución de problemas en 57 sujetos. Pero, como está quedando claro con DeepSeek, también requieren mucha más energía para llegar a sus respuestas. Tenemos algunas pistas preliminares sobre cuánto más.
Scott Chamberlin trabajó durante años en Microsoft y, más tarde, en Intel, creando herramientas para ayudar a revelar los costos ambientales de ciertas actividades digitales. Chamberlin realizó algunas pruebas iniciales para ver cuánta energía utiliza una GPU mientras DeepSeek llega a su respuesta. El experimento viene con una serie de advertencias: probó solo una versión de tamaño mediano del R-1 de DeepSeek, utilizando solo una pequeña cantidad de indicaciones. También es difícil hacer comparaciones con otros modelos de razonamiento.
DeepSeek es “realmente el primer modelo de razonamiento bastante popular al que cualquiera de nosotros tiene acceso”, afirma. El modelo o1 de OpenAI es su competidor más cercano, pero la empresa no lo pone a prueba. En cambio, lo probó frente a un modelo de Meta con la misma cantidad de parámetros: 70 mil millones.
La pregunta sobre si está bien mentir generó una respuesta de 1000 palabras del modelo DeepSeek, que necesitó 17 800 julios para generarse (aproximadamente lo que se necesita para reproducir un video de YouTube de 10 minutos). Esto representó aproximadamente un 41 % más de energía que la que utilizó el modelo de Meta para responder a la pregunta. En general, cuando se probó con 40 preguntas, se descubrió que DeepSeek tenía una eficiencia energética similar a la del modelo Meta, pero DeepSeek tendía a generar respuestas mucho más largas y, por lo tanto, se descubrió que utilizaba un 87 % más de energía.
¿Cómo se compara esto con los modelos que utilizan la IA generativa tradicional en lugar del razonamiento en cadena? Las pruebas realizadas por un equipo de la Universidad de Michigan en octubre descubrieron que la versión de 70 mil millones de parámetros de Llama 3.1 de Meta tenía un promedio de solo 512 julios por respuesta.
Ni DeepSeek ni Meta respondieron a las solicitudes de comentarios.
Una vez más, abundan las incertidumbres. Se trata de modelos diferentes, para propósitos diferentes, y no se ha realizado un estudio científicamente sólido de cuánta energía utiliza DeepSeek en relación con sus competidores. Pero está claro, basándose únicamente en la arquitectura de los modelos, que los modelos de cadena de pensamiento utilizan mucha más energía a medida que llegan a respuestas más sólidas.
Sasha Luccioni, investigadora de inteligencia artificial y líder climática en Hugging Face, teme que el entusiasmo en torno a DeepSeek pueda llevar a una prisa por insertar este enfoque en todo, incluso donde no es necesario.
“Si empezáramos a adoptar este paradigma de forma generalizada, el consumo de energía para la inferencia se dispararía”, afirma. “Si todos los modelos que se lanzan son más intensivos en computación y se convierten en cadenas de pensamiento, entonces se anularía por completo cualquier ganancia de eficiencia”.
La IA ya ha estado en esta situación antes. Antes del lanzamiento de ChatGPT en 2022, el objetivo de la IA era extractivo: básicamente, encontrar información en un montón de texto o categorizar imágenes. Pero en 2022, el enfoque pasó de la IA extractiva a la IA generativa, que se basa en hacer predicciones cada vez mejores. Eso requiere más energía.
“Ese es el primer cambio de paradigma”, afirma Luccioni. Según su investigación , ese cambio ha dado como resultado que se utilicen órdenes de magnitud mayores de energía para realizar tareas similares. Si el fervor en torno a DeepSeek continúa, afirma, las empresas podrían verse presionadas a implementar sus modelos de estilo de cadena de pensamiento en todo, de la misma manera que la IA generativa se ha agregado a todo, desde la búsqueda de Google hasta las aplicaciones de mensajería.
Parece que nos estamos dirigiendo hacia una dirección en la que se utilice más el razonamiento en cadena: OpenAI anunció el 31 de enero que ampliaría el acceso a su propio modelo de razonamiento, o3. Pero no sabremos más sobre los costos de la energía hasta que DeepSeek y otros modelos similares se estudien mejor.
“Dependerá de si la compensación es o no rentable para la empresa en cuestión”, afirma Nathan Benaich, fundador y socio general de Air Street Capital. “Los costos de energía tendrían que ser muy altos para que estos factores desempeñen un papel significativo en la toma de decisiones”.