DeepSeek cambia las reglas del juego en IA y todos van a seguir su ejemplo

Cuando la empresa china DeepSeek lanzó su modelo lingüístico R1, la industria tecnológica estadounidense quedó sorprendida. R1 no solo rivalizaba con los mejores del sector, sino que además se desarrolló a una fracción de su coste y se publicó de forma gratuita.

El mercado bursátil estadounidense perdió un billón de dólares, el presidente Trump lo calificó de llamada de atención y el bombo se disparó una vez más. "DeepSeek R1 es uno de los avances más asombrosos e impresionantes que he visto nunca y, como código abierto, un profundo regalo para el mundo", publicó en X Marc Andreessen, el principal inversor de Silicon Valley.

Las innovaciones de DeepSeek no son lo único a destacar. Al publicar detalles sobre cómo se construyeron el R1 y un modelo anterior, llamado V3, y liberar los modelos de forma gratuita, DeepSeek ha revelado que los modelos de razonamiento son más fáciles de desarrollar de lo que se creía. Con este avance, la empresa ha acortado distancias con los laboratorios más punteros del mundo.

La noticia ha llamado la atención de competidores de todo el mundo. El gigante tecnológico chino Alibaba anunció una nueva versión de su gran modelo lingüístico Qwen y el Allen Institute for AI (AI2), un importante laboratorio estadounidense sin ánimo de lucro, anunció una actualización de su gran modelo lingüístico Tulu. Ambos afirman que sus últimos modelos superan al equivalente de DeepSeek.

Sam Altman, cofundador y consejero delegado de OpenAI, calificó R1 de impresionante -por el precio-, pero contraatacó con una promesa: "Obviamente, ofreceremos modelos mucho mejores". A continuación, OpenAI lanzó ChatGPT Gov, una versión de su chatbot adaptada a las necesidades de seguridad de las agencias gube amentales estadounidenses, en un aparente guiño a las preocupaciones de que la aplicación de DeepSeek estuviera enviando datos a China. Aún hay más.

De repente, DeepSeek se ha convertido en la empresa a batir. ¿Qué ha hecho exactamente para conmocionar al mundo de la tecnología? ¿Está justificada la exageración? ¿Qué podemos aprender sobre lo que está por venir? Esto es lo que hay que saber.

Etapas de formación

Empecemos por explicar cómo se entrenan los grandes modelos lingüísticos. Hay dos etapas principales, conocidas como preentrenamiento y postentrenamiento. El preentrenamiento es la etapa de la que más se habla. En este proceso, miles de millones de documentos (un gran número de sitios web, libros, repositorios de código, etc.) se introducen en una red neuronal una y otra vez hasta que aprende a generar texto que se parece a su material de origen, palabra por palabra. El resultado final se conoce como modelo base.

El preentrenamiento es donde tiene lugar la mayor parte del trabajo, y puede costar una gran cantidad de dinero. Como señaló Andrej Karpathy, cofundador de OpenAI y antiguo responsable de IA en Tesla, en una charla en Microsoft Build el año pasado: "Los modelos básicos no son asistentes. Solo quieren completar documentos de Inte et".

Convertir un gran modelo lingüístico en una herramienta útil requiere una serie de pasos adicionales. Se trata de la fase de posentrenamiento, en la que el modelo aprende a realizar tareas específicas, como responder preguntas (o responder preguntas paso a paso, como ocurre con o3 de OpenAI y R1 de DeepSeek). La forma en que se ha hecho esto en los últimos años es tomar un modelo base y entrenarlo para imitar ejemplos de pares pregunta-respuesta proporcionados por ejércitos de evaluadores humanos. Este paso se conoce como ajuste supervisado.

OpenAI fue pionera en otro paso, en el que las respuestas de muestra del modelo son puntuadas -de nuevo por evaluadores humanos- y esas puntuaciones se utilizan para entrenar al modelo para que produzca respuestas futuras más parecidas a las que obtienen buenas puntuaciones y menos parecidas a las que no. Esta técnica, conocida como aprendizaje por refuerzo con retroalimentación humana (RLHF), es lo que hace que los chatbots como ChatGPT sean tan hábiles. El RLHF se utiliza ahora en todo el sector.

Esos pasos posteriores a la formación llevan tiempo. Lo que DeepSeek ha demostrado es que se pueden obtener los mismos resultados sin necesidad de recurrir a personas, al menos la mayor parte del tiempo. Sustituye el ajuste fino supervisado y el RLHF por un paso de aprendizaje por refuerzo totalmente automatizado. En lugar de utilizar información humana para dirigir sus modelos, la empresa utiliza las puntuaciones producidas por un ordenador.

"Omitir o reducir la retroalimentación humana es algo muy importante", dice Itamar Friedman, ex director de investigación de Alibaba y ahora cofundador y CEO de Qodo, una start-up de codificación de IA con sede en Israel. "Estás entrenando modelos casi por completo sin necesidad de que los humanos hagan el trabajo", añade.

Mano de obra barata

El inconveniente de este enfoque es que los ordenadores son buenos puntuando respuestas a preguntas sobre matemáticas y código, pero no tanto puntuando respuestas a preguntas abiertas o más subjetivas. Por eso, R1 funciona bien en las pruebas de matemáticas y código. Para entrenar a sus modelos a responder a una gama más amplia de preguntas no matemáticas o realizar tareas creativas, DeepSeek todavía tiene que pedir a la gente que proporcione la información.

Incluso eso es más barato en China. "En comparación con los mercados occidentales, el coste de crear datos de alta calidad es menor en China y hay más talento con estudios universitarios en matemáticas, programación o ingeniería", afirma Si Chen, vicepresidente de la empresa australiana de IA Appen y antiguo jefe de estrategia de Amazon Web Services China y del gigante tecnológico chino Tencent.

DeepSeek utilizó este enfoque para construir un modelo base, llamado V3, que rivaliza con el modelo insignia de OpenAI, el GPT-4o. El R1, el modelo que compite con el o1 de OpenAI, se construyó sobre el V3.

Para construir R1, DeepSeek tomó V3 y ejecutó su bucle de aprendizaje por refuerzo una y otra vez. En 2016, Google DeepMind demostró que un método automatizado de ensayo y error, sin intervención humana, podía aplicarse a un modelo de juego de mesa. Este modelo realizaba movimientos aleatorios y, mediante entrenamiento, lograba vencer a grandes maestros. DeepSeek emplea un enfoque similar con grandes modelos lingüísticos: las respuestas posibles se tratan como jugadas en un juego.

Al principio, el modelo no generaba respuestas que resolviesen las preguntas de manera secuencial, como deseaba DeepSeek. No obstante, al puntuar automáticamente las respuestas de muestra, el proceso de entrenamiento fue guiándolo gradualmente hacia el comportamiento esperado.

Finalmente, DeepSeek produjo un modelo que obtuvo buenos resultados en una serie de pruebas. Este modelo, llamado R1-Zero, daba respuestas difíciles de leer y escritas en una mezcla de varios idiomas. Para darle un último retoque, DeepSeek sembró el proceso de aprendizaje por refuerzo con un pequeño conjunto de datos de respuestas de ejemplo proporcionadas por personas. El entrenamiento de R1-Zero con estos datos produjo el modelo que DeepSeek denominó R1.

Asimismo, para que el aprendizaje por refuerzo sea lo más eficiente posible, DeepSeek ha desarrollado un nuevo algoritmo llamado Group Relative Policy Optimization (GRPO). La primera vez que utilizó GRPO fue hace un año, para construir un modelo llamado DeepSeekMath.

No entraremos en detalles: basta con saber que el aprendizaje por refuerzo implica calcular una puntuación para determinar si un movimiento potencial es bueno o malo. Muchas de las técnicas de aprendizaje por refuerzo actuales requieren un modelo independiente para realizar este cálculo. En el caso de los grandes modelos lingüísticos, eso significa un segundo modelo que podría ser tan caro de construir y ejecutar como el primero. En lugar de utilizar un segundo modelo para predecir una puntuación, GRPO se limita a hacer una estimación. Es barato, pero lo suficientemente preciso como para funcionar.

Un enfoque común

El uso del aprendizaje por refuerzo por parte de DeepSeek es la principal innovación que la empresa describe en su documento R1. DeepSeek no es la única empresa que experimenta con esta técnica. Dos semanas antes de la publicación de R1, un equipo de Microsoft Asia anunció un modelo llamado rStar-Math, entrenado de forma similar. "Su rendimiento es igualmente enorme", afirma Matt Zeiler, fundador y consejero delegado de la empresa de IA Clarifai.

El modelo Tulu de AI2 también se desarrolló utilizando técnicas de aprendizaje por refuerzo, aunque combinadas con otros enfoques, como el ajuste fino supervisado y el RLHF, en lugar de reemplazarlos. Por su parte, la empresa estadounidense Hugging Face se está apresurando a replicar R1 con OpenR1, un clon del modelo de DeepSeek que espera revelar aún más elementos de la “salsa especial” de R1.

Es más, es un secreto a voces que grandes empresas como OpenAI, Google DeepMind y Anthropic podrían estar utilizando ya sus propias versiones del enfoque de DeepSeek para entrenar su nueva generación de modelos. "Estoy seguro de que están haciendo casi exactamente lo mismo, pero con su propio estilo", dice Zeiler.

DeepSeek tiene más de un as en la manga. Entrenó su modelo base V3 para realizar lo que se conoce como predicción multi-token, un enfoque en el que el modelo aprende a predecir una cadena de palabras completa de una vez, en lugar de hacerlo palabra por palabra. Este tipo de entrenamiento no solo es más económico, sino que también mejora la precisión. “Si pensamos en cómo hablamos, cuando estamos a mitad de una frase, ya sabemos cómo continuará. Estos modelos también deberían ser capaces de hacer lo mismo”, comenta Zeiler.

Por otro lado, han encontrado formas más baratas de crear grandes conjuntos de datos. Para entrenar el modelo del año pasado, DeepSeekMath, tomó un conjunto de datos gratuito llamado Common Crawl -un enorme número de documentos extraídos de Inte et- y utilizó un proceso automatizado para extraer solo los documentos que incluían problemas matemáticos. Esto resultaba mucho más barato que crear un nuevo conjunto de datos de problemas matemáticos a mano. También fue más eficaz: Common Crawl incluye muchas más matemáticas que cualquier otro conjunto de datos matemáticos especializados disponible.

En cuanto al hardware, DeepSeek ha desarrollado nuevas formas de exprimir viejos chips. Esto permite entrenar modelos de alto nivel sin tener que desembolsar el último hardware del mercado. La mitad de su innovación procede de la ingeniería directa. "Sin duda, tienen muy buenos ingenieros de GPU en ese equipo", afirma Zeiler.

Nvidia dispone de un software llamado CUDA que los ingenieros utilizan para ajustar la configuración de sus chips. DeepSeek se saltó este código utilizando ensamblador, un lenguaje de programación que habla con el propio hardware, para ir mucho más allá de lo que Nvidia ofrece. "Esto es lo más complicado que se puede hacer para optimizar estas cosas. Se puede hacer, pero es tan difícil que nadie lo hace", observa Zeiler.

Las innovaciones de DeepSeek en distintos modelos son impresionantes. Sin embargo, la afirmación de la empresa de haber gastado menos de 6 millones de dólares en entrenar el modelo V3 no cuenta toda la historia. R1 y V3 se construyeron sobre una base tecnológica ya existente. “Puede que el último paso, el clic final del botón, les costara 6 millones de dólares, pero la investigación previa probablemente costó diez veces más, si no más”, señala Friedman. Además, en una entrada de blog, Dario Amodei, cofundador y CEO de Anthropic, sugirió que DeepSeek podría contar con chips por un valor cercano a los 1.000 millones de dólares. Su estimación se basa en informes que indican que la empresa utilizó unas 50.000 GPU Nvidia H100.

Un nuevo paradigma

Hay cientos de start-ups en todo el mundo intentando desarrollar la próxima gran innovación. Entonces, ¿por qué modelos de razonamiento como o1 y o3 de OpenAI, Gemini 2.0 Flash Thinking de Google DeepMind y ahora R1 han aparecido con solo semanas de diferencia?

La razón es que los modelos de base, como GPT-4o, Gemini 2.0 y V3, han alcanzado un nivel de calidad lo suficientemente alto como para permitirles desarrollar un comportamiento similar al razonamiento. “Lo que demuestra R1 es que, con un modelo base lo bastante sólido, el aprendizaje por refuerzo basta para dotar a un modelo lingüístico de capacidad de razonamiento sin necesidad de supervisión humana”, explica Lewis Tunstall, científico de Hugging Face.

En otras palabras: es posible que las principales empresas estadounidenses hayan descubierto cómo hacerlo, pero se lo estaban callando. "Parece que hay una forma inteligente de tomar el modelo base, el modelo preentrenado, y convertirlo en un modelo de razonamiento mucho más capaz. Hasta ahora no se conocía bien el procedimiento necesario para convertir un modelo preentrenado en un modelo de razonamiento. No era público", apunta Zeiler.

Lo que diferencia a R1 es que DeepSeek hizo público su proceso de desarrollo. "Y resulta que no es un proceso tan costoso. Lo difícil es conseguir ese modelo preentrenado en primer lugar", dice Zeiler. Como reveló Karpathy en Microsoft Build el año pasado, el preentrenamiento de un modelo representa el 99% del trabajo y la mayor parte del coste.

Si desarrollar modelos de razonamiento resulta ser más sencillo de lo que se creía, es probable que veamos una proliferación de modelos de código abierto mucho más avanzados que los actuales. Friedman opina que, con este conocimiento al descubierto, aumentará la colaboración entre las pequeñas empresas y esto podría reducir la ventaja de las grandes corporaciones. “Creo que este podría ser un momento decisivo”, afirma el experto.

Buscar en MIT Technology Review

Explorar Temas

Secciones

DeepSeek cambia las reglas del juego en IA y todos van a seguir su ejemplo

Etapas de formación

Mano de obra barata

Un enfoque común

Un nuevo paradigma

Etapas de formación

Mano de obra barata

Un enfoque común

Un nuevo paradigma