La firma china ha desvelado cómo los laboratorios más importantes podrían estar construyendo sus modelos de próxima generación. Ahora las cosas se ponen interesantes.
Únase a nosotros el lunes 3 de febrero mientras nuestros editores analizan qué significa el gran éxito de DeepSeek para la IA y la industria tecnológica en general. Regístrese hoy para esta sesión especial exclusiva para suscriptores.
Cuando la firma china DeepSeek lanzó un gran modelo de lenguaje llamado R1 la semana pasada, causó conmoción en la industria tecnológica estadounidense . R1 no solo igualó a lo mejor de la competencia local, sino que se creó por una fracción del costo y se entregó de forma gratuita.
El mercado de valores de Estados Unidos perdió un billón de dólares, el presidente Trump lo calificó como una llamada de atención y el entusiasmo se intensificó una vez más. “DeepSeek R1 es uno de los avances más sorprendentes e impresionantes que he visto y, como código abierto, un gran regalo para el mundo”, publicó en X el inversor principal de Silicon Valley, Marc Andreessen.
Pero las innovaciones de DeepSeek no son las únicas ventajas de este estudio. Al publicar detalles sobre cómo se construyeron el R1 y un modelo anterior llamado V3 y al lanzar los modelos de forma gratuita, DeepSeek ha desvelado que los modelos de razonamiento son mucho más fáciles de construir de lo que la gente pensaba. La empresa ha cerrado la brecha con los mejores laboratorios del mundo.
La noticia puso en marcha a los competidores de todo el mundo. Esta semana, el gigante tecnológico chino Alibaba anunció una nueva versión de su gran modelo de lenguaje Qwen y el Instituto Allen para IA (AI2), un importante laboratorio estadounidense sin fines de lucro, anunció una actualización de su gran modelo de lenguaje Tulu . Ambos afirman que sus últimos modelos superan al equivalente de DeepSeek.
Sam Altman, cofundador y director ejecutivo de OpenAI, dijo que R1 era impresionante (por el precio), pero contraatacó con una promesa optimista : "Obviamente, ofreceremos modelos mucho mejores". OpenAI luego lanzó ChatGPT Gov , una versión de su chatbot adaptada a las necesidades de seguridad de las agencias gubernamentales de EE. UU., en un aparente guiño a las preocupaciones de que la aplicación de DeepSeek estaba enviando datos a China. Hay más por venir.
DeepSeek se ha convertido de repente en la empresa a vencer. ¿Qué hizo exactamente para sacudir tanto al mundo de la tecnología? ¿Está justificado el revuelo? ¿Y qué podemos aprender de los rumores sobre lo que está por venir? Esto es lo que necesitas saber.
Pasos de entrenamiento
Empecemos por analizar cómo se entrenan los modelos de lenguaje de gran tamaño. Hay dos etapas principales, conocidas como preentrenamiento y postentrenamiento. El preentrenamiento es la etapa de la que más habla la gente. En este proceso, miles de millones de documentos (enormes cantidades de sitios web, libros, repositorios de código, etc.) se introducen en una red neuronal una y otra vez hasta que aprende a generar texto que se parece a su material de origen, palabra por palabra. Lo que se obtiene se conoce como modelo base.
La mayor parte del trabajo se realiza durante el preentrenamiento, que puede costar enormes cantidades de dinero. Pero, como señaló Andrej Karpathy, cofundador de OpenAI y exdirector de IA en Tesla, en una charla en Microsoft Build el año pasado: “Los modelos base no son asistentes. Solo quieren completar documentos de Internet”.
Para convertir un modelo de lenguaje grande en una herramienta útil se requieren varios pasos adicionales. Esta es la etapa posterior al entrenamiento, donde el modelo aprende a realizar tareas específicas, como responder preguntas (o responder preguntas paso a paso, como en el caso de o3 de OpenAI y R1 de DeepSeek). La forma en que se ha hecho esto durante los últimos años es tomar un modelo base y entrenarlo para imitar ejemplos de pares de preguntas y respuestas proporcionados por ejércitos de evaluadores humanos. Este paso se conoce como ajuste fino supervisado.
OpenAI fue pionero en otro paso, en el que las respuestas de muestra del modelo se califican (de nuevo por evaluadores humanos) y esas puntuaciones se utilizan para entrenar al modelo para que produzca respuestas futuras más parecidas a las que obtienen una buena puntuación y menos parecidas a las que no. Esta técnica, conocida como aprendizaje de refuerzo con retroalimentación humana (RLHF), es lo que hace que los chatbots como ChatGPT sean tan ingeniosos. El RLHF se utiliza ahora en toda la industria.
Pero esos pasos posteriores al entrenamiento llevan tiempo. Lo que DeepSeek ha demostrado es que se pueden obtener los mismos resultados sin necesidad de recurrir a personas, al menos la mayor parte del tiempo. DeepSeek reemplaza el ajuste fino supervisado y el aprendizaje por refuerzo con un paso de aprendizaje por refuerzo totalmente automatizado. En lugar de utilizar la retroalimentación humana para dirigir sus modelos, la empresa utiliza puntuaciones de retroalimentación producidas por una computadora.
“Omitir o reducir la retroalimentación humana es algo muy importante”, afirma Itamar Friedman, exdirector de investigación de Alibaba y ahora cofundador y director ejecutivo de Qodo, una startup de codificación de IA con sede en Israel. “Se entrenan modelos casi por completo sin que los humanos tengan que hacer el trabajo”.
Mano de obra barata
La desventaja de este enfoque es que las computadoras son buenas para puntuar respuestas a preguntas sobre matemáticas y programación, pero no muy buenas para puntuar respuestas a preguntas abiertas o más subjetivas. Es por eso que R1 se desempeña especialmente bien en pruebas de matemáticas y programación. Para entrenar a sus modelos para que respondan una gama más amplia de preguntas no matemáticas o realicen tareas creativas, DeepSeek aún tiene que pedirle a la gente que brinde la retroalimentación.
Pero incluso eso es más barato en China. “En comparación con los mercados occidentales, el costo de crear datos de alta calidad es menor en China y hay un grupo más grande de talentos con títulos universitarios en matemáticas, programación o ingeniería”, dice Si Chen, vicepresidente de la firma australiana de inteligencia artificial Appen y exjefe de estrategia tanto en Amazon Web Services China como en el gigante tecnológico chino Tencent.
DeepSeek utilizó este enfoque para crear un modelo base, llamado V3, que rivaliza con el modelo insignia de OpenAI, GPT-4o. La empresa lanzó la V3 hace un mes. La R1 de la semana pasada, el nuevo modelo que coincide con el o1 de OpenAI, se construyó sobre la V3.
Para crear R1, DeepSeek tomó V3 y ejecutó su ciclo de aprendizaje de refuerzo una y otra vez. En 2016, Google DeepMind demostró que este tipo de enfoque automatizado de prueba y error, sin intervención humana, podía tomar un modelo de juego de mesa que hacía movimientos aleatorios y entrenarlo para vencer a los grandes maestros. DeepSeek hace algo similar con modelos de lenguaje grandes: las respuestas potenciales se tratan como posibles movimientos en un juego.
Para empezar, el modelo no generaba respuestas que funcionaran paso a paso en una pregunta, como quería DeepSeek, sino que, al puntuar automáticamente las respuestas de muestra del modelo, el proceso de entrenamiento lo fue impulsando poco a poco hacia el comportamiento deseado.
Finalmente, DeepSeek produjo un modelo que tuvo un buen desempeño en una serie de pruebas comparativas, pero este modelo, llamado R1-Zero, arrojaba respuestas que eran difíciles de leer y estaban escritas en una mezcla de varios idiomas. Para darle un último retoque, DeepSeek sembró el proceso de aprendizaje por refuerzo con un pequeño conjunto de datos de respuestas de ejemplo proporcionadas por personas. Al entrenar a R1-Zero con esas respuestas, se obtuvo el modelo que DeepSeek denominó R1.
Pero hay más. Para que el uso del aprendizaje por refuerzo sea lo más eficiente posible, DeepSeek también ha desarrollado un nuevo algoritmo llamado Group Relative Policy Optimization (GRPO). La primera vez que utilizó GRPO fue hace un año para crear un modelo llamado DeepSeekMath.
Nos saltearemos los detalles : solo necesitas saber que el aprendizaje de refuerzo implica calcular una puntuación para determinar si un movimiento potencial es bueno o malo. Muchas técnicas de aprendizaje de refuerzo existentes requieren un modelo completamente separado para realizar este cálculo. En el caso de modelos de lenguaje grandes, eso significa un segundo modelo que podría ser tan costoso de construir y ejecutar como el primero. En lugar de usar un segundo modelo para predecir una puntuación, GRPO simplemente hace una suposición fundamentada. Es barata, pero aún lo suficientemente precisa para funcionar.
Un enfoque común
El uso del aprendizaje por refuerzo por parte de DeepSeek es la principal innovación que la empresa describe en su artículo sobre R1. Pero DeepSeek no es la única empresa que experimenta con esta técnica. Dos semanas antes de que se lanzara R1, un equipo de Microsoft Asia anunció un modelo llamado rStar-Math, que se entrenó de forma similar. "Tiene avances igualmente enormes en rendimiento", afirma Matt Zeiler, fundador y director ejecutivo de la empresa de inteligencia artificial Clarifai.
El Tulu de AI2 también se construyó utilizando técnicas eficientes de aprendizaje por refuerzo (pero además de, no en lugar de, pasos dirigidos por humanos como el ajuste fino supervisado y RLHF). Y la firma estadounidense Hugging Face está compitiendo para replicar R1 con OpenR1, un clon del modelo de DeepSeek que Hugging Face espera que exponga aún más los ingredientes de la salsa especial de R1.
Es más, es un secreto a voces que empresas de primer nivel como OpenAI, Google DeepMind y Anthropic pueden estar utilizando ya sus propias versiones del enfoque de DeepSeek para entrenar a su nueva generación de modelos. “Estoy seguro de que están haciendo casi exactamente lo mismo, pero tendrán su propia versión”, dice Zeiler.
Pero DeepSeek tiene más de un as bajo la manga. Entrenó a su modelo base V3 para hacer algo llamado predicción de múltiples tokens, donde el modelo aprende a predecir una cadena de palabras a la vez en lugar de una a la vez. Este entrenamiento es más económico y resulta que también mejora la precisión. "Si piensas en cómo hablas, cuando estás a mitad de una oración, sabes cómo será el resto de la oración", dice Zeiler. "Estos modelos también deberían ser capaces de eso".
También ha encontrado formas más económicas de crear grandes conjuntos de datos. Para entrenar el modelo del año pasado, DeepSeekMath, tomó un conjunto de datos gratuito llamado Common Crawl (una enorme cantidad de documentos extraídos de Internet) y utilizó un proceso automatizado para extraer solo los documentos que incluían problemas matemáticos. Esto fue mucho más económico que crear un nuevo conjunto de datos de problemas matemáticos a mano. También fue más efectivo: Common Crawl incluye mucha más matemática que cualquier otro conjunto de datos matemáticos especializado que esté disponible.
En cuanto al hardware, DeepSeek ha encontrado nuevas formas de aprovechar al máximo los chips antiguos, lo que le permite entrenar modelos de primer nivel sin tener que pagar por el hardware más reciente del mercado. La mitad de su innovación proviene de la ingeniería pura, dice Zeiler: "Definitivamente tienen ingenieros de GPU realmente buenos en ese equipo".
Nvidia ofrece un software llamado CUDA que los ingenieros utilizan para modificar la configuración de sus chips. Pero DeepSeek eludió este código utilizando ensamblador, un lenguaje de programación que se comunica con el propio hardware, para ir mucho más allá de lo que Nvidia ofrece de fábrica. "Es lo más difícil que se puede hacer para optimizar estas cosas", dice Zeiler. "Se puede hacer, pero básicamente es tan difícil que nadie lo hace".
La serie de innovaciones de DeepSeek en múltiples modelos es impresionante, pero también demuestra que la afirmación de la empresa de haber gastado menos de 6 millones de dólares en entrenar a V3 no es toda la historia. R1 y V3 se construyeron sobre una pila de tecnología existente. “Tal vez el último paso, el último clic del botón, les costó 6 millones de dólares, pero la investigación que condujo a eso probablemente costó 10 veces más, si no más”, dice Friedman. Y en una publicación de blog que acabó con gran parte del bombo publicitario, el cofundador y director ejecutivo de Anthropic, Dario Amodei, señaló que DeepSeek probablemente tiene alrededor de 1.000 millones de dólares en chips, una estimación basada en informes de que la empresa de hecho utilizó 50.000 GPU Nvidia H100 .
Un nuevo paradigma
Pero, ¿por qué ahora? Hay cientos de empresas emergentes en todo el mundo que intentan crear el próximo gran invento. ¿Por qué hemos visto aparecer una serie de modelos de razonamiento como el o1 y el o3 de OpenAI, el Gemini 2.0 Flash Thinking de Google DeepMind y ahora el R1 con pocas semanas de diferencia?
La respuesta es que los modelos base (GPT-4o, Gemini 2.0, V3) son ahora lo suficientemente buenos como para que se pueda extraer de ellos un comportamiento similar al del razonamiento. “Lo que demuestra R1 es que con un modelo base lo suficientemente fuerte, el aprendizaje por refuerzo es suficiente para extraer razonamiento de un modelo de lenguaje sin ninguna supervisión humana”, afirma Lewis Tunstall, científico de Hugging Face.
En otras palabras, las principales empresas estadounidenses pueden haber descubierto cómo hacerlo, pero no lo han dicho. “Parece que hay una forma inteligente de tomar el modelo base, el modelo preentrenado, y convertirlo en un modelo de razonamiento mucho más capaz”, dice Zeiler. “Y hasta este punto, el procedimiento que se requería para convertir un modelo preentrenado en un modelo de razonamiento no era muy conocido. No era público”.
Lo que diferencia a R1 es que DeepSeek publicó cómo lo hicieron. “Y resulta que no es un proceso tan costoso”, dice Zeiler. “Lo difícil es conseguir ese modelo preentrenado en primer lugar”. Como reveló Karpathy en Microsoft Build el año pasado, el preentrenamiento de un modelo representa el 99 % del trabajo y la mayor parte del costo.
Si la creación de modelos de razonamiento no es tan difícil como se pensaba, podemos esperar una proliferación de modelos gratuitos mucho más capaces que los que hemos visto hasta ahora. Con el conocimiento técnico al alcance de todos, cree Friedman, habrá más colaboración entre las pequeñas empresas, lo que reducirá la ventaja que han disfrutado las empresas más grandes. "Creo que este podría ser un momento monumental", afirma.