DeepSeek iguala el rendimiento de ChatGPT o1 y es la muestra de cómo las restricciones se pueden transformar en innovación
La comunidad de inteligencia artificial está entusiasmada con DeepSeek R1, un nuevo modelo de razonamiento de código abierto.
La empresa china DeepSeek ha desarrollado este modelo y asegura que iguala, e incluso supera, a ChatGPT o1 de OpenAI en varias pruebas clave, pero a un coste mucho menor.
"Este avance podría equilibrar la balanza y beneficiar a investigadores y desarrolladores con recursos limitados, sobre todo a los del sur global", asegura Hancheng Cao, profesor adjunto de sistemas de información en la Universidad de Emory (EE UU).
El éxito de DeepSeek resulta aún más llamativo si se tienen en cuenta las restricciones que enfrentan las empresas chinas de IA debido a los controles, por parte de Estados Unidos, sobre la exportación de chips avanzados. Sin embargo, los primeros indicios sugieren que estas medidas no están logrando su objetivo. En lugar de frenar las capacidades de IA en China, las sanciones parecen estar impulsando a empresas emergentes como DeepSeek a centrarse en la eficiencia, compartir recursos y fomentar la colaboración.
Para crear R1, DeepSeek tuvo que ajustar su proceso de entrenamiento para reducir la carga de sus GPU. El motivo, según Zihan Wang, antiguo empleado de DeepSeek y estudiante de doctorado en informática en la Universidad Northwestern (EE UU), es que utilizaban un modelo de Nvidia para el mercado chino cuyo rendimiento está limitado a la mitad de sus productos de gama alta.
DeepSeek R1 ha sido elogiado por los investigadores por su capacidad para abordar tareas de razonamiento complejas, especialmente en matemáticas y programación. El modelo utiliza una "cadena de pensamiento" similar a la de ChatGPT o1, que le permite resolver problemas analizando las consultas paso a paso.
Dimitris Papailiopoulos, investigador principal del laboratorio AI Frontiers de Microsoft, destaca que lo que más le sorprendió de R1 fue la simplicidad de su diseño. "DeepSeek se centra en obtener respuestas precisas en lugar de detallar cada paso lógico. Esto reduce significativamente el tiempo de computación sin sacrificar la eficacia", observa el experto.
DeepSeek también ha lanzado seis versiones más pequeñas de R1. Son lo suficientemente compactas como para ejecutarse de manera local en ordenadores portátiles. La compañía afirma que una de ellas incluso supera a la o1-mini de OpenAI en ciertos parámetros. "DeepSeek ha replicado en gran medida a o1-mini y lo ha transformado en código abierto", tuiteó Aravind Srinivas, consejero delegado de Perplexity. DeepSeek no ha respondido a la petición de comentarios realizada por MIT Technology Review.
A pesar de los rumores sobre R1, DeepSeek sigue siendo una empresa relativamente desconocida. Con sede en Hangzhou (China), fue fundada en julio de 2023 por Liang Wenfeng, antiguo alumno de la Universidad de Zhejiang con formación en ingeniería informática y electrónica. La empresa fue soportada por High-Flyer, un fondo de cobertura que Liang creó en 2015. Al igual que Sam Altman, de OpenAI, el fundador chino tiene la ambición de desarrollar inteligencia artificial general (IAG), una IA capaz de igualar o incluso superar a los humanos en una amplia variedad de tareas.
La creación de grandes modelos lingüísticos (LLM) necesita un equipo de investigadores muy cualificados y una gran capacidad de cálculo. En una entrevista reciente con el medio chino LatePost, Kai-Fu Lee, veterano empresario y exdirector de Google China, explicó que solo los "grandes jugadores" suelen dedicarse a desarrollar modelos como ChatGPT porque es algo que exige muchos recursos.
La situación se complica aún más por los controles estadounidenses a la exportación de semiconductores avanzados. No obstante, la decisión de High-Flyer de entrar en el sector de la IA está vinculada a estas restricciones. Antes de que se produjeran, Liang consiguió una gran reserva de chips que en la actualidad tienen prohibido su envío a china: los Nvidia A100. El medio chino 36Kr estima que la empresa tiene más de 10.000 unidades, mientras que, según Dylan Patel, fundador de la consultora de investigación en IA SemiAnalysis, la cifra real supera las 50.000. Liang identificó el potencial de estas unidades para el entrenamiento de IA con menor potencia, y fue esto precisamente lo que le llevó a fundar DeepSeek
Un nuevo chico ha llegado al barrio
Gigantes tecnológicos como Alibaba y ByteDance, junto con varias empresas emergentes respaldadas por inversores de gran capital, dominan el sector de la IA en China. Esta situación dificulta la competencia para las pequeñas y medianas empresas. En este contexto, una empresa como DeepSeek, que no tiene planes de recaudar fondos, resulta bastante inusual.
Zihan Wang, antiguo empleado de DeepSeek, declaró a MIT Technology Review que durante su tiempo en la empresa tuvo libertad para experimentar y acceder a una gran cantidad de recursos informáticos. "Un lujo que pocos recién licenciados tendrían en otra compañía", asegura.
En una entrevista con el medio chino 36Kr publicada en julio de 2024, Liang afirmó que, además de las sanciones a los chips, las empresas chinas enfrentan otro desafío: sus técnicas de ingeniería de IA suelen ser menos eficientes. "Nosotros [la mayoría de las empresas chinas] necesitamos el doble de potencia de cálculo para lograr los mismos resultados. Esto, sumado a la falta de eficiencia de los datos, provoca que necesitemos hasta cuatro veces más potencia de cálculo. Nuestro objetivo es reducir estas brechas", explicó.
DeepSeek encontró formas de reducir el uso de memoria y acelerar el cálculo sin comprometer la precisión. "Al equipo le encanta convertir un reto de hardware en una oportunidad para innovar", afirma Wang.
El propio Liang sigue muy involucrado en el proceso de investigación de DeepSeek y continúa realizando experimentos junto a su equipo. "Todo el equipo comparte una cultura de colaboración y un compromiso con la investigación profunda", afirma el informático.
Abierto a todos
Además de priorizar la eficiencia, las empresas chinas están adoptando cada vez más los principios del código abierto. Alibaba Cloud ha lanzado más de 100 nuevos modelos de IA de código abierto, compatibles con 29 idiomas y orientados a diversas aplicaciones, como la programación y las matemáticas. De manera similar, start-ups como Minimax y 01.AI han publicado sus modelos bajo licencia de código abierto.
El número de grandes modelos lingüísticos de IA en todo el mundo ha alcanzado los 1.328 y 36% de ellos proceden de China, según un libro blanco publicado en 2024 por la Academia China de Tecnología de la Información y las Comunicaciones, un instituto de investigación estatal. Esto posiciona a China como el segundo país líder en el desarrollo de IA, solo detrás de Estados Unidos.
"Esta generación de jóvenes investigadores chinos se siente muy identificada con la cultura del código abierto porque les aporta grandes beneficios", afirma Thomas Qitong Cao, profesor adjunto de Política Tecnológica en la Universidad de Tufts (EE UU). "El control estadounidense sobre las exportaciones ha puesto en una situación difícil a las empresas chinas, que deben ser mucho más eficientes con sus recursos informáticos limitados. Debido a ello, es probable que en el futuro veamos una mayor concentración de empresas", observa Matt Sheehan, investigador sobre IA de la Fundación Carnegie para la Paz Internacional.
Es posible que este proceso ya haya comenzado. Hace dos semanas, Alibaba Cloud anunció una asociación con la start-up 01.AI, con sede en Pekín y fundada por Kai-Fu Lee, para fusionar sus equipos de investigación y crear un "laboratorio industrial de grandes modelos".
"Desde el punto de vista energético, es natural y eficiente que surja algún tipo de división del trabajo en la industria de la IA. La rápida evolución de la IA exige que las empresas chinas se adapten con agilidad para sobrevivir", afirma Thomas Qitong.