Skip to main content
¿Qué sigue para la IA china de código abierto?

El último año ha marcado un punto de inflexión para la IA china. Desde que DeepSeek lanzó su modelo de razonamiento R1 en enero de 2025, las empresas chinas han presentado repetidamente modelos de IA que igualan el rendimiento de los principales modelos occidentales a una fracción de su coste. 

A finales de enero, la empresa china Moonshot AI lanzó su último modelo de pesos abiertos, Kimi K2.5, que se acercó al rendimiento de sistemas propietarios de primer nivel como Claude Opus de Anthropic en algunos de los primeros benchmarks. La diferencia: K2.5 cuesta aproximadamente una séptima parte de lo que cuesta Opus. 

En Hugging Face, la familia Qwen de Alibaba, tras convertirse en la serie de modelos más descargada en 2025 y 2026, ha superado a los modelos Llama de Meta en descargas acumuladas. Y un estudio reciente del MIT concluyó que los modelos de código abierto (“open-source) chinos han superado a los estadounidenses en descargas totales. Para desarrolladores y creadores de todo el mundo, el acceso a capacidades de IA casi de frontera nunca había sido tan amplio ni tan asequible. 

Pero estos modelos difieren en un aspecto crucial de la mayoría de los modelos estadounidenses, como ChatGPT o Claude, a los que se accede mediante pago y que no permiten la inspección interna. Las empresas chinas publican los pesos de sus modelos (los valores numéricos que se establecen durante el entrenamiento), de modo que cualquiera puede descargarlos, ejecutarlos, estudiarlos y modificarlos. 

Si estos modelos de IA código abierto siguen mejorando, no solo ofrecerán las opciones más baratas para quienes quieran acceder a capacidades de IA de frontera; también cambiarán dónde ocurre la innovación y quién establece los estándares. 

Esto es lo que podría venir después.  

El compromiso de China con el código abierto continuará 

Cuando DeepSeek lanzó R1, gran parte del impacto inicial se centró en su procedencia. De repente, un equipo chino había presentado un modelo de razonamiento capaz de situarse junto a los mejores sistemas de los laboratorios estadounidenses. Pero la repercusión más duradera de DeepSeek tuvo menos que ver con la nacionalidad que con la forma de distribuciónR1 se publicó como un modelo de pesos abiertos bajo una permisiva licencia MIT, lo que permitía a cualquiera descargarlo, inspeccionarlo y desplegarlo. Además, DeepSeek también publicó un artículo detallando su proceso de entrenamiento y sus técnicas. Para los desarrolladores que acceden a los modelos mediante API, DeepSeek además recortó los precios de la competencia, ofreciendo acceso por una fracción del coste del o1 de OpenAI, el principal modelo propietario de razonamiento en ese momento. 

A los pocos días de su lanzamiento, DeepSeek sustituyó a ChatGPT como la aplicación gratuita más descargada en el App Store de EE UU. El fenómeno trascendió los círculos de desarrolladores y llegó a los mercados financieros, desencadenando una fuerte venta de acciones tecnológicas estadounidenses que borró temporalmente cerca de un billón de dólares (unos 846,6 millones de euros) de valor bursátil. Casi de la noche a la mañana, DeepSeek pasó de ser un equipo derivado poco conocido, respaldado por un fondo de inversión cuantitativo, a convertirse en el símbolo más visible del impulso chino por la IA de código abierto. 

La decisión de China de volcarse en el código abierto no resulta sorprendente. El país cuenta con la segunda mayor concentración de talento en IA del mundo, solo por detrás de EE UU, además de un vasto y bien financiado sector tecnológico. Tras la irrupción de ChatGPT en el ámbito generalista, el sector chino de la IA vivió un proceso de reflexión… y salió decidido a ponerse al día. Apostar por una estrategia de código abierto se consideró la vía más rápida para cerrar la brecha, ya que permitía reunir a los desarrolladores, difundir la adopción y establecer estándares. 

El éxito de DeepSeek insufló confianza en un sector acostumbrado durante mucho tiempo a seguir los estándares globales en lugar de establecerlos. “Hace treinta años, ningún chino habría creído que podía estar en el centro de la innovación global”, afirma Alex Chenglin Wu, director ejecutivo y fundador de Atoms, una empresa de agentes de IA y uno de los principales contribuyentes al ecosistema de código abierto en China. “DeepSeek demuestra que, con un talento técnico sólido, un entorno de apoyo y la cultura organizativa adecuada, es posible hacer un trabajo verdaderamente de clase mundial”. 

El momento de auge de DeepSeek no fue el primer éxito de China en el ámbito del código abierto. El laboratorio Qwen de Alibaba llevaba años publicando modelos de pesos abiertos. En septiembre de 2024, mucho antes del lanzamiento de V3 de DeepSeek, Alibaba ya afirmaba que las descargas globales habían superado los 600 millones. En Hugging Face, Qwen representó más del 30 % de todas las descargas de modelos en 2024. Otras instituciones, incluida la Academia de Inteligencia Artificial de Pekín y la empresa de IA Baichuan, también habían empezado a publicar modelos abiertos ya en 2023. 

Pero desde el éxito de DeepSeek, el campo se ha ampliado rápidamente. Empresas como Z.ai (antes Zhipu), MiniMax, Tencent y un número creciente de laboratorios más pequeños han lanzado modelos competitivos en tareas de razonamiento, programación y agentes. El aumento del número de modelos capaces ha acelerado el progreso. Capacidades que antes tardaban meses en llegar al mundo del código abierto ahora emergen en cuestión de semanas, incluso días. 

“Las empresas chinas de IA han obtenido beneficios reales del manual del código abierto”, afirma Liu Zhiyuan, profesor de informática en la Universidad de Tsinghua y director científico de la start-up ModelBest. “Al publicar investigación de alto nivel, ganan reputación y obtienen publicidad gratuita”. 

Más allá de los incentivos comerciales, Liu afirma que el código abierto ha adquirido un peso cultural y estratégico. “En la comunidad de programadores chinos, el código abierto se ha vuelto políticamente correcto”, asegura, enmarcándolo como una respuesta al dominio estadounidense en los sistemas de IA propietarios. 

Ese cambio también se refleja a nivel institucional. Universidades como Tsinghua han empezado a fomentar el desarrollo de IA y las contribuciones al código abierto, mientras que los responsables políticos han comenzado a formalizar esos incentivos. En agosto, el Consejo de Estado de China publicó un borrador de política que animaba a las universidades a recompensar el trabajo en código abierto, proponiendo que las contribuciones de los estudiantes en plataformas como GitHub o Gitee puedan eventualmente contar como créditos académicos. 

Con un impulso creciente y un bucle de retroalimentación reforzado, es probable que la apuesta china por los modelos de código abierto continúe a corto plazo, aunque su sostenibilidad a largo plazo sigue dependiendo de los resultados financieros, afirma Tiezhen Wang, que ayuda a dirigir el trabajo sobre IA global en Hugging Face. En enero, los laboratorios Z.ai y MiniMax salieron a bolsa en Hong Kong. “Ahora mismo, el foco está en hacer la tarta más grande”, dice Wang. “El siguiente desafío es averiguar cómo asegura cada empresa su porción”. 

La próxima generación de modelos será más estrecha y mejor 

Los modelos chinos de código abierto no solo lideran en volumen de descargas, sino también en variedad. Qwen, de Alibaba, se ha convertido en una de las familias de modelos abiertos más diversificadas en circulación, ofreciendo una amplia gama de variantes optimizadas para diferentes usos. Su catálogo abarca desde modelos ligeros que pueden ejecutarse en un solo portátil hasta grandes sistemas de cientos de miles de millones de parámetros diseñados para centros de datos. Qwen incluye numerosas variantes optimizadas para tareas específicas creadas por la comunidad: los modelos instruct son buenos siguiendo instrucciones, y las variantes code se especializan en programación. 

Aunque esta estrategia no es exclusiva de los laboratorios chinos, Qwen fue la primera familia abierta en ofrecer tantas opciones de alta calidad que empezó a parecer una línea de productos completa… y gratuita. 

La naturaleza de pesos abiertos de estos lanzamientos también facilita que otros los adapten mediante técnicas como el fine-tuning y la destilación, que consiste en entrenar un modelo más pequeño para imitar a uno más grande. Según ATOM (American Truly Open Models), un proyecto del investigador Nathan Lambert, para el 4 de agosto de 2025 las variaciones derivadas de Qwen representaban “más del 40 %” de los nuevos derivados de modelos de lenguaje en Hugging Face, mientras que Llama había caído alrededor del 15 %. Esto significa que Qwen se ha convertido en el modelo base predeterminado para todos los “remixes”. 

Este patrón ha reforzado la apuesta por modelos más pequeños y especializados. “El cómputo y la energía son restricciones reales para cualquier despliegue”, afirma Liu. Explicó a MIT Technology Review que el auge de los modelos pequeños tiene que ver con hacer la IA más barata de ejecutar y más accesible para más usuarios. Su empresa, ModelBest, se centra en modelos de lenguaje pequeños diseñados para ejecutarse localmente en dispositivos como teléfonos, coches y otros dispositivos de consumo. 

Aunque un usuario medio puede interactuar con la IA solo a través de la web o una aplicación para conversaciones simples, los usuarios avanzados de modelos de IA con cierto bagaje técnico están experimentando con dar más autonomía a la IA para resolver problemas a gran escala. OpenClaw, un agente de IA de código abierto que se volvió viral recientemente dentro del mundo hacker de la IA, permite que la IA tome el control de tu ordenador: puede funcionar 24/7, revisando tus correos y tareas laborales sin supervisión. 

OpenClaw, al igual que muchas otras herramientas de código abierto, permite a los usuarios conectarse a distintos modelos de IA mediante una interfaz de programación de aplicaciones, o API. A los pocos días del lanzamiento de OpenClaw, el equipo reveló que Kimi K2.5 había superado a Claude Opus y se había convertido en el modelo de IA más utilizado por recuento de tokens, es decir, por la cantidad total de texto procesado entre las indicaciones de los usuarios y las respuestas del modelo. 

El coste ha sido una de las principales razones por las que los modelos chinos han ganado tracción, pero sería un error tratarlos como simples “copias” de los sistemas occidentales de frontera, sugiere Wang. Como ocurre con cualquier producto, un modelo solo necesita ser lo suficientemente bueno para la tarea en cuestión. 

El panorama de modelos de código abierto en China también se está volviendo más especializado. Grupos de investigación como Shanghai AI Laboratory han publicado modelos orientados a tareas científicas y técnicas; varios proyectos de Tencent se han centrado específicamente en la generación musical. Ubiquant, una firma de finanzas cuantitativas similar a High-Flyer, la matriz de DeepSeek, ha publicado un modelo abierto orientado al razonamiento médico. 

Mientras tanto, las ideas arquitectónicas innovadoras de los laboratorios chinos están siendo adoptadas de manera más amplia. DeepSeek ha publicado trabajos que exploran la eficiencia y la memoria del modelo; técnicas que comprimen la “memoria caché” de atención del modelo, reduciendo los costes de memoria e inferencia mientras conservan en gran medida el rendimiento, han atraído una atención significativa en la comunidad investigadora. 

El impacto de estos avances científicos se amplifica porque son de código abierto y pueden adoptarse rápidamente en todo el sector”, afirma Wang. 

Los modelos abiertos chinos se convertirán en infraestructura para los creadores de IA a nivel mundial 

La adopción de modelos chinos también está aumentando en Silicon Valley (California, EE UU). Martin Casado, socio general de Andreessen Horowitz, ha puesto cifras a este fenómeno: según una publicación en X, entre las start-ups que presentan soluciones basadas en código abierto, hay aproximadamente un 80 % de probabilidades de que estén ejecutándose sobre modelos chinos abiertos. Los datos de uso cuentan una historia similar. OpenRouter, un intermediario que rastrea cómo se utilizan distintos modelos de IA a través de su API, muestra que los modelos chinos han pasado de representar casi cero a finales de 2024 a casi el 30 % del uso en algunas semanas recientes. 

La demanda también está aumentando a nivel global. Z.ai limitó las nuevas suscripciones a su plan de codificación GLM (una herramienta de programación basada en sus modelos GLM insignia) tras un aumento inesperado de la demanda, citando limitaciones de cómputo. Lo notable es de dónde proviene esa demanda: CNBC informa de que la base de usuarios del sistema se concentra principalmente en Estados Unidos y China, seguidos de India, Japón, Brasil y el Reino Unido. 

“Los ecosistemas de código abierto en China y EE UU están estrechamente interconectados”, afirma Wang de Hugging Face. Muchos modelos chinos abiertos siguen dependiendo de Nvidia y de plataformas en la nube estadounidenses para entrenarse y ejecutarse, lo que mantiene los lazos comerciales entrelazados. El talento también es fluido: los investigadores se mueven entre países y empresas, y muchos siguen operando como una comunidad global, compartiendo código e ideas públicamente. 

Esa interdependencia forma parte de lo que hace que los desarrolladores chinos se sientan optimistas en este momento: el trabajo viaja, se remezcla y acaba apareciendo en productos. Pero la apertura también puede acelerar la competencia. Dario Amodei, director ejecutivo de Anthropic, expresó una versión de esta idea tras los lanzamientos de DeepSeek en 2025: escribió que los controles de exportación “no son una vía para esquivar la competencia” entre EE UU y China, y que las empresas estadounidenses de IA “deben tener mejores modelos” si quieren prevalecer. 

Durante la última década, la historia de la tecnología china en Occidente ha sido una de grandes expectativas que chocaron con el escrutinio, las restricciones y las reacciones políticas. Esta vez, la exportación no es solo una aplicación o una plataforma de consumo. Es la capa de modelos base sobre la que otros construyen. Si esta vez el resultado será distinto sigue siendo una cuestión abierta.