Skip to main content
Los LLM contienen MUCHOS parámetros. ¿Pero qué es un parámetro?

Estoy escribiendo esto porque uno de mis editores se despertó en mitad de la noche y garabateó en un bloc junto a la cama: “¿Qué es un parámetro?”
A diferencia de muchas ideas que surgen a las 4 de la mañana, es una muy buena pregunta; una que va directa al corazón de cómo funcionan los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés). Y no lo digo solo porque sea mi jefe. (¡Hola, jefe!) 

Los parámetros de un LLM suelen describirse como los mandos y palancas que controlan su comportamiento. Imagina una máquina de pinball del tamaño de un planeta que envía sus bolas rebotando de un extremo a otro a través de miles de millones de paletas y obstáculos colocados estratégicamente. Ajusta esas configuraciones y las bolas se comportarán de otra manera. 

GPT‑3 de OpenAI, lanzado en 2020, tenía 175.000 millones de parámetros. El último LLM de Google DeepMind, Gemini 3, puede tener al menos un billón de parámetros (algunos creen que la cifra se acerca más a 7 billones) pero la empresa no lo confirma. (Con una competencia tan feroz, las compañías de IA ya no comparten información sobre cómo están construidos sus modelos). 

Pero lo fundamental sobre qué son los parámetros y cómo hacen que los LLM realicen cosas tan sorprendentes es lo mismo en todos los modelos. ¿Alguna vez te has preguntado qué hace que un LLM funcione de verdad, qué hay detrás de esas coloridas metáforas de máquinas de pinball? Vamos a sumergirnos en ello. 

¿Qué es un parámetro? 

Piensa en el álgebra del colegio, como 2a + b. Esas letras son parámetros: asígnales valores y obtienes un resultado. En matemáticas o programación, los parámetros se usan para establecer límites o determinar la salida. Los parámetros dentro de los LLM funcionan de manera similar, solo que a una escala que desafía la imaginación. 

¿Cómo se les asignan sus valores? 

Respuesta breve: un algoritmo. Cuando se entrena un modelo, cada parámetro se inicializa con un valor aleatorio. El proceso de entrenamiento consiste entonces en una serie iterativa de cálculos (los llamados pasos de entrenamiento) que actualizan esos valores. En las primeras etapas del entrenamiento, el modelo comete errores. El algoritmo de entrenamiento analiza cada error y recorre el modelo hacia atrás, ajustando el valor de cada uno de sus numerosos parámetros para que, la próxima vez, ese error sea menor. Esto ocurre una y otra vez hasta que el modelo se comporta de la forma deseada por sus creadores. En ese punto, el entrenamiento se detiene y los valores de los parámetros quedan fijados. 

Suena sencillo… 

¡En teoría! En la práctica, como los LLM se entrenan con tantísimos datos y contienen tantísimos parámetros, entrenarlos requiere una cantidad enorme de pasos y una descomunal capacidad computacional. Durante el entrenamiento, los 175.000 millones de parámetros dentro de un LLM de tamaño medio como GPT‑3 pueden actualizarse decenas de miles de veces cada uno. En total, eso suma cuatrillones (un número con 15 ceros) de cálculos individuales. Por eso el entrenamiento de un LLM consume tanta energía: estamos hablando de miles de ordenadores especializados de alta velocidad funcionando sin parar durante meses. 

Uf. ¿Para qué sirven exactamente todos estos parámetros? 

Dentro de un LLM hay tres tipos distintos de parámetros cuyos valores se asignan durante el entrenamiento: embeddingspesos y sesgos. Veámoslos uno por uno. 

¡Vale! Entonces, ¿qué son los embeddings? 

Un embedding es la representación matemática de una palabra (o parte de una palabra, lo que se conoce como token) en el vocabulario de un LLM. El vocabulario de un LLM, que puede incluir hasta varios cientos de miles de tokens únicos, queda definido por sus diseñadores antes de empezar el entrenamiento. Pero en ese punto no hay significado asociado a esas palabras. Eso llega después, durante el entrenamiento. 

Cuando se entrena un modelo, a cada palabra de su vocabulario se le asigna un valor numérico que captura el significado de esa palabra en relación con todas las demás, basándose en cómo aparece en incontables ejemplos dentro de los datos de entrenamiento. 

¿Entonces cada palabra se sustituye por una especie de código? 

Sí. Pero hay un poco más detrás. El valor numérico (el embedding) que representa cada palabra es en realidad una lista de números, donde cada número de la lista representa un rasgo distinto de significado que el modelo ha extraído de sus datos de entrenamiento. La longitud de esta lista es otra decisión que los diseñadores de LLM pueden fijar antes del entrenamiento. Un tamaño habitual es 4.096. 

¿Cada palabra dentro de un LLM está representada por una lista de 4.096 números? 

Exacto, eso es un embedding. Y cada uno de esos números se ajusta durante el entrenamiento. Un LLM cuyos embeddings tienen 4.096 números se dice que tiene 4.096 dimensiones. 

¿Por qué 4.096? 

Puede parecer un número extraño. Pero los LLM (como cualquier cosa que se ejecuta en un chip informático) funcionan mejor con potencias de dos: 2, 4, 8, 16, 32, 64, etc. Los ingenieros de LLM han descubierto que 4.096 es una potencia de dos que logra un equilibrio óptimo entre capacidad y eficiencia. Los modelos con menos dimensiones son menos capaces; los modelos con más dimensiones son demasiado costosos o lentos de entrenar y ejecutar. 

Usar más números permite al LLM capturar información muy fina sobre cómo se usa una palabra en distintos contextos, qué connotaciones sutiles tiene, cómo se relaciona con otras palabras, y mucho más. 

En febrero, OpenAI lanzó GPT‑4.5, el LLM más grande de la empresa hasta ahora (algunas estimaciones sitúan su número de parámetros en más de 10 billones). Nick Ryder, científico de investigación de OpenAI que trabajó en el modelo, me dijo en ese momento que los modelos más grandes pueden trabajar con información adicional, como matices emocionales, tal como cuando las palabras de un hablante transmiten hostilidad: “Todos estos patrones sutiles que aparecen en una conversación humana, son los elementos que los modelos más y más grandes captarán”. 

En definitiva, todas las palabras dentro de un LLM se codifican en un espacio de alta dimensión. Imagina miles de palabras flotando en el aire a tu alrededor. Las palabras que están más cerca entre sí tienen significados similares. Por ejemplo: “mesa” y “silla” estarán más cerca entre sí que de “astronauta”, que a su vez se sitúa cerca de “luna” y “Musk”. Y muy lejos, casi desaparecida en la distancia, puedes ver “prestidigitación”. Es algo así, solo que en lugar de estar relacionadas en tres dimensiones, las palabras dentro de un LLM se relacionan en 4.096 dimensiones. 

Uf. 

Es un tema que marea. En esencia, un LLM comprime todo Internet en una única estructura matemática monumental que codifica una cantidad inconcebible de información interconectada. Eso explica tanto por qué los LLM pueden hacer cosas asombrosas como por qué es imposible comprenderlos por completo. 

Bien. Esos son los embeddings. ¿Y qué pasa con los pesos? 

Un peso es un parámetro que representa la fuerza de una conexión entre distintas partes de un modelo; y es uno de los tipos de “mandos” más comunes para ajustar su comportamiento. Los pesos se utilizan cuando un LLM procesa texto. 

Cuando un LLM lee una frase (o un capítulo de un libro), primero consulta los embeddings de todas las palabras y luego pasa esos embeddings por una serie de redes neuronales conocidas como transformers, diseñadas para procesar secuencias de datos (como el texto) de forma simultánea. Cada palabra de la frase se procesa en relación con todas las demás. 

Aquí es donde entran en juego los pesos. Un embedding representa el significado de una palabra sin contexto. Cuando una palabra aparece en una frase concreta, los transformers usan los pesos para procesar el significado de esa palabra en ese nuevo contexto. (En la práctica, esto implica multiplicar cada embedding por los pesos asociados a todas las demás palabras). 

¿Y los sesgos? 

Los sesgos son otro tipo de mando que complementa el efecto de los pesos. Los pesos establecen los umbrales a los que se activan distintas partes del modelo (y, por tanto, transmiten datos a la siguiente sección). Los sesgos se utilizan para ajustar esos umbrales, de modo que un embedding pueda activar una parte del modelo incluso cuando su valor es bajo. (Los sesgos son valores que se suman a un embedding en lugar de multiplicarse). 

Al desplazar los umbrales de activación, los sesgos permiten que el modelo capte información que, de otro modo, pasaría desapercibida. Imagina que intentas escuchar a alguien en una habitación ruidosa. Los pesos amplificarían más las voces más fuertes; los sesgos serían como un dial en un dispositivo de escucha que eleva las voces más suaves para que también puedan oírse. 

En resumen: los pesos y los sesgos son dos formas distintas mediante las cuales un LLM extrae toda la información posible del texto que recibe. Y ambos tipos de parámetros se ajustan una y otra vez durante el entrenamiento para asegurarse de que cumplen esta función. 

OK. ¿Y qué pasa con las neuronas? ¿Son también un tipo de parámetro?

No, las neuronas son más bien una forma de organizar todas estas matemáticas: contenedores que agrupan pesos y sesgos, enlazados entre sí por una red de conexiones. La idea se inspira de forma muy laxa en las neuronas biológicas de los cerebros animales, donde las señales de una neurona desencadenan señales en la siguiente, y así sucesivamente. 

Cada neurona de un modelo contiene un único sesgo y los pesos correspondientes a cada una de las dimensiones del modelo. Dicho de otro modo: si un modelo tiene 4.096 dimensiones (y, por tanto, sus embeddings son listas de 4.096 números), entonces cada una de sus neuronas contiene un sesgo y 4.096 pesos. 

Las neuronas se organizan en capas. En la mayoría de los LLM, cada neurona de una capa está conectada con todas las neuronas de la capa superior. Un modelo de 175.000 millones de parámetros como GPT‑3 puede tener alrededor de 100 capas, cada una con decenas de miles de neuronas. Y cada neurona ejecuta decenas de miles de cálculos simultáneamente. 

Vuelvo a marearme. Son muchas matemáticas. 

Son muchísimas matemáticas. 

¿Y cómo encaja todo eso? ¿Cómo toma un LLM un conjunto de palabras y decide qué palabras devolver? 

Cuando un LLM procesa un fragmento de texto, la representación numérica de ese texto (el embedding) se pasa a través de múltiples capas del modelo. En cada capa, el valor del embedding (esa lista de 4.096 números) se actualiza muchas veces mediante una serie de cálculos que implican los pesos y sesgos del modelo (asociados a las neuronas), hasta llegar a la capa final. 

La idea es que todo el significado, matices y contexto del texto de entrada quede capturado en el valor final del embedding después de atravesar esta desconcertante cantidad de cálculos. Ese valor final se utiliza entonces para calcular la siguiente palabra que el LLM debe generar. 

No te sorprenderá saber que es más complicado de lo que parece: el modelo calcula, para cada palabra de su vocabulario, la probabilidad de que esa palabra sea la siguiente, y luego ordena los resultados. Después selecciona la palabra más probable. (Más o menos. Véase más abajo…) 

Esa palabra se añade al bloque de texto previo, y todo el proceso se repite hasta que el LLM calcula que la palabra más probable para continuar es una que indica el final de su salida. 

¿Eso es todo? 

Claro. Bueno… 

Continúa. 

Los diseñadores de LLM también pueden especificar un puñado de otros parámetros, conocidos como hiperparámetros. Los principales son temperatura, top‑p top‑k. 

Te lo estás inventando. 

La temperatura es un parámetro que actúa como un dial de creatividad. Influye en la elección que hace el modelo sobre qué palabra viene después. Acabo de decir que el modelo ordena las palabras de su vocabulario y elige la más probable. Pero el parámetro de temperatura puede usarse para empujar al modelo a elegir, lo que hace que su resultado sea más factual y relevante, o una palabra menos probable, lo que hace que el resultado sea más sorprendente y menos robótico. 

Top‑p y top‑k son otros dos diales que controlan la selección de palabras siguientes. Estos ajustes obligan al modelo a elegir al azar una palabra dentro de un conjunto de palabras más probables, en lugar de escoger siempre la primera del ranking. Estos parámetros modifican cómo “suena” el modelo: imprevisible y creativo o fiable y sobrio. 

¡Una última pregunta! Ha habido mucho revuelo sobre modelos pequeños que superan a los grandes. ¿Cómo puede un modelo pequeño hacer más con menos parámetros? 

Esa es una de las preguntas más candentes en IA ahora mismo. Y puede suceder por varias razones. Los investigadores han descubierto que el volumen de datos marca una enorme diferencia. Primero, debes asegurarte de que el modelo vea suficientes datos: un LLM entrenado con muy poco texto no aprovechará al máximo todos sus parámetros, y un modelo más pequeño entrenado con la misma cantidad de datos podría superarlo. 

Otro truco que han descubierto los investigadores es el sobreentrenamiento. Otra técnica consiste en mostrar al modelo muchísimos más datos de los que antes se consideraban necesarios. Mostrar a los modelos muchos más datos de los que se creía necesarios parece mejorar su rendimiento. El resultado es que un modelo pequeño entrenado con una gran cantidad de datos puede superar a un modelo más grande entrenado con menos datos. El Llama 2, con 70 000 millones de parámetros, se entrenó con alrededor de 2 billones de palabras de texto; el Llama 3, con 8000 millones de parámetros, se entrenó con alrededor de 15 billones de palabras de texto. El Llama 3, mucho más pequeño, es el mejor modelo. 

Una tercera técnica, conocida como destilación, utiliza un modelo más grande para entrenar uno más pequeño. El modelo más pequeño se entrena no solo con los datos de entrenamiento sin procesar, sino también con los resultados de los cálculos internos del modelo más grande. La idea es que las lecciones aprendidas con esfuerzo y codificadas en los parámetros del modelo más grande se transfieran a los parámetros del modelo más pequeño, lo que le da un impulso. 

De hecho, es posible que los días de los modelos monolíticos únicos hayan llegado a su fin. Incluso los modelos más grandes del mercado, como el GPT-5 de OpenAI y el Gemini 3 de Google DeepMind, pueden considerarse como varios modelos pequeños dentro de un mismo conjunto. Mediante una técnica denominada “mezcla de expertos”los modelos grandes pueden activar solo las partes de sí mismos (los “expertos”) que son necesarias para procesar un fragmento de texto específico. Esto combina las capacidades de un modelo grande con la velocidad y el menor consumo energético de uno pequeño. 

Pero eso no es todo. Los investigadores siguen buscando formas de sacar el máximo partido a los parámetros de un modelo. A medida que las ventajas del escalado directo disminuyen, aumentar el número de parámetros ya no parece marcar la diferencia que marcaba antes. No se trata tanto de cuántos se tienen, sino de qué se hace con ellos. 

¿Puedo ver uno? 

¿Quieres ver un parámetro? Adelante: aquí tienes un embedding.