Una startup afirma haber superado un cuello de botella que frena a los LLM

Subquadratic ha compartido ahora más detalles sobre su nuevo modelo. Pero algunos siguen siendo escépticos.

La startup de IA Subquadratic, con sede en Miami, salió de su modo sigiloso el mes pasado con una afirmación rotunda. Anunció que había resuelto un cuello de botella matemático que había estado frenando los grandes modelos de lenguaje durante casi una década.

Los detalles eran escasos y muchos no estaban convencidos. Pero Subquadratic ha empezado a aportar pruebas, compartiendo los resultados de una evaluación independiente de su nueva tecnología. Los resultados sugieren que las afirmaciones de la empresa podrían merecer atención.

Según Subquadratic, ha desarrollado un nuevo tipo de LLM, llamado SubQ, que es más rápido, más barato y consume mucha menos energía que cualquier otro modelo del mercado. La empresa también afirma que SubQ es capaz de procesar hasta 12 veces más texto a la vez que la mayoría de los demás modelos, lo que le permite realizar una serie de tareas intensivas en datos, como analizar cientos de documentos o bases de código completas.

Es más, según Subquadratic, SubQ lo hace igualando más o menos el rendimiento de los mejores modelos lanzados por Google DeepMind, OpenAI y Anthropic en tareas clave como la codificación.

El problema fue que la empresa, en un principio, apenas aportó pruebas para sus afirmaciones más allá de un puñado de resultados de pruebas autopublicados. Y todavía no ha puesto SubQ ampliamente a disposición del público para que lo prueben por sí mismos.

Por lo tanto, no sorprende que las afirmaciones de Subquadratic fueran recibidas con escepticismo. Dan McAteer, un ingeniero de inteligencia artificial, capturó la respuesta general en X: “SubQ es o bien el mayor avance desde el Transformer... o es el Theranos de la IA.”

Un mes después, la compañía ha publicado más información sobre su modelo, incluyendo los resultados de pruebas independientes adicionales realizadas por la firma exte a Appen.

“Esperábamos cierto escepticismo”, afirma Alex Whedon, cofundador y director de tecnología de Subquadratic. “En retrospectiva, la publicación de las pruebas de rendimiento de terceros junto con el anuncio inicial habría evitado gran parte de ese escepticismo, razón por la cual nos estamos tomando el tiempo para asegurar que cualquier resultado futuro esté plenamente verificado antes de hacerlo público.”

Subquadratic pidió a Appen, que evalúa modelos de otras empresas, que realizara sus pruebas en SubQ. Los resultados parecen respaldar muchas de las afirmaciones de Subquadratic. «Eso fue realmente emocionante para mí; validó su arquitectura», afirma Jeanine Sinanan-Singh, directora de investigación de IA generativa de Appen.

«Pensé: 'Guau, esto podría cambiar las reglas del juego, porque los modelos tienen problemas de velocidad e ineficiencia'», añade. «Pero cuando tienes resultados tan sorprendentes, no es tan creíble cuando lo dices tú mismo».

SubQ no reemplazará a los modelos punteros existentes de forma generalizada, pero podría ofrecer grandes aumentos de velocidad a una fracción del coste típico para ciertas tareas. Subquadratic insiste, sin embargo, que a largo plazo, su avance podría cambiar la forma en que se construyen los LLM. «Esperamos estar dando el pistoletazo de salida a una nueva era de eficiencia», afirma Justin Dangel, cofundador y director ejecutivo de la empresa. «No creemos que nadie esté desarrollando con transformadores dentro de unos años.»

¡Atención!

Para entender por qué las afirmaciones de Subquadratic tienen tanta trascendencia, profundicemos en cómo funcionan la mayoría de los LLM. El mecanismo clave dentro de un LLM es un tipo de red neuronal llamado transformador, que ejecuta un proceso conocido como atención densa. Los LLM actuales suelen encadenar múltiples transformadores. (El artículo fundacional de la era de los LLM, publicado por investigadores de Google en 2017, se titulaba “Attention Is All You Need.”)

La atención densa funciona así: Cuando un transformador procesa un fragmento de texto, primero codifica cada palabra (o parte de una palabra, conocida como token) con un número. Para capturar el significado del texto completo, luego multiplica cada uno de esos números con todos los demás números de ese texto. Por ejemplo, un texto de 10.000 palabras iniciaría casi 50 millones de multiplicaciones individuales. Eso implica una gran cantidad de cómputo y es la principal razón por la que los LLM son conocidos por su elevado consumo energético.

“Si quieres resumir El gran Gatsby, tienes que mirar la primera palabra y la última palabra juntas, y luego tienes que mirar todas las demás combinaciones”, dice Dangel.

A medida que la longitud del texto aumenta, el número de cálculos se dispara. Esto se debe a que cada número adicional debe multiplicarse por todos los demás números anteriores. Duplica el número de palabras y, aproximadamente, cuadriplicas el número de cálculos, una tasa de aumento conocida como expansión cuadrática.

(Puede imaginárselo usted mismo: Dibuje un círculo y marque puntos alrededor de su borde. Cada punto es un token. Luego, dibuje líneas entre pares de puntos para representar la multiplicación de esos dos tokens. Un círculo con cinco puntos tendrá 10 líneas que lo atraviesan. Hágalo de 10 puntos y tendrá 45 líneas, de 20 puntos y tendrá 190 líneas, y así sucesivamente.)

Reducción drástica de costes

La solución de Subquadratic consiste en abandonar la atención densa, la operación central de un transformador, en favor de lo que se conoce como atención dispersa, lo que reduce drásticamente el número de cálculos necesarios. En lugar de multiplicar el número asignado a cada token por todos los demás números, la atención dispersa selecciona solo algunos de los números a multiplicar. La idea es que no todas las relaciones entre palabras en un texto son relevantes.

“La atención escasa dice que no todas esas relaciones son importantes, porque no lo son”, afirma Whedon. “Si estás leyendo un libro, no vas a fijarte en la primera y la segunda palabra, la primera y la tercera—eso es una locura.”

Es un enfoque sencillo, y Subquadratic no es la primera en intentarlo. «Prácticamente todo lo imaginable se ha intentado», afirma Will Depue, un investigador independiente de IA que trabajó anteriormente en OpenAI. «No es imposible, pero es comparable a correr una milla en cuatro minutos».

Las técnicas anteriores para seleccionar qué números multiplicar y cuáles ignorar no han producido un mecanismo que pueda capturar el significado de un documento tan bien como lo hace la atención densa.

Subquadratic afirma haber resuelto el problema por fin. Presenta a SubQ como el primer LLM de atención dispersa que rivaliza con los modelos convencionales de atención densa en rendimiento.

“Históricamente, la mayoría de los mecanismos han utilizado patrones fijos, como comparar siempre la primera palabra con la quinta”, afirma Whedon. “Eso es bastante limitante. El lenguaje es demasiado sofisticado para eso. Por ello, una de las cosas que hace que nuestro mecanismo sea único es que seleccionamos dinámicamente cuáles son importantes”.

La empresa no revela exactamente cómo SubQ elige en qué palabras centrarse, pero la selección se calcula sobre la marcha y difiere para cada fragmento de texto que se le proporciona al modelo. «Ahí radica un poco el quid de la cuestión», afirma Whedon.

Pruebas

La conclusión es que, para ciertas tareas, SubQ puede ser más rápido y barato de ejecutar que la mayoría de los demás modelos. Appen evaluó SubQ en una serie de pruebas estándar. En una prueba de velocidad pura, que establece una base de referencia sobre la rapidez con la que un modelo puede operar en teoría en lugar de evaluar lo que un modelo puede hacer realmente, Appen descubrió que SubQ era 56 veces más rápido que los modelos que utilizan FlashAttention, una técnica anterior de atención dispersa.

En LiveCodeBench, una prueba que evalúa el rendimiento de los modelos en problemas de programación competitiva extraídos de concursos reales, SubQ obtuvo un 89,7%, situándolo al mismo nivel que otros modelos de programación punteros. «Este modelo sigue ofreciendo un rendimiento de vanguardia en programación», afirma Sinanan-Singh, de Appen.

Las afirmaciones de Subquadratic sobre el coste son más difíciles de verificar, ya que SubQ aún no está ampliamente disponible. Según Dangel, cuesta 2600 dólares ejecutar el LLM Opus 4.6 de Anthropic a través de RULER 128, una prueba desarrollada por Nvidia para evaluar la capacidad de un modelo para recuperar información de grandes conjuntos de datos. ¿Y SubQ? «A nosotros nos costó ocho dólares», afirma.

SubQ parece ser capaz de manejar conjuntos de datos muy grandes. El modelo tiene una ventana de contexto (similar a una memoria de trabajo) de hasta 12 millones de tokens. La mayoría de los modelos punteros actuales tienen ventanas de contexto de un millón de tokens. En una demostración que Whedon me mostró, le pidió a SubQ que realizara una tarea que requería razonar sobre información contenida en 400 documentos. Respondió en segundos. Cuando le dio la misma tarea a Perplexity —un popular motor de búsqueda potenciado por LLM—, este no pudo cargar los 400 documentos.

Appen también realizó la prueba de la aguja en el pajar, que evalúa la capacidad de un modelo para recuperar información específica oculta en una gran cantidad de datos. En su informe, Appen afirma que SubQ obtuvo un 98% con ventanas de contexto de seis y 12 millones de tokens de longitud, “manteniendo una recuperación de contexto largo casi perfecta en escalas en las que pocos modelos son probados”.

¿Demasiado bueno para ser verdad?

A pesar de las altas puntuaciones, los benchmarks ofrecen una imagen incompleta de lo que un modelo puede y no puede hacer. Las pruebas bajo condiciones muy específicas no sustituyen la ejecución de un modelo en una amplia gama de tareas reales.

Subquadratic ofrece SubQ como un modelo diseñado para la programación y la búsqueda en conjuntos de datos muy grandes. Afirma que decenas de miles de usuarios potenciales ya se han registrado para obtener acceso anticipado, incluyendo a más de 500 clientes empresariales. Sin embargo, existe una extensa lista de espera, y la empresa ha concedido acceso a muy pocas personas hasta el momento. Subquadratic responde que es una empresa nueva y pequeña con recursos limitados y no puede atender a demasiadas personas a la vez.

Hasta que más personas tengan acceso al modelo y lo prueben por sí mismas, cierto escepticismo está justificado. Una cuestión que genera dudas es que Subquadratic reutilizó los pesos (valores establecidos dentro de un modelo durante el entrenamiento que determinan cómo se comportará) de una versión del modelo de código abierto chino Qwen para inicializar SubQ, en lugar de entrenarlo desde cero. Es una práctica común entre los desarrolladores de modelos, pero contradice la afirmación de Subquadratic de que ha reinventado por completo el funcionamiento de los LLM.

«Puede que hayan construido algo real y útil», afirma Depue. «Pero la evidencia pública aún no justifica la afirmación más contundente de que han resuelto el cuello de botella de la atención cuadrática.»

Mientras tanto, Whedon, cofundador de Subquadratic, insiste en que hacer algo diferente era su única opción. «Si quieres construir un modelo competitivo, tienes que tener nuevas ideas», afirma: «Nosotros lo tenemos más difícil que OpenAI».

Es más, según Subquadratic, SubQ lo hace igualando más o menos el rendimiento de los mejores modelos lanzados por Google DeepMind, OpenAI y Anthropic en tareas clave como la codificación.

Un mes después, la compañía ha publicado más información sobre su modelo, incluyendo los resultados de pruebas independientes adicionales realizadas por la firma exte a Appen.