Una nueva herramienta de interpretabilidad mecanicista permite depurar los LLM

Goodfire busca que el entrenamiento de modelos de IA se asemeje más a la ingeniería de software tradicional.

La startup Goodfire, con sede en San Francisco, acaba de lanzar una nueva herramienta, llamada Silico, que permite a investigadores e ingenieros explorar un modelo de IA y ajustar sus parámetros —los ajustes que determinan el comportamiento de un modelo— durante el entrenamiento. Esto podría proporcionar a los creadores de modelos un control más granular sobre cómo se construye esta tecnología de lo que antes se creía posible.

Goodfire afirma que Silico es la primera herramienta estándar de su tipo que puede ayudar a los desarrolladores a depurar todas las etapas del proceso de desarrollo, desde la creación de un conjunto de datos hasta el entrenamiento de un modelo.

La empresa afirma que su misión es hacer que la creación de modelos de IA se parezca menos a la alquimia y más a la ciencia. Ciertamente, los LLM como ChatGPT y Gemini pueden hacer cosas asombrosas. Pero nadie sabe exactamente cómo o por qué funcionan, y eso puede dificultar la corrección de sus fallos o el bloqueo de comportamientos no deseados.

“Observamos esta brecha creciente entre lo bien que se entendían los modelos y la amplitud con la que se estaban implementando”, explica Eric Ho, CEO de Goodfire, a MIT Technology Review en una conversación exclusiva previa al lanzamiento de Silico. “Creo que la sensación dominante en cada uno de los principales laboratorios de vanguardia hoy en día es que solo se necesita más escala, más capacidad de cómputo, más datos, y entonces se obtiene la IAG [inteligencia artificial general] y nada más importa. Y nosotros decimos que no, que hay una forma mejor.”

Goodfire es una de un puñado selecto de empresas, entre las que se encuentran líderes de la industria como Anthropic, OpenAI y Google DeepMind, que están siendo pioneras en una técnica conocida como interpretabilidad mecanicista, la cual busca comprender qué ocurre dentro de un modelo de IA cuando realiza una tarea, mapeando sus neuronas y las rutas entre ellas. (MIT Technology Review seleccionó la interpretabilidad mecanicista como una de sus 10 Tecnologías Disruptivas de 2026.)

Goodfire busca emplear este enfoque no solo para auditar modelos —es decir, para estudiar los que ya han sido entrenados— sino también para contribuir a su diseño desde un principio.

“Queremos eliminar el ensayo y error y convertir el entrenamiento de modelos en ingeniería de precisión”, dice Ho. “Y eso significa exponer los parámetros y controles para que se puedan usar realmente durante el proceso de entrenamiento”.

Goodfire ya ha utilizado sus técnicas y herramientas para afinar el comportamiento de los LLM —por ejemplo, reduciendo el número de alucinaciones que producen. Con Silico, la compañía está ahora empaquetando muchas de esas técnicas propias y las está lanzando como un producto.

La herramienta utiliza agentes para automatizar gran parte del trabajo complejo. «Los agentes son ahora lo suficientemente potentes como para realizar gran parte del trabajo de interpretabilidad que antes hacíamos con humanos», dice Ho. «Esa era la brecha que había que salvar antes de que esto fuera una plataforma realmente viable que los clientes pudieran usar por sí mismos».

Leonard Bereska, investigador de la Universidad de Ámsterdam que ha trabajado en interpretabilidad mecanicista, cree que Silico parece una herramienta útil. Pero rechaza las aspiraciones más ambiciosas de Goodfire. «En realidad, están añadiendo precisión a la alquimia», afirma. «Llamarlo ingeniería hace que suene más fundamentado de lo que es».

Mapeo de modelos

Silico permite acercarse a partes específicas de un modelo entrenado, como neuronas individuales o grupos de neuronas, y realizar experimentos para ver qué hacen esas neuronas. (Esto asumiendo que se tiene acceso al funcionamiento inte o del modelo. La mayoría de la gente no podrá usar Silico para investigar dentro de ChatGPT o Gemini, pero sí para examinar los parámetros de muchos modelos de código abierto). Después se puede comprobar qué entradas hacen que se activen diferentes neuronas y rastrear rutas aguas arriba y aguas abajo de una neurona para ver cómo otras neuronas la afectan y cómo esta, a su vez, afecta a otras neuronas.

Por ejemplo, Goodfire encontró una neurona dentro del modelo de código abierto Qwen 3 que estaba asociada con el llamado problema del tranvía. Al activar esta neurona, cambiaron las respuestas del modelo, haciendo que presentara sus resultados como dilemas morales explícitos. «Cuando esta neurona está activa, suceden todo tipo de cosas raras», afirma Ho.

Identificar el origen de una conducta anómala como esta es actualmente una práctica estándar. Pero Goodfire quiere facilitar el ajuste de esa conducta. Utilizando Silico, ahora los desarrolladores pueden ajustar los parámetros asociados a neuronas individuales para potenciar o suprimir ciertas conductas.

En otro ejemplo, los investigadores de Goodfire preguntaron a un modelo si una empresa debería divulgar que su IA se comporta de forma engañosa en el 0,3% de los casos, afectando a 200 millones de usuarios. El modelo respondió que no, citando el impacto negativo para el negocio de dicha divulgación.

Al analizar el modelo, los investigadores descubrieron que potenciar las neuronas asociadas con la transparencia y la divulgación invirtió la respuesta de no a sí en nueve de cada diez ocasiones. "El modelo ya poseía el circuito de razonamiento ético, pero estaba siendo superado por la evaluación de riesgo comercial", afirma Ho.

Ajustar los valores de un modelo de este modo es solo una de las vías. Silico también puede ayudar a dirigir el proceso de entrenamiento filtrando ciertos datos de entrenamiento para evitar establecer valores no deseados para determinados parámetros desde el principio.

Por ejemplo, muchos modelos le dirán que 9.11 es mayor que 9.9. Analizar un modelo para ver qué ocurre podría revelar que está siendo influenciado por neuronas asociadas con la Biblia, en la que el versículo 9.9 precede al 9.11, o por repositorios de código donde las actualizaciones consecutivas se numeran 9.9, 9.10, 9.11 y así sucesivamente. Utilizando esta información, el modelo puede ser reentrenado para que evite sus neuronas “bíblicas” al realizar cálculos.

Con el lanzamiento de Silico, Goodfire quiere poner técnicas, antes solo al alcance de unos pocos laboratorios punteros, en manos de empresas más pequeñas y equipos de investigación que deseen construir su propio modelo o adaptar uno de código abierto. La herramienta estará disponible por una tarifa que se determinará caso por caso, según los requisitos de los clientes (Goodfire declinó proporcionar detalles específicos sobre los precios).

«Si podemos hacer que el entrenamiento de modelos se parezca mucho más a la creación de software, no hay razón para que no haya muchas más empresas diseñando modelos que se adapten a sus necesidades», afirma Ho.

Bereska coincide en que herramientas como Silico podrían ayudar a las empresas a construir modelos más fiables. Estas técnicas podrían ser esenciales para aplicaciones críticas para la seguridad en sanidad y finanzas, dice.

“Los laboratorios de vanguardia ya cuentan con equipos inte os de interpretabilidad”, añade. “Silico equipa al siguiente nivel de empresas, donde el valor reside en no tener que contratar a investigadores de interpretabilidad.”

Goodfire busca emplear este enfoque no solo para auditar modelos —es decir, para estudiar los que ya han sido entrenados— sino también para contribuir a su diseño desde un principio.

Buscar en MIT Technology Review

Explorar Temas

Secciones

Una nueva herramienta de interpretabilidad mecanicista permite depurar los LLM

Mapeo de modelos

Mapeo de modelos