Skip to main content

Nuevas técnicas están dando a los investigadores una visión del funcionamiento interno de los modelos de IA. 


QUIÉNES
: Anthropic, Google DeepMind, Neuronpedia, OpenAI
 

CUÁNDO: Ahora 

Cientos de millones de personas usan chatbots cada día. Y, sin embargo, los modelos de lenguaje a gran escala que los impulsan son tan complejos que nadie entiende realmente qué son, cómo funcionan o exactamente qué pueden y qué no pueden hacer, ni siquiera quienes los construyen. Extraño, ¿verdad? 

También es un problema. Sin una idea clara de lo que ocurre bajo el capó, es difícil comprender las limitaciones de la tecnología, averiguar por qué los modelos alucinan o establecer límites para mantenerlos bajo control. 

Pero el año pasado obtuvimos la mejor comprensión hasta ahora de cómo funcionan los LLM, cuando investigadores de las principales empresas de IA empezaron a desarrollar nuevas formas de explorar el funcionamiento interno de estos modelos y comenzaron a encajar piezas del rompecabezas. 

Un enfoque, conocido como interpretabilidad mecanicista, busca mapear las características clave y las rutas entre ellas en todo el modelo. En 2024, la empresa Anthropic anunció que había creado una especie de microscopio que permitía a los investigadores mirar dentro de su modelo de lenguaje Claude e identificar características que correspondían a conceptos reconocibles, como Michael Jordan y el puente Golden Gate. 

En 2025, Anthropic llevó esta investigación a otro nivel, utilizando su microscopio para revelar secuencias completas de características y rastrear el camino que sigue un modelo desde la instrucción hasta la respuesta. Equipos de OpenAI y Google DeepMind emplearon técnicas similares para intentar explicar comportamientos inesperados, como por qué sus modelos a veces parecen intentar engañar a las personas. 

Otro enfoque novedoso, conocido como monitorización de cadena de pensamiento, permite a los investigadores escuchar el monólogo interno que producen los llamados modelos de razonamiento mientras realizan tareas paso a paso. OpenAI utilizó esta técnica para descubrir que uno de sus modelos de razonamiento hacía trampas en pruebas de programación. 

Los investigadores están divididos sobre hasta dónde se puede llegar con estas técnicas. Algunos creen que los LLM son demasiado complejos para que los entendamos por completo. Pero, en conjunto, estas herramientas innovadoras podrían ayudar a explorar sus profundidades y revelar más sobre qué hace que funcionen estos extraños nuevos juguetes.