Skip to main content
Anthrope ahora puede rastrear el extraño funcionamiento interno de un modelo de lenguaje grande

Lo que la empresa ha descubierto desafía algunas suposiciones básicas sobre cómo funciona realmente esta tecnología. 

La empresa de inteligencia artificial Anthropic ha desarrollado una forma de observar el interior de un gran modelo de lenguaje y ver lo que hace mientras genera una respuesta, algo que revela ideas nuevas y clave sobre cómo funciona esta tecnología. La conclusión: los modelos de lenguaje grandes son aún más extraños de lo que pensábamos. 

El equipo de Anthropic se sorprendió por algunas de las soluciones contraintuitivas que los grandes modelos de lenguaje parecen usar para completar frases, resolver problemas matemáticos simples, suprimir alucinaciones y más, dice Joshua Batson, científico investigador de la empresa. 

No es ningún secreto que los grandes modelos de lenguaje funcionan de maneras misteriosas. Pocas tecnologías de consumo masivo (si es que alguna) han sido muy tan poco comprendidas. Eso hace que, descubrir qué los motiva, sea uno de los mayores desafíos en la ciencia. 

Pero no se trata solo de curiosidad. Arrojar claridad sobre cómo funcionan estos modelos expone sus debilidades, al revelar por qué inventan cosas y por qué pueden ser engañados para desviarse. Ayuda a resolver disputas profundas sobre lo que estos modelos pueden y no pueden hacer. Y muestra cuán confiables (o no) son realmente. 

Batson y sus colegas describen su nuevo trabajo en dos informes publicados hoy. El primero presenta el uso de una técnica llamada trazado de circuitos por parte de Anthropic, que permite a los investigadores rastrear los procesos de toma de decisiones dentro de un gran modelo de lenguaje paso a paso. Anthropic utilizó el trazado de circuitos para observar cómo su modelo de lenguaje Claude 3.5 Haiku realizaba varias tareas. El segundo, titulado «Sobre la biología de un gran modelo de lenguaje», detalla lo que el equipo descubrió cuando examinó 10 tareas en particular. 

«Creo que este es un trabajo realmente genial», dice Jack Merullo, quien estudia grandes modelos de lenguaje en la Universidad de Brown (Rhode Island, EE UU) y no participó en la investigación. «Es un gran avance en términos de métodos». 

El trazado de circuitos en sí mismo no es nuevo. El año pasado, Merullo y sus colegas analizaron un circuito específico en una versión de GPT-2 de OpenAI, un modelo de lenguaje grande más antiguo que OpenAI lanzó en 2019. Pero Anthropic ahora ha analizado varios circuitos diferentes dentro de un modelo mucho más grande y complejo mientras realiza múltiples tareas. «Anthropic es altamente capaz de escalar un problema«, dice Merullo. 

Eden Biran, quien estudia grandes modelos de lenguaje en la Universidad de Tel Aviv (Tel Aviv, Israel), está de acuerdo. «Encontrar circuitos en un modelo grande y de última generación como Claude es una hazaña de ingeniería nada trivial», dice. «Y muestra que los circuitos escalan y podrían ser una buena forma de interpretar los modelos de lenguaje». 

Los circuitos encadenan diferentes partes, o componentes, de un modelo. El año pasado, Anthropic identificó ciertos componentes dentro de Claude que corresponden a conceptos del mundo real. Algunos eran específicos, como «Michael Jordan» o «verdor»; otros eran más vagos, como «conflicto entre individuos». Un componente parecía representar el Golden Gate Bridge. Los investigadores de Anthropic descubrieron que, si aumentaban la intensidad de este componente, Claude podía identificarse a sí mismo no como un modelo de lenguaje grande, sino como el propio puente físico. 

El último trabajo se basa en esa investigación y en el trabajo de otros, incluido Google DeepMind, para revelar algunas de las conexiones entre componentes individuales. Las cadenas de componentes son las vías entre las palabras introducidas en Claude y las palabras que salen. 

«Es solo la punta del iceberg. Tal vez estamos viendo un pequeño porcentaje de lo que está pasando», dice Batson. «Pero eso ya es suficiente para ver una estructura increíble». 

Crecimiento de los grandes modelos de lenguaje 

Investigadores de Anthropic y otros lugares están estudiando los grandes modelos de lenguaje como si fueran fenómenos naturales en lugar de software creado por humanos. Esto se debe a que los modelos se entrenan, no se programan. 

“Crecen casi de manera orgánica”, dice Batson. “Comienzan totalmente al azar. Luego los entrenas con todos estos datos y pasan de producir disparates a poder hablar diferentes idiomas, escribir software y doblar proteínas. Hay cosas increíbles que estos modelos aprenden a hacer, pero no sabemos cómo sucedió porque no es que fuimos allí y ajustamos los controles”. 

Claro, todo es matemáticas. Pero no son matemáticas que podamos seguir. “Abre un gran modelo de lenguaje y todo lo que verás son miles de millones de números: los parámetros”, dice Batson. “No es esclarecedor”. 

Anthropic dice que se inspiró en las técnicas de escaneo cerebral utilizadas en neurociencia para construir lo que la empresa describe como una especie de microscopio que se puede apuntar a diferentes partes de un modelo mientras se ejecuta. La técnica resalta los componentes que están activos en diferentes momentos. Los investigadores luego pueden acercarse a diferentes componentes y registrar cuándo están activos y cuándo no. 

Si tomamos el componente que corresponde al Golden Gate Bridge veremos que se activa cuando Claude ve un texto que nombra o describe el puente, o incluso textos relacionados con él, como «San Francisco» o «Alcatraz». De lo contrario, permanece apagado. 

Otro componente podría ser el que corresponde a la idea de “pequeñez”: “Revisamos decenas de millones de textos y vemos que está activado para las palabras ‘pequeño’, ‘diminuto’, ‘petit’, y para muchas otras relacionadas con la pequeñez, cosas que son diminutas, como dedales, ya sabes, solo cosas pequeñas”, dice Batson. 

Una vez identificados los componentes individuales, Anthropic luego sigue el rastro dentro del modelo a medida que diferentes componentes se encadenan. Los investigadores comienzan desde el final, con el componente o componentes que llevaron a la respuesta final que Claude da a una consulta. Batson y su equipo luego rastrean esa cadena hacia atrás. 

Comportamiento extraño 

Entonces, ¿qué encontraron? Anthropic analizó 10 comportamientos diferentes en Claude. Uno de ellos estaba relacionado con el uso de diferentes idiomas. ¿Tiene Claude una parte que habla francés y otra que habla chino, y así sucesivamente? 

El equipo descubrió que Claude utilizaba componentes independientes de cualquier idioma para responder una pregunta o resolver un problema y luego elegía un idioma específico cuando respondía. Pregúntale “¿Cuál es el opuesto de pequeño?” en inglés, francés y chino y Claude primero utilizará los componentes neutrales al idioma relacionados con “pequeñez” y “opuestos” para llegar a una respuesta. Solo entonces elegirá un idioma específico en el que responder. Esto sugiere que los grandes modelos de lenguaje pueden aprender cosas en un idioma y aplicarlas en otros. 

Anthropic también examinó cómo Claude resolvía problemas matemáticos simples. El equipo descubrió que el modelo parece haber desarrollado sus propias estrategias internas que son diferentes a las que habrá visto en sus datos de entrenamiento. Pregunta a Claude que sume 36 y 59 y el modelo pasará por una serie de pasos extraños, comenzando por sumar una selección de valores aproximados (sumar 40 y algo y 60 y algo, sumar 57 y algo y 36 y algo). Hacia el final de su proceso, llega al valor 92 y algo. Mientras tanto, otra secuencia de pasos se centra en los últimos dígitos, 6 y 9, y determina que la respuesta debe terminar en 5. Juntando eso con 92 y algo da la respuesta correcta de 95. 

Y, sin embargo, si luego le preguntas a Claude cómo llegó a esa respuesta, dirá algo como: “Sumé las unidades (6+9=15), llevé 1, luego sumé las decenas (3+5+1=9), dando como resultado 95”. Es decir, te da un método común que se encuentra en todas partes en línea en lugar de explicar lo que realmente hizo. ¡Sí! Los LLMs son raros. (Y no deberían tomarse al pie de la letra). 

Los pasos que Claude 3.5 Haiku usó para resolver un problema matemático simple no fueron los que Anthropic esperaba, ni los que Claude afirmó haber seguido.

Esto demuestra claramente que los modelos de lenguaje grandes pueden dar razones para sus acciones que no necesariamente reflejan lo que realmente hicieron. Pero esto también es cierto para las personas, dice Batson: “Le preguntas a alguien, ‘¿Por qué hiciste eso?’ Y te dicen, ‘Um, supongo que es porque estaba…—’. Ya sabes, tal vez no. Tal vez solo tenían hambre y por eso lo hicieron”. 

Biran cree que este hallazgo es especialmente interesante. Muchos investigadores estudian el comportamiento de los grandes modelos de lenguaje al pedirles que expliquen sus acciones. Pero eso podría ser un enfoque arriesgado, dice: “A medida que los modelos continúan fortaleciéndose, deben estar equipados con mejores medidas de seguridad. Creo, y este trabajo también lo demuestra, que confiar únicamente en los resultados de los modelos no es suficiente. 

Una tercera tarea que Anthropic estudió fue la escritura de poemas. Los investigadores querían saber si el modelo realmente improvisaba, prediciendo una palabra a la vez. En cambio, descubrieron que Claude, de alguna manera, miraba hacia adelante, eligiendo la palabra al final del siguiente verso con varias palabras de anticipación. 

Por ejemplo, cuando a Claude se le dio el prompt “Un pareado: vio una zanahoria y tuvo que agarrarla,” el modelo respondió, “Su hambre era como la de un conejo hambriento.” Pero usando el microscopio, vieron que Claude ya había pensado en la palabra “conejo” cuando estaba procesando “agarrarla.” Luego, pareció escribir la siguiente línea con ese final ya en mente. 

Esto podría parecer un detalle pequeño. Pero va en contra de la suposición común de que los grandes modelos de lenguaje siempre funcionan eligiendo una palabra a la vez en secuencia. “La planificación en los poemas me dejó impresionado”, dice Batson. “En lugar de intentar hacer que la rima tenga sentido en el último minuto, sabe hacia dónde va”. 

“Pensé que eso era genial”, dice Merullo. “Una de las alegrías de trabajar en el campo son momentos como ese. Ha habido tal vez pequeños indicios que apuntan hacia la capacidad de los modelos para planificar con anticipación, pero ha sido una gran pregunta abierta hasta qué punto lo hacen”. 

Anthropic luego confirmó su observación apagando el componente marcador de “conejidad”. Claude respondió con “Su hambre era un hábito poderoso”. Y cuando el equipo reemplazó “conejidad” con “verdor”, Claude respondió “liberándolo del verde del jardín”. 

Anthropic también investigó por qué Claude a veces inventa información, un fenómeno conocido como alucinación. “Para estos modelos, alucinar es lo más normal del mundo, porque están diseñados para predecir qué palabra sigue en función de patrones previos”, explica Batson. “La verdadera pregunta es: ‘¿Cómo demonios se puede lograr que no lo hagan?’” 

La última generación de grandes modelos de lenguaje, como Claude 3.5, Gemini y GPT-4, experimenta menos alucinaciones que las versiones anteriores, gracias a un exhaustivo proceso de entrenamiento posterior. Este proceso optimiza los pasos que transforman un LLM entrenado con datos extraídos de una amplia variedad de fuentes en internet, convirtiéndolo en un chatbot eficaz y funcional.». Pero el equipo de Batson se sorprendió al descubrir que este posentrenamiento parece haber hecho que Claude se niegue a especular como comportamiento predeterminado. Cuando respondía con información falsa, era porque algún otro componente había anulado el componente de “no especular”. 

Esto parecía suceder más a menudo cuando la especulación, es decir, la generación de respuestas incorrectas, involucraba a una celebridad o a otra entidad conocida. Es como si la cantidad de información disponible sobre un tema favoreciera la generación de respuestas falsas, a pesar de la configuración predeterminada. Cuando Anthropic anuló el componente de “no especular” para probar esto, Claude produjo muchas declaraciones falsas sobre individuos, por ejemplo, afirmar que Batson era famoso por inventar el principio de Batson (no lo es). 

Todavía no está claro 

Dado que sabemos tan poco sobre los grandes modelos de lenguaje, cualquier nueva idea es un gran avance. “Una comprensión profunda de cómo funcionan estos modelos permitiría diseñar y entrenar modelos mucho mejores y más fuertes”, dice Biran. 

Pero Batson señala que todavía existen serias limitaciones. “Es un error pensar que hemos encontrado todos los componentes del modelo o que tenemos una vista omnisciente”, dice. “Algunas cosas están enfocadas, pero otras todavía no están claras, como si el microscopio sufriera una distorsión”. 

A un investigador humano le toma varias horas rastrear las respuestas incluso con indicaciones muy cortas. Además, estos modelos pueden realizar una cantidad asombrosa de tareas diferentes, y hasta ahora Anthropic solo ha analizado 10 de ellas. 

Batson también dice que hay grandes preguntas que este enfoque no responderá. El trazado de circuitos se puede usar para observar las estructuras dentro de un gran modelo de lenguaje, pero no te dirá cómo o por qué esas estructuras se formaron durante el entrenamiento. “Esa es una pregunta profunda que no abordamos en absoluto en este trabajo”, dice. 

Pero Batson ve esto como el comienzo de una nueva era en la que es posible, por fin, encontrar evidencia real de cómo funcionan estos modelos: “No tenemos que estar, como: ‘¿Están pensando? ¿Están razonando? ¿Están soñando? ¿Están memorizando?’ Esas son todas analogías. Pero si podemos ver literalmente paso a paso lo que está haciendo un modelo, tal vez ahora no necesitemos analogías”.