La conclusión: los modelos de lenguaje grandes son aún más extraños de lo que pensábamos. El equipo de Anthropic se sorprendió por algunas de las soluciones contraintuitivas que los grandes modelos de lenguaje parecen usar para completar frases, resolver problemas matemáticos simples, suprimir alucinaciones y más, dice Joshua Batson, científico investigador de la empresa. No es ningún secreto que los grandes modelos de lenguaje funcionan de maneras misteriosas. Pocas tecnologías de consumo masivo (si es que alguna) han sido muy tan poco comprendidas. Eso hace que, descubrir qué los motiva, sea uno de los mayores desafíos en la ciencia. Pero no se trata solo de curiosidad. Arrojar claridad sobre cómo funcionan estos modelos expone sus debilidades, al revelar por qué inventan cosas y por qué pueden ser engañados para desviarse. Ayuda a resolver disputas profundas sobre lo que estos modelos pueden y no pueden hacer. Y muestra cuán confiables (o no) son realmente. Batson y sus colegas describen su nuevo trabajo en dos informes publicados hoy. El primero presenta el uso de una técnica llamada trazado de circuitos por parte de Anthropic, que permite a los investigadores rastrear los procesos de toma de decisiones dentro de un gran modelo de lenguaje paso a paso. Anthropic utilizó el trazado de circuitos para observar cómo su modelo de lenguaje Claude 3.5 Haiku realizaba varias tareas. El segundo, titulado "Sobre la biología de un gran modelo de lenguaje", detalla lo que el equipo descubrió cuando examinó 10 tareas en particular. "Creo que este es un trabajo realmente genial", dice Jack Merullo, quien estudia grandes modelos de lenguaje en la Universidad de Brown (Rhode Island, EE UU) y no participó en la investigación. "Es un gran avance en términos de métodos". El trazado de circuitos en sí mismo no es nuevo. El año pasado, Merullo y sus colegas analizaron un circuito específico en una versión de GPT-2 de OpenAI, un modelo de lenguaje grande más antiguo que OpenAI lanzó en 2019. Pero Anthropic ahora ha analizado varios circuitos diferentes dentro de un modelo mucho más grande y complejo mientras realiza múltiples tareas. "Anthropic es altamente capaz de escalar un problema", dice Merullo. Eden Biran, quien estudia grandes modelos de lenguaje en la Universidad de Tel Aviv (Tel Aviv, Israel), está de acuerdo. "Encontrar circuitos en un modelo grande y de última generación como Claude es una hazaña de ingeniería nada trivial", dice. "Y muestra que los circuitos escalan y podrían ser una buena forma de interpretar los modelos de lenguaje". Los circuitos encadenan diferentes partes, o componentes, de un modelo. El año pasado, Anthropic identificó ciertos componentes dentro de Claude que corresponden a conceptos del mundo real. Algunos eran específicos, como "Michael Jordan" o "verdor"; otros eran más vagos, como "conflicto entre individuos". Un componente parecía representar el Golden Gate Bridge. Los investigadores de Anthropic descubrieron que, si aumentaban la intensidad de este componente, Claude podía identificarse a sí mismo no como un modelo de lenguaje grande, sino como el propio puente físico. El último trabajo se basa en esa investigación y en el trabajo de otros, incluido Google DeepMind, para revelar algunas de las conexiones entre componentes individuales. Las cadenas de componentes son las vías entre las palabras introducidas en Claude y las palabras que salen. "Es solo la punta del iceberg. Tal vez estamos viendo un pequeño porcentaje de lo que está pasando", dice Batson. "Pero eso ya es suficiente para ver una estructura increíble". Crecimiento de los grandes modelos de lenguaje Investigadores de Anthropic y otros lugares están estudiando los grandes modelos de lenguaje como si fueran fenómenos naturales en lugar de software creado por humanos. Esto se debe a que los modelos se entrenan, no se programan. “Crecen casi de manera orgánica”, dice Batson. “Comienzan totalmente al azar. Luego los entrenas con todos estos datos y pasan de producir disparates a poder hablar diferentes idiomas, escribir software y doblar proteínas. Hay cosas increíbles que estos modelos aprenden a hacer, pero no sabemos cómo sucedió porque no es que fuimos allí y ajustamos los controles”. Claro, todo es matemáticas. Pero no son matemáticas que podamos seguir. “Abre un gran modelo de lenguaje y todo lo que verás son miles de millones de números: los parámetros”, dice Batson. “No es esclarecedor”. Anthropic dice que se inspiró en las técnicas de escaneo cerebral utilizadas en neurociencia para construir lo que la empresa describe como una especie de microscopio que se puede apuntar a diferentes partes de un modelo mientras se ejecuta. La técnica resalta los componentes que están activos en diferentes momentos. Los investigadores luego pueden acercarse a diferentes componentes y registrar cuándo están activos y cuándo no. Si tomamos el componente que corresponde al Golden Gate Bridge veremos que se activa cuando Claude ve un texto que nombra o describe el puente, o incluso textos relacionados con él, como "San Francisco" o "Alcatraz". De lo contrario, permanece apagado. Otro componente podría ser el que corresponde a la idea de “pequeñez”: “Revisamos decenas de millones de textos y vemos que está activado para las palabras ‘pequeño’, ‘diminuto’, ‘petit’, y para muchas otras relacionadas con la pequeñez, cosas que son diminutas, como dedales, ya sabes, solo cosas pequeñas”, dice Batson. Una vez identificados los componentes individuales, Anthropic luego sigue el rastro dentro del modelo a medida que diferentes componentes se encadenan. Los investigadores comienzan desde el final, con el componente o componentes que llevaron a la respuesta final que Claude da a una consulta. Batson y su equipo luego rastrean esa cadena hacia atrás. Comportamiento extraño Entonces, ¿qué encontraron? Anthropic analizó 10 comportamientos diferentes en Claude. Uno de ellos estaba relacionado con el uso de diferentes idiomas. ¿Tiene Claude una parte que habla francés y otra que habla chino, y así sucesivamente? El equipo descubrió que Claude utilizaba componentes independientes de cualquier idioma para responder una pregunta o resolver un problema y luego elegía un idioma específico cuando respondía. Pregúntale “¿Cuál es el opuesto de pequeño?” en inglés, francés y chino y Claude primero utilizará los componentes neutrales al idioma relacionados con “pequeñez” y “opuestos” para llegar a una respuesta. Solo entonces elegirá un idioma específico en el que responder. Esto sugiere que los grandes modelos de lenguaje pueden aprender cosas en un idioma y aplicarlas en otros. Anthropic también examinó cómo Claude resolvía problemas matemáticos simples. El equipo descubrió que el modelo parece haber desarrollado sus propias estrategias inte as que son diferentes a las que habrá visto en sus datos de entrenamiento. Pregunta a Claude que sume 36 y 59 y el modelo pasará por una serie de pasos extraños, comenzando por sumar una selección de valores aproximados (sumar 40 y algo y 60 y algo, sumar 57 y algo y 36 y algo). Hacia el final de su proceso, llega al valor 92 y algo. Mientras tanto, otra secuencia de pasos se centra en los últimos dígitos, 6 y 9, y determina que la respuesta debe terminar en 5. Juntando eso con 92 y algo da la respuesta correcta de 95. Y, sin embargo, si luego le preguntas a Claude cómo llegó a esa respuesta, dirá algo como: “Sumé las unidades (6+9=15), llevé 1, luego sumé las decenas (3+5+1=9), dando como resultado 95”. Es decir, te da un método común que se encuentra en todas partes en línea en lugar de explicar lo que realmente hizo. ¡Sí! Los LLMs son raros. (Y no deberían tomarse al pie de la letra). Los pasos que Claude 3.5 Haiku usó para resolver un problema matemático simple no fueron los que Anthropic esperaba, ni los que Claude afirmó haber seguido.
Inteligencia artificial
Anthropic desentraña el funcionamiento interno de los grandes modelos de lenguaje
PorWill Douglas Heaven
12 min
03 de abril de 2025

