Inteligencia artificial

Anthropic desentraña el funcionamiento interno de los grandes modelos de lenguaje

PorWill Douglas Heaven
12 min
03 de abril de 2025
Anthropic desentraña el funcionamiento interno de los grandes modelos de lenguaje
Compartir
Esto demuestra claramente que los modelos de lenguaje grandes pueden dar razones para sus acciones que no necesariamente reflejan lo que realmente hicieron. Pero esto también es cierto para las personas, dice Batson: “Le preguntas a alguien, ‘¿Por qué hiciste eso?’ Y te dicen, ‘Um, supongo que es porque estaba...—’. Ya sabes, tal vez no. Tal vez solo tenían hambre y por eso lo hicieron”.  Biran cree que este hallazgo es especialmente interesante. Muchos investigadores estudian el comportamiento de los grandes modelos de lenguaje al pedirles que expliquen sus acciones. Pero eso podría ser un enfoque arriesgado, dice: “A medida que los modelos continúan fortaleciéndose, deben estar equipados con mejores medidas de seguridad. Creo, y este trabajo también lo demuestra, que confiar únicamente en los resultados de los modelos no es suficiente.  Una tercera tarea que Anthropic estudió fue la escritura de poemas. Los investigadores querían saber si el modelo realmente improvisaba, prediciendo una palabra a la vez. En cambio, descubrieron que Claude, de alguna manera, miraba hacia adelante, eligiendo la palabra al final del siguiente verso con varias palabras de anticipación.  Por ejemplo, cuando a Claude se le dio el prompt “Un pareado: vio una zanahoria y tuvo que agarrarla,” el modelo respondió, “Su hambre era como la de un conejo hambriento.” Pero usando el microscopio, vieron que Claude ya había pensado en la palabra “conejo” cuando estaba procesando “agarrarla.” Luego, pareció escribir la siguiente línea con ese final ya en mente.  Esto podría parecer un detalle pequeño. Pero va en contra de la suposición común de que los grandes modelos de lenguaje siempre funcionan eligiendo una palabra a la vez en secuencia. “La planificación en los poemas me dejó impresionado”, dice Batson. “En lugar de intentar hacer que la rima tenga sentido en el último minuto, sabe hacia dónde va”.  “Pensé que eso era genial”, dice Merullo. “Una de las alegrías de trabajar en el campo son momentos como ese. Ha habido tal vez pequeños indicios que apuntan hacia la capacidad de los modelos para planificar con anticipación, pero ha sido una gran pregunta abierta hasta qué punto lo hacen”.  Anthropic luego confirmó su observación apagando el componente marcador de “conejidad”. Claude respondió con “Su hambre era un hábito poderoso”. Y cuando el equipo reemplazó “conejidad” con “verdor”, Claude respondió “liberándolo del verde del jardín”.  Anthropic también investigó por qué Claude a veces inventa información, un fenómeno conocido como alucinación. “Para estos modelos, alucinar es lo más normal del mundo, porque están diseñados para predecir qué palabra sigue en función de patrones previos”, explica Batson. “La verdadera pregunta es: ‘¿Cómo demonios se puede lograr que no lo hagan?’”  La última generación de grandes modelos de lenguaje, como Claude 3.5, Gemini y GPT-4, experimenta menos alucinaciones que las versiones anteriores, gracias a un exhaustivo proceso de entrenamiento posterior. Este proceso optimiza los pasos que transforman un LLM entrenado con datos extraídos de una amplia variedad de fuentes en inte et, convirtiéndolo en un chatbot eficaz y funcional.". Pero el equipo de Batson se sorprendió al descubrir que este posentrenamiento parece haber hecho que Claude se niegue a especular como comportamiento predeterminado. Cuando respondía con información falsa, era porque algún otro componente había anulado el componente de “no especular”.  Esto parecía suceder más a menudo cuando la especulación, es decir, la generación de respuestas incorrectas, involucraba a una celebridad o a otra entidad conocida. Es como si la cantidad de información disponible sobre un tema favoreciera la generación de respuestas falsas, a pesar de la configuración predeterminada. Cuando Anthropic anuló el componente de “no especular” para probar esto, Claude produjo muchas declaraciones falsas sobre individuos, por ejemplo, afirmar que Batson era famoso por inventar el principio de Batson (no lo es).  Todavía no está claro  Dado que sabemos tan poco sobre los grandes modelos de lenguaje, cualquier nueva idea es un gran avance. “Una comprensión profunda de cómo funcionan estos modelos permitiría diseñar y entrenar modelos mucho mejores y más fuertes”, dice Biran.  Pero Batson señala que todavía existen serias limitaciones. “Es un error pensar que hemos encontrado todos los componentes del modelo o que tenemos una vista omnisciente”, dice. “Algunas cosas están enfocadas, pero otras todavía no están claras, como si el microscopio sufriera una distorsión”.  A un investigador humano le toma varias horas rastrear las respuestas incluso con indicaciones muy cortas. Además, estos modelos pueden realizar una cantidad asombrosa de tareas diferentes, y hasta ahora Anthropic solo ha analizado 10 de ellas.  Batson también dice que hay grandes preguntas que este enfoque no responderá. El trazado de circuitos se puede usar para observar las estructuras dentro de un gran modelo de lenguaje, pero no te dirá cómo o por qué esas estructuras se formaron durante el entrenamiento. “Esa es una pregunta profunda que no abordamos en absoluto en este trabajo”, dice.  Pero Batson ve esto como el comienzo de una nueva era en la que es posible, por fin, encontrar evidencia real de cómo funcionan estos modelos: “No tenemos que estar, como: ‘¿Están pensando? ¿Están razonando? ¿Están soñando? ¿Están memorizando?’ Esas son todas analogías. Pero si podemos ver literalmente paso a paso lo que está haciendo un modelo, tal vez ahora no necesitemos analogías”.