Un equipo de Google DeepMind ha creado Gemma Scope, una herramienta diseñada para desentrañar los procesos internos de una IA y comprender cómo llega a sus conclusiones. Este avance abre la puerta a algoritmos más transparentes y alineados con las expectativas humanas
La inteligencia artificial ha impulsado importantes avances en áreas como el descubrimiento de fármacos y la robótica. Además, ha transformado por completo la manera de interactuar con las máquinas y con el entorno digital. El problema es que no sabemos exactamente cómo funciona ni por qué tiene tanto éxito. Tenemos una idea general, pero los detalles son tan complejos que resulta difícil desentrañarlos. Esto es un problema, ya que podríamos implementar la IA en un área tan sensible como la medicina sin entender los posibles fallos de su funcionamiento.
Un equipo de Google DeepMind, que investiga un campo llamado "interpretabilidad mecanicista", ha desarrollado nuevos instrumentos para entender qué ocurre en el interior de los modelos de IA. A finales de julio presentaron Gemma Scope, una herramienta que ayuda a los investigadores a entender cómo la IA llega a sus conclusiones. La idea es que, al comprender mejor los procesos internos de un modelo, podamos controlar sus resultados con mayor precisión para mejorar estos sistemas en el futuro.
"Quiero poder mirar dentro de un modelo y ver si está siendo engañoso", afirma Neel Nanda, responsable del equipo de interpretabilidad mecanicista en Google DeepMind. "Creo que poder leer la mente de un modelo sería muy útil", añade.
La interpretabilidad mecanicista, también conocida como mech interp, es un nuevo campo de investigación cuyo objetivo es entender cómo funcionan realmente las redes neuronales. En la actualidad, cuando entrenamos una inteligencia artificial, le introducimos una gran cantidad de datos y, al final del proceso, obtenemos lo que se conocen como "pesos del modelo". Es decir, los parámetros que guían cómo toma decisiones. Entre estos pesos y los datos introducidos de manera previa, la IA busca patrones para tomar decisiones basadas en ellos. Sin embargo, para los humanos suelen ser muy complejos y difíciles de interpretar.
Es como si un profesor corrigiera un examen de matemáticas muy complejo. El alumno (la IA, en este caso) dio la respuesta correcta, pero el proceso que siguió para llegar a ella parece un conjunto de garabatos incomprensibles. Este ejemplo asume que la IA siempre acierta, pero no siempre es así: la máquina podría haber identificado un patrón irrelevante y considerarlo válido. Por ejemplo, algunos sistemas podrían afirmar que 9,11 es mayor que 9,8. No obstante, los avances en el campo de la interpretabilidad mecanicista están empezando a aclarar qué ocurre en estos procesos. Ayudan a entender esos "garabatos".
"Un objetivo clave de la interpretabilidad mecanicista es aplicar ingeniería inversa a los algoritmos de estos sistemas", explica Nanda. "Le damos al modelo una instrucción, como «escribe un poema», y genera unos versos que riman. Pero ¿cómo lo hace exactamente? Nos gustaría entender ese proceso".
Gracias a una herramienta llamada "autocodificador disperso", el equipo de DeepMind logró identificar características o categorías de datos que representan conceptos más amplios dentro de su modelo de IA. Es como un microscopio que permite acercarse a las diferentes capas que lo componen para ver sus detalles. Por ejemplo, al preguntar a Gemma sobre un chihuahua, activará la función "perros" e indicará qué sabe el modelo sobre esto. Se le llama "disperso" porque limita el número de neuronas que se activan, lo que obliga al modelo a crear una representación más eficiente y generalizada de los datos.
Lo difícil de los autocodificadores dispersos es determinar el grado de precisión. Volviendo al ejemplo del microscopio, la imagen se puede ampliar tanto que se vuelve difícil de interpretar para un ojo humano. Sin embargo, si no haces suficiente zoom, corres el riesgo de perder detalles clave que podrían revelar nuevos hallazgos.
La solución de DeepMind fue usar autocodificadores dispersos de distintos tamaños y variar la cantidad de características que querían identificar en cada uno. Los investigadores no analizaron los resultados por sí solos. Gemma y los autocodificadores son de código abierto, lo que permitió invitar a otros expertos a explorar los resultados y comprender mejor cómo funciona el modelo. Al aplicar estos autocodificadores en cada capa, DeepMind permitió rastrear el recorrido de los datos con un nivel de detalle nunca alcanzado.
"Esto es un avance muy emocionante para los investigadores en interpretabilidad", señala Josh Batson, investigador de Anthropic. "Al poner este modelo a disposición del público, se abre la posibilidad de realizar una gran cantidad de investigaciones sobre interpretabilidad con estos autocodificadores dispersos. Esto reduce la barrera de entrada para que cada vez más personas aprendan a trabajar en este campo.
Neuronpedia, una plataforma centrada en la interpretabilidad mecanicista, colaboró con DeepMind en julio para lanzar una demostración interactiva de Gemma Scope. En ella, se puede experimentar con diferentes instrucciones (o prompts), observar cómo el modelo las descompone y descubrir qué acciones se ponen en marcha. Además, permite interactuar de manera directa con el modelo. Por ejemplo, si se activa la función de "perros" y después se realiza una pregunta sobre los presidentes de EE UU, Gemma encontrará la forma de intercalar comentarios aleatorios sobre perros o incluso de simular un ladrido en su respuesta.
Un aspecto interesante de los autocodificadores dispersos es que encuentran características por sí solos sin necesidad de supervisión. Esto permite descubrir detalles sorprendentes sobre cómo los modelos interpretan aspectos humanos. "Mi rasgo favorito es la vergüenza ajena", observa Joseph Bloom, director científico de Neuronpedia. "Suele aparecer en críticas negativas de textos y películas. Es un gran ejemplo de cómo rastrear elementos que asociamos a los humanos".
Además, se pueden buscar conceptos en Neuronpedia para mostrar qué rasgos se activan en determinadas palabras y con qué intensidad. "Si lees el texto y encuentras partes resaltadas en verde, significa que el modelo identifica el concepto de vergüenza ajena como el más relevante. El caso más representativo sería una situación en la que alguien está sermoneando a otra persona", detalla Bloom.
Algunas características son más fáciles de identificar que otras. "Una de las más importantes es el engaño", comenta Johnny Lin, fundador de Neuronpedia. "No es algo tan sencillo como decir: «Ahí está la característica que se activa cuando el modelo miente». Hasta ahora, no hemos logrado localizar el rasgo del engaño para poder eliminarlo".
La investigación de DeepMind es similar a un experimento realizado por Anthropic, otra empresa de inteligencia artificial, con su modelo Golden Gate Claude. En ese caso, se emplearon autocodificadores dispersos para identificar las secciones que se activaban al mencionar el puente Golden Gate de San Francisco. Luego, esas activaciones específicas se amplificaron tanto que el modelo dejó de identificarse como "Claude", una IA, y empezó a responder como si fuera el propio puente Golden Gate.
Aunque pueda parecer extraña, la investigación de la interpretabilidad mecanicista puede ser muy útil. "Estas características son herramientas muy valiosas para comprender cómo generaliza el modelo y en qué nivel de abstracción opera", asegura Batson.
Un equipo liderado por Samuel Marks, ahora en Anthropic, utilizó autocodificadores dispersos para identificar características que vinculaban ciertas profesiones con géneros específicos. Posteriormente, desactivaron estos elementos con el objetivo de reducir el sesgo de género en el modelo. Sin embargo, dado que este experimento se realizó con un modelo pequeño, aún no está claro si los resultados podrían replicarse en sistemas de mayor escala.
La investigación en interpretabilidad mecanicista también puede ayudar a entender por qué la IA se equivoca. Por ejemplo, cuando un modelo afirmó que 9.11 era mayor que 9.8, los investigadores de Transluce vieron que la pregunta activaba las partes relacionadas con los versículos bíblicos y el 11 de septiembre. En el formato de fechas estadounidense, 9.11 se refiere al 11 de septiembre y 9.8 al 8 de septiembre. Por eso, concluyó de manera errónea que 9.11 era mayor. Además, en muchos libros, como los textos religiosos, las secciones se organizan de manera que el 9.11 sigue al 9.8, lo que podría haber reforzado esta confusión. Al entender la causa del error, los investigadores ajustaron el modelo para reducir la influencia de las fechas y otros conceptos erróneos, lo que permitió que la IA respondiera correctamente.
También existen otras posibles aplicaciones de este enfoque. En la actualidad, los grandes modelos de lenguaje (LLM) como ChatGPT cuentan con advertencias integradas a nivel de sistema para prevenir que los usuarios reciban respuestas peligrosas, como instrucciones sobre fabricar bombas. Sin embargo, pueden encontrar formas de eludir estas restricciones y aprovechar las vulnerabilidades del sistema para saltarse estas barreras.
Si los desarrolladores de los modelos logran identificar qué partes de la IA contienen conocimientos sobre la fabricación de bombas, podrían desactivar esos nodos de forma permanente. De ser así, ni siquiera las preguntas más astutas podrían obtener una respuesta sobre cómo construir una bomba, ya que la IA no tendría absolutamente ninguna información sobre ese tema en su sistema.
Este tipo de control preciso es fácil de imaginar, pero extremadamente difícil de lograr con los avances actuales en la interpretabilidad mecanicista.
"Ajustar los parámetros de un modelo no siempre da los resultados esperados. Por ejemplo, cuando intentas reducir la violencia en un modelo, a veces elimina por completo su conocimiento sobre artes marciales. Es necesario perfeccionar mucho este proceso", explica Lin. El conocimiento sobre "fabricación de bombas", por ejemplo, no es algo que se pueda apagar o encender de forma sencilla en un modelo de IA. Lo más probable es que esté distribuido por distintas partes del sistema, por lo que desactivarlo podría afectar, por ejemplo, a los conocimientos sobre química. Cada ajuste tiene sus beneficios, pero también sus inconvenientes.
Si conseguimos comprender mejor cómo funciona la "mente" de la IA, DeepMind y otros investigadores confían en que la interpretabilidad mecanicista podría ser un camino clave para lograr la alineación. Es decir, asegurar que la IA hace exactamente lo que se espera de ella.