Los codificadores automáticos nos permiten escudriñar la caja negra de la inteligencia artificial. Podrían ayudarnos a crear una IA que se comprenda mejor y se controle más fácilmente.
La IA ha propiciado avances en el descubrimiento de fármacos y la robótica , y está en proceso de revolucionar por completo la forma en que interactuamos con las máquinas y la web. El único problema es que no sabemos exactamente cómo funciona ni por qué funciona tan bien. Tenemos una idea bastante aproximada, pero los detalles son demasiado complejos para desentrañarlos. Eso es un problema: podría llevarnos a implementar un sistema de IA en un campo altamente sensible como la medicina sin comprender que podría tener fallas críticas incorporadas en su funcionamiento.
Un equipo de Google DeepMind que estudia algo llamado interpretabilidad mecanicista ha estado trabajando en nuevas formas de permitirnos mirar bajo el capó. A fines de julio, lanzó Gemma Scope , una herramienta para ayudar a los investigadores a comprender qué sucede cuando la IA genera un resultado. La esperanza es que si tenemos una mejor comprensión de lo que sucede dentro de un modelo de IA, podremos controlar sus resultados de manera más efectiva, lo que conducirá a mejores sistemas de IA en el futuro.
“Quiero poder mirar dentro de un modelo y ver si es engañoso”, dice Neel Nanda, quien dirige el equipo de interpretación mecanicista en Google DeepMind. “Parece que poder leer la mente de un modelo debería ayudar”.
La interpretabilidad mecanicista, también conocida como “mech interp”, es un nuevo campo de investigación que tiene como objetivo comprender cómo funcionan realmente las redes neuronales. En la actualidad, básicamente, introducimos datos de entrada en un modelo en forma de una gran cantidad de datos y, luego, obtenemos un conjunto de pesos del modelo al final del entrenamiento. Estos son los parámetros que determinan cómo toma decisiones un modelo. Tenemos una idea de lo que sucede entre los datos de entrada y los pesos del modelo: básicamente, la IA encuentra patrones en los datos y saca conclusiones a partir de ellos, pero estos patrones pueden ser increíblemente complejos y, a menudo, muy difíciles de interpretar para los humanos.
Es como si un profesor estuviera revisando las respuestas de un problema matemático complejo en un examen. El estudiante (la IA, en este caso) escribió la respuesta correcta, pero el trabajo parece un montón de líneas onduladas. Este ejemplo supone que la IA siempre obtiene la respuesta correcta, pero eso no siempre es cierto; el estudiante con IA puede haber encontrado un patrón irrelevante que está asumiendo que es válido. Por ejemplo, algunos sistemas de IA actuales darán como resultado que 9,11 es mayor que 9,8. Diferentes métodos desarrollados en el campo de la interpretabilidad mecanicista están empezando a arrojar un poco de luz sobre lo que puede estar sucediendo, esencialmente dando sentido a las líneas onduladas.
“Un objetivo clave de la interpretabilidad mecanicista es intentar aplicar ingeniería inversa a los algoritmos dentro de estos sistemas”, dice Nanda. “Le damos al modelo una indicación, como “Escribe un poema”, y luego escribe algunas líneas que riman. ¿Cuál es el algoritmo mediante el cual hizo esto? Nos encantaría entenderlo”.
Para encontrar características (o categorías de datos que representan un concepto más amplio) en su modelo de IA, Gemma, DeepMind ejecutó una herramienta conocida como "codificador automático disperso" en cada una de sus capas. Se puede pensar en un codificador automático disperso como un microscopio que amplía esas capas y permite observar sus detalles. Por ejemplo, si le preguntas a Gemma sobre un chihuahua, activará la función "perros", lo que resaltará lo que el modelo sabe sobre los "perros". La razón por la que se considera "disperso" es que limita la cantidad de neuronas utilizadas, básicamente impulsando una representación más eficiente y generalizada de los datos.
La parte complicada de los autocodificadores dispersos es decidir qué tan granulares queremos ser. Pensemos nuevamente en el microscopio. Podemos ampliar algo hasta un grado extremo, pero puede hacer que lo que estamos viendo sea imposible de interpretar para un ser humano. Pero si hacemos un zoom demasiado amplio, podemos limitar las cosas interesantes que podemos ver y descubrir.
La solución de DeepMind fue ejecutar autocodificadores dispersos de diferentes tamaños, variando el número de características que querían que el autocodificador encontrara. El objetivo no era que los investigadores de DeepMind analizaran exhaustivamente los resultados por su cuenta. Gemma y los autocodificadores son de código abierto, por lo que este proyecto tenía como objetivo más bien estimular a los investigadores interesados a observar lo que encontraron los autocodificadores dispersos y, con suerte, obtener nuevos conocimientos sobre la lógica interna del modelo. Dado que DeepMind ejecutó autocodificadores en cada capa de su modelo, un investigador podría mapear la progresión desde la entrada hasta la salida a un grado que no hemos visto antes.
“Esto es realmente emocionante para los investigadores de la interpretabilidad”, dice Josh Batson, investigador de Anthropic. “Si tienes este modelo que has puesto en código abierto para que la gente lo estudie, significa que ahora se puede hacer mucha investigación de interpretabilidad sobre la base de esos autocodificadores dispersos. Esto reduce la barrera de entrada para que la gente aprenda con estos métodos”.
Neuronpedia, una plataforma de interpretación mecanicista, se asoció con DeepMind en julio para crear una demostración de Gemma Scope con la que puedes jugar ahora mismo. En la demostración, puedes probar diferentes indicaciones y ver cómo el modelo divide tu indicación y qué activaciones activa tu indicación. También puedes jugar con el modelo. Por ejemplo, si activas al máximo la función sobre perros y luego le haces una pregunta al modelo sobre presidentes de EE. UU., Gemma encontrará alguna forma de incluir un parloteo aleatorio sobre perros, o el modelo puede simplemente comenzar a ladrarte.
Una característica interesante de los autocodificadores dispersos es que no están supervisados, lo que significa que encuentran características por sí solos. Eso conduce a descubrimientos sorprendentes sobre cómo los modelos descomponen los conceptos humanos. "Mi característica favorita es la característica de la vergüenza ", dice Joseph Bloom, director científico de Neuronpedia. "Parece aparecer en las críticas negativas de textos y películas. Es un gran ejemplo de seguimiento de cosas que son tan humanas en algún nivel".
Puedes buscar conceptos en Neuronpedia y te mostrará qué características se activan en tokens o palabras específicas y con qué intensidad se activa cada una. “Si lees el texto y ves lo que está resaltado en verde, es cuando el modelo piensa que el concepto de vergüenza es más relevante. El ejemplo más activo de vergüenza es alguien sermoneando a otra persona”, dice Bloom.
Algunas características resultan más fáciles de rastrear que otras. “Una de las características más importantes que se deben buscar en un modelo es el engaño”, afirma Johnny Lin, fundador de Neuronpedia. “No es muy fácil de encontrar: ‘Ah, ahí está la característica que se activa cuando nos está mintiendo’. Por lo que he visto, no ha sido posible encontrar el engaño y prohibirlo”.
La investigación de DeepMind es similar a la que otra empresa de inteligencia artificial, Anthropic, realizó en mayo con Golden Gate Claude . Utilizó autocodificadores dispersos para encontrar las partes de Claude, su modelo, que se iluminaban cuando se hablaba del puente Golden Gate en San Francisco. Luego, amplificó las activaciones relacionadas con el puente hasta el punto en que Claude literalmente se identificó no como Claude, un modelo de inteligencia artificial, sino como el puente Golden Gate físico y respondía a las indicaciones como el puente.
Aunque pueda parecer algo extraño, la investigación sobre la interpretabilidad mecanicista puede resultar increíblemente útil. “Como herramienta para comprender cómo se generaliza el modelo y en qué nivel de abstracción está trabajando, estas características son realmente útiles”, afirma Batson.
Por ejemplo, un equipo dirigido por Samuel Marks, ahora en Anthropic, utilizó codificadores automáticos dispersos para encontrar características que mostraran que un modelo en particular estaba asociando ciertas profesiones con un género específico. Luego, desactivaron estas características de género para reducir el sesgo en el modelo. Este experimento se realizó en un modelo muy pequeño, por lo que no está claro si el trabajo se aplicará a un modelo mucho más grande.
La investigación sobre la interpretabilidad mecanicista también puede darnos información sobre por qué la IA comete errores. En el caso de la afirmación de que el 11 de septiembre es mayor que el 9,8, los investigadores de Transluce vieron que la pregunta estaba activando las partes de un modelo de IA relacionadas con los versículos de la Biblia y el 11 de septiembre. Los investigadores concluyeron que la IA podría estar interpretando los números como fechas, afirmando que la fecha posterior, el 11 de septiembre, es mayor que el 8 de septiembre. Y en muchos libros, como los textos religiosos, la sección 9,11 viene después de la sección 9,8, lo que puede ser la razón por la que la IA la considera mayor. Una vez que supieron por qué la IA cometió este error, los investigadores atenuaron las activaciones de la IA en los versículos de la Biblia y el 11 de septiembre, lo que llevó al modelo a dar la respuesta correcta cuando se le preguntó nuevamente si el 11 de septiembre es mayor que el 9,8.
También existen otras posibles aplicaciones. Actualmente, los LLM incorporan un mensaje a nivel de sistema para abordar situaciones como la de los usuarios que preguntan cómo construir una bomba. Cuando le haces una pregunta a ChatGPT, OpenAI primero le indica al modelo en secreto que se abstenga de decirte cómo fabricar bombas o hacer otras cosas nefastas. Pero es fácil para los usuarios desbloquear modelos de IA con mensajes inteligentes, eludiendo cualquier restricción.
Si los creadores de los modelos pueden ver dónde se encuentra en una IA el conocimiento para construir bombas, teóricamente pueden desactivar esos nodos de forma permanente. En ese caso, ni siquiera el mensaje mejor escrito obtendría una respuesta sobre cómo construir una bomba, porque la IA literalmente no tendría información sobre cómo construir una bomba en su sistema.
Este tipo de granularidad y control preciso son fáciles de imaginar, pero extremadamente difíciles de lograr con el estado actual de interpretabilidad mecanicista.
“Una limitación es que la dirección [influir en un modelo ajustando sus parámetros] simplemente no funciona tan bien, y por eso, cuando se dirige para reducir la violencia en un modelo, este termina lobotomizando por completo su conocimiento en artes marciales. Hay mucho por hacer en la dirección”, dice Lin. El conocimiento de “fabricación de bombas”, por ejemplo, no es solo un simple interruptor de encendido y apagado en un modelo de IA. Lo más probable es que esté entretejido en múltiples partes del modelo, y apagarlo probablemente implicaría obstaculizar el conocimiento de la IA sobre química. Cualquier ajuste puede tener beneficios, pero también desventajas significativas.
Dicho esto, si somos capaces de profundizar y observar con más claridad la “mente” de la IA, DeepMind y otros tienen la esperanza de que la interpretabilidad mecanicista podría representar un camino plausible hacia la alineación, el proceso de asegurarse de que la IA realmente esté haciendo lo que queremos que haga.