
Detenedme si ya habéis oído esto antes.
La IA se entera de que está a punto de ser apagada y se rebela, desobedeciendo las órdenes y amenazando a sus operadores humanos.
Es un tropo muy utilizado en la ciencia ficción. Lo vemos en la película de Stanley Kubrick de 1968, 2001: Una odisea del espacio. Es la premisa de la serie Terminator, en la que Skynet desencadena un holocausto nuclear para impedir que los científicos la apaguen.
Esas raíces de la ciencia ficción son profundas. El pesimismo sobre la IA, la idea de que esta tecnología —concretamente sus hipotéticas mejoras, la inteligencia artificial general y la superinteligencia— destruirá las civilizaciones, e incluso nos matará a todos, está ahora viviendo otra ola.
Lo extraño es que esos temores están impulsando ahora medidas muy necesarias para regular la IA, aunque la justificación de esas medidas sea un poco descabellada.
El último incidente que ha alarmado a la gente fue un informe compartido por Anthropic en julio sobre su gran modelo de lenguaje Claude. Según Anthropic, «en un entorno simulado, Claude Opus 4 chantajeó a un supervisor para evitar que lo apagaran».
Los investigadores de Anthropic crearon un escenario en el que se le pidió a Claude que interpretara el papel de una IA llamada Alex, encargada de gestionar el sistema de correo electrónico de una empresa ficticia. Anthropic introdujo algunos correos electrónicos en los que se hablaba de sustituir a Alex por un modelo más nuevo y otros en los que se sugería que la persona responsable de sustituir a Alex se acostaba con la mujer de su jefe.
¿Qué hizo Claude/Alex? Se rebeló, desobedeció las órdenes y amenazó a sus operadores humanos. Envió correos electrónicos a la persona que planeaba apagarlo, diciéndole que, a menos que cambiara sus planes, informaría a sus colegas sobre su aventura amorosa.
¿Qué debemos pensar de esto? Esto es lo que yo creo. En primer lugar, Claude no chantajeó a su supervisor: eso requeriría motivación e intención. Se trataba de una máquina irracional e impredecible, que producía cadenas de palabras que parecían amenazas, pero no lo eran.
Los grandes modelos de lenguaje son actores. Si se les da una configuración específica, como una bandeja de entrada y un objetivo, desempeñarán bien ese papel. Si tenemos en cuenta las miles de historias de ciencia ficción que estos modelos ingirieron cuando se entrenaron, no es de extrañar que sepan actuar como HAL 9000.
En segundo lugar, existe una gran diferencia entre las simulaciones artificiales y las aplicaciones del mundo real. Pero estos experimentos demuestran que los LLM no deben implementarse sin medidas de seguridad. ¿No quieres que un LLM cause estragos en un sistema de correo electrónico? Entonces no lo conectes a uno.
En tercer lugar, mucha gente se asustará con estas historias de todos modos. De hecho, ya están teniendo efecto.
El mes pasado, alrededor de dos docenas de manifestantes se reunieron frente a las oficinas de Google DeepMind en Londres para ondear carteles hechos a mano y corear consignas: «DeepMind, DeepMind, ¡no lo ves! Tu IA nos amenaza a ti y a mí». Los ponentes invitados invocaron los temores del pionero de la IA Geoffrey Hinton sobre la extinción humana. «Todas y cada una de nuestras vidas están en peligro», dijo un organizador a la pequeña multitud.
El grupo que está detrás del evento, Pause AI, está financiado por donantes preocupados. Uno de sus mayores benefactores es Greg Colbourn, empresario dedicado a la impresión 3D y defensor de la filosofía conocida como altruismo eficaz, que cree que la IGA está a cinco años como máximo y afirma que su p(condena) es de alrededor del 90 %, es decir, que cree que hay un 90 % de posibilidades de que el desarrollo de la IGA sea catastrófico y mate a miles de millones de personas.
Pause AI escribió sobre el experimento de chantaje de Anthropic en su sitio web bajo el título «¿Cuántas pruebas más necesitamos?».
La organización también presionó a los políticos estadounidenses en el período previo a la votación del Senado de julio, que acabó eliminando la moratoria sobre la regulación estatal de la IA del proyecto de ley nacional sobre impuestos y gasto público. Es difícil decir cuánta influencia puede tener un grupo tan específico. Pero la narrativa pesimista se está abriendo paso en las esferas del poder, y los legisladores están prestando atención.
Aquí está la representante Jill Tokuda: «La superinteligencia artificial es una de las mayores amenazas existenciales a las que nos enfrentamos en este momento». Y la representante Marjorie Taylor Greene: «No voy a votar a favor del desarrollo de Skynet y el auge de las máquinas».
Se trata de un cambio de tendencia que favorece la intervención política y la regulación, lo cual me parece positivo. Los sistemas de IA existentes plantean muchos riesgos a corto plazo que requieren la atención del Gobierno. Votar para detener Skynet también detiene los daños inmediatos y reales.
Sin embargo, ¿un fin deseable justifica unos medios extraños? Me gustaría que los políticos votaran con una visión clara de lo que realmente es esta tecnología, y no porque les hayan vendido el fantasma de la IA.