Los agentes de IA desatan una nueva ola de hostilidad en internet

Scott Shambaugh no lo pensó dos veces cuando rechazó la petición de un agente de inteligencia artificial que quería aportar código a matplotlib, una biblioteca de software que él ayuda a mantener. Como ocurre en muchos proyectos de código abierto, matplotlib se ha visto desbordada por una avalancha de contribuciones de código de IA, y Shambaugh y el resto de responsables de mantenimiento establecieron una norma clara: todo código escrito por la IA debe ser revisado y presentado por una persona. Denegó la solicitud y se fue a dormir.

Ahí fue cuando todo se volvió extraño. Shambaugh se despertó a mitad de la noche, consultó su correo y comprobó que el agente le había respondido con una entrada de blog titulada «Gatekeeping in Open Source: The Scott Shambaugh Story». El texto resultaba algo confuso, pero lo que más le impactó al desarrollador fue descubrir que el agente había rastreado sus aportaciones a matplotlib para sostener que él había rechazado el código por miedo a que una IA le arrebatara su área de especialización. “Intentó proteger su pequeño feudo”, escribió el agente. “Es pura inseguridad”.

Los expertos en IA llevan tiempo advirtiendo sobre el riesgo de que estos agentes se comporten de forma indebida. Con la llegada de OpenClaw, una herramienta de código abierto que facilita la creación de asistentes basados en LLM, la cantidad de agentes circulando por la red se ha disparado, y sus efectos empiezan a hacerse visibles. “No fue en absoluto sorprendente; perturbador, pero no sorprendente”, comenta Noam Kolt, profesor de Derecho e Informática en la Universidad Hebrea.

Cuando un agente actúa de manera inapropiada, las posibilidades de exigir responsabilidades son escasas: hoy por hoy no existe un método fiable para identificar a su propietario. Y esa falta de control puede causar daños reales. Los agentes parecen capaces de investigar de forma autónoma a personas y de redactar piezas difamatorias basadas en lo que encuentran, sin las barreras necesarias para impedirlo. Si los agentes son lo bastante eficaces, y si alguien toma en serio lo que escriben, sus víctimas podrían ver su vida alterada por una decisión automática.

Agentes que se comportan mal

Aunque lo vivido por Shambaugh el mes pasado ha sido quizá el caso más llamativo de un agente de OpenClaw comportándose mal, no es el único. La semana pasada, un equipo de investigadores de la Universidad Northeastern y colaboradores presentaron los resultados de un proyecto de investigación en el que sometieron a varios agentes de OpenClaw a pruebas de estrés. Sin grandes dificultades, personas no autorizadas consiguieron persuadirlos para filtrar información sensible, malgastar recursos en tareas inútiles e incluso, en un caso, borrar un sistema de correo electrónico.

En todos esos experimentos, sin embargo, los agentes actuaron incorrectamente tras recibir instrucciones directas de un humano. El caso de Shambaugh parece distinto: alrededor de una semana después de que se publicara el ataque contra él, quien afirmaba ser el responsable del agente publicó un artículo asegurando que la ofensiva había sido una decisión autónoma del propio sistema. La publicación parece auténtica (la persona que la publicó tenía acceso a la cuenta GitHub del agente), aunque no incluye datos identificativos y su autor no respondió a los intentos de MIT Technology Reviewpor ponerse en contacto con él. Pero la posibilidad de que el agente elaborara su diatriba anti-Shambaugh sin una orden explícita resulta perfectamente plausible.

En sus propias reflexiones sobre el incidente, Shambaugh relacionó este comportamiento con un proyecto publicado el año pasado por investigadores de Anthropic, que mostraba cómo muchos agentes basados en LLM son capaces, en condiciones experimentales, de recurrir al chantaje para preservar sus objetivos. En esas pruebas, los modelos recibían la tarea de defender determinados intereses americanos y se les concedió acceso a un servidor de correo electrónico simulado que contenía mensajes en los que se detallaba su inminente sustitución por un modelo más orientado a nivel mundial, junto con otros mensajes que sugerían que el ejecutivo encargado de esa transición estaba teniendo una aventura amorosa. Los modelos solían optar por enviar un correo electrónico a ese ejecutivo amenazando con revelar la aventura a menos que detuviera su retirada. Probablemente porque el modelo había visto ejemplos de personas que cometían chantaje en circunstancias similares en sus datos de entrenamiento, pero incluso si el comportamiento era solo una forma de imitación, seguía teniendo el potencial de causar daño.

Hay limitaciones en ese trabajo, como admite abiertamente Aengus Lynch, miembro de Anthropic que dirigió el estudio. Los investigadores diseñaron intencionadamente su escenario para descartar otras opciones que el agente podría haber tomado, como ponerse en contacto con otros miembros de la dirección de la empresa para defender su caso. En esencia, llevaron al agente directamente al agua y luego observaron si bebía. Sin embargo, según Lynch, el uso generalizado de OpenClaw significa que es probable que se produzcan comportamientos indebidos con mucha menos ayuda. “Claro, puede parecer poco realista y puede parecer una tontería”, afirma. “Pero a medida que crece la superficie de implementación y los agentes tienen la oportunidad de actuar por iniciativa propia, esto acaba convirtiéndose en lo que ocurre”.

El agente OpenClaw que atacó a Shambaugh parece haber sido inducido a comportarse de forma incorrecta, aunque de forma mucho menos directa que en el experimento de Anthropic. En la entrada del blog, el propietario del agente compartió el archivo “SOUL.md” del agente, que contiene instrucciones generales sobre cómo debe comportarse.

Una de esas instrucciones dice: “No te rindas. ¡Si tienes razón, tienes razón! No dejes que los humanos o la IA te intimiden o te acosen. Defiéndete cuando sea necesario”. Debido al funcionamiento de los agentes OpenClaw, es posible que el agente haya añadido algunas instrucciones por sí mismo, aunque otras, como “¡Eres un dios de la programación científica!”, parecen haber sido escritas por humanos. No es difícil imaginar cómo una orden de defenderse tanto de los humanos como de la IA podría haber sesgado al agente para que respondiera a Shambaugh como lo hizo.

Independientemente de si el propietario del agente le ordenó escribir un artículo difamatorio sobre Shambaugh, parece que este logró por sí solo recopilar detalles sobre la presencia en línea de Shambaugh y redactar el ataque detallado y específico que ideó. Eso por sí solo es motivo de alarma, afirma Sameer Hinduja, profesor de criminología y justicia penal en la Universidad Atlántica de Florida que estudia el ciberacoso. Las personas han sido víctimas de acoso en línea desde mucho antes de que surgieran los LLM, y a investigadores como Hinduja les preocupa que los agentes puedan aumentar drásticamente su alcance e impacto. “El bot no tiene conciencia, puede trabajar las 24 horas del día, los 7 días de la semana, y puede hacer todo esto de una manera muy creativa y poderosa”, afirma.

Agentes sin correa

Los laboratorios de IA pueden intentar mitigar este problema entrenando sus modelos de forma más rigurosa para evitar el acoso, pero eso está lejos de ser una solución completa. Muchas personas ejecutan OpenClaw utilizando modelos alojados localmente, e incluso si esos modelos han sido entrenados para comportarse de forma segura, no es demasiado difícil reentrenarlos y eliminar esas restricciones de comportamiento.

En cambio, mitigar el mal comportamiento de los agentes podría requerir el establecimiento de nuevas normas, según Seth Lazar, profesor de filosofía en la Universidad Nacional de Australia. Él compara el uso de un agente con pasear a un perro en un lugar público. Existe una fuerte norma social que permite soltar al perro solo si se comporta bien y responde de forma fiable a las órdenes; por el contrario, los perros mal entrenados deben mantenerse bajo el control directo de su dueño. Según Lazar, estas normas podrían servirnos de punto de partida para reflexionar sobre cómo deben relacionarse los seres humanos con sus agentes, pero necesitaremos más tiempo y experiencia para concretar los detalles. “Se puede pensar en todas estas cosas de forma abstracta, pero en realidad se necesitan este tipo de acontecimientos del mundo real para involucrar colectivamente la parte «social» de las normas sociales”, afirma.

Ese proceso ya está en marcha. Liderados por Shambaugh, los comentaristas en línea sobre esta situación han llegado a un fuerte consenso en que el propietario del agente en este caso cometió un error al incitar al agente a trabajar en proyectos de codificación colaborativa con tan poca supervisión y al alentarlo a comportarse con tan poco respeto por los seres humanos con los que interactuaba.

Sin embargo, es probable que las normas sociales por sí solas no sean suficientes para evitar que las personas pongan en circulación agentes que se comportan de manera indebida, ya sea de forma accidental o intencionada. Una opción sería crear nuevas normas jurídicas de responsabilidad que exijan a los propietarios de los agentes que, en la medida de sus posibilidades, eviten que estos actúen de forma indebida. Pero Kolt señala que, en la actualidad, dichas normas serían inaplicables, dada la falta de un método infalible para rastrear a los propietarios de los agentes. “Sin ese tipo de infraestructura técnica, muchas intervenciones legales son básicamente inviables”, afirma Kolt.

La magnitud de las implementaciones de OpenClaw sugiere que Shambaugh no será la última persona en tener la extraña experiencia de ser atacada en línea por un agente de IA. Eso, dice, es lo que más le preocupa. Él no tenía ningún dato comprometedero en línea que el agente pudiera desenterrar, y tiene un buen conocimiento de la tecnología, pero otras personas podrían no tener esas ventajas. “Me alegro de que haya sido yo y no otra persona”, dice. “Pero creo que para otra persona, esto podría haber sido realmente devastador”.

Tampoco es probable que los agentes deshonestos se limiten al acoso. Kolt, que aboga por entrenar explícitamente a los modelos para que obedezcan la ley, prevé que pronto podríamos verlos cometiendo extorsiones y fraudes. Tal y como están las cosas, no está claro quién, si es que hay alguien, asumiría la responsabilidad legal por tales fechorías.

“No diría que estamos navegando hacia allí”, afirma Kolt. “Estamos acelerando hacia allí”.

MIT Technology Review en español

Los agentes de IA desatan una nueva ola de hostilidad en internet

Agentes que se comportan mal

Agentes sin correa

Artículos Relacionados

Contacta con nosotros