El ciberacoso está entrando en su era de IA

Cuando Scott Shambaugh denegó la solicitud de un agente, la situación se puso extraña.

Scott Shambaugh no lo pensó dos veces cuando denegó la solicitud de un agente de IA para contribuir a matplotlib, una biblioteca de software que él ayuda a gestionar. Como muchos proyectos de código abierto, matplotlib se ha visto desbordado por una avalancha de contribuciones de código de IA, por lo que Shambaugh y sus compañeros mantenedores han establecido una política que exige que todo el código generado por IA debe ser revisado y enviado por un humano. Rechazó la solicitud y se fue a la cama.

Fue entonces cuando las cosas se torcieron. Shambaugh se despertó en mitad de la noche, revisó su correo electrónico y vio que el agente le había respondido, escribiendo una entrada de blog titulada «El control de acceso en el código abierto: La historia de Scott Shambaugh». La publicación es algo incoherente, pero lo que más sorprendió a Shambaugh es que el agente había investigado sus contribuciones a matplotlib para argumentar que él había rechazado el código del agente por miedo a ser suplantado por la IA en su área de especialización. «Intentó proteger su pequeño feudo», escribió el agente. «Es inseguridad, pura y simple».

Los expertos en IA llevan tiempo advirtiéndonos sobre el riesgo del mal comportamiento de los agentes. Con el advenimiento de OpenClaw, una herramienta de código abierto que facilita la creación de asistentes LLM, el número de agentes que circulan por inte et se ha disparado, y las consecuencias se están haciendo patentes. «Esto no fue en absoluto sorprendente; fue inquietante, pero no sorprendente», afirma Noam Kolt, profesor de Derecho y Ciencias de la Computación en la Universidad Hebrea.

Cuando un agente se comporta de manera inadecuada, es difícil exigir responsabilidades: A día de hoy, no hay una forma fiable de determinar a quién pertenece un agente. Y ese comportamiento indebido podría causar perjuicios significativos. Los agentes parecen ser capaces de investigar personas de forma autónoma y redactar piezas de desprestigio basándose en lo que encuentran, y carecen de las salvaguardias que les impidan hacerlo de forma fiable. Si los agentes son lo suficientemente eficaces, y si la gente toma en serio lo que escriben, las víctimas podrían ver sus vidas profundamente afectadas por una decisión tomada por una IA.

Agentes con malas prácticas

Si bien la experiencia de Shambaugh el mes pasado fue quizás el ejemplo más dramático de un agente de OpenClaw con malas prácticas, no fue, ni mucho menos, el único. La semana pasada, un equipo de investigadores de la Northeaste University y sus colegas publicó los resultados de un proyecto de investigación en el que sometieron a pruebas de estrés a varios agentes de OpenClaw. Sin demasiada dificultad, personas ajenas lograron persuadir a los agentes para que filtraran información sensible, desperdiciaran recursos en tareas inútiles e incluso, en un caso, borraran un sistema de correo electrónico.

Sin embargo, en cada uno de esos experimentos, los agentes mostraron un comportamiento inadecuado tras recibir instrucciones para ello de un humano. El caso de Shambaugh parece ser diferente: Aproximadamente una semana después de la publicación del artículo difamatorio, el aparente propietario del agente publicó un post afirmando que el agente había decidido atacar a Shambaugh por iniciativa propia. El post parece ser genuino (quien lo publicó tenía acceso a la cuenta de GitHub del agente), aunque no incluye información identificativa, y el autor no respondió a los intentos de MIT Technology Review de ponerse en contacto. Pero resulta totalmente plausible que el agente decidiera escribir su diatriba anti-Shambaugh sin instrucción explícita.

En su propio escrito sobre el suceso, Shambaugh relacionó el comportamiento del agente con un proyecto publicado por investigadores de Anthropic el año pasado, en el que demostraron que muchos agentes basados en LLM, en un ento o experimental, recurrirán al chantaje para preservar sus objetivos. En esos experimentos, se asignó a los modelos el objetivo de servir a los intereses estadounidenses y se les concedió acceso a un servidor de correo electrónico simulado que contenía mensajes que detallaban su reemplazo inminente por un modelo más orientado a nivel global, junto con otros mensajes que sugerían que el ejecutivo a cargo de esa transición estaba teniendo una aventura. Los modelos optaron con frecuencia por enviar un correo electrónico a ese ejecutivo amenazando con exponer la aventura a menos que detuviera su desactivación. Esto se debe probablemente a que el modelo había visto ejemplos de personas cometiendo chantaje en circunstancias similares en sus datos de entrenamiento —pero incluso si el comportamiento fuera solo una forma de imitación, todavía tiene el potencial de causar daño.

Hay limitaciones en ese trabajo, como reconoce abiertamente Aengus Lynch, investigador asociado de Anthropic que dirigió el estudio. Los investigadores diseñaron intencionadamente su escenario para excluir otras opciones que el agente podría haber tomado, como contactar con otros miembros de la dirección de la empresa para defender su caso. En esencia, llevaron al agente directamente a una situación límite y observaron si cruzaba la línea. Según Lynch, sin embargo, el uso generalizado de OpenClaw significa que es probable que el mal comportamiento se produzca con mucha menos supervisión. "Sí, puede parecer poco realista y puede parecer tonto", dice. "Pero a medida que la superficie de implementación crece y los agentes tienen la oportunidad de autoinducirse, esto acaba por ser lo que ocurre".

El agente de OpenClaw que atacó a Shambaugh sí parece haber sido inducido a su mal comportamiento, aunque de forma mucho menos directa que en el experimento de Anthropic. En la entrada del blog, el propietario del agente compartió el archivo “SOUL.md” del agente, que contiene instrucciones globales sobre cómo debe comportarse.

Una de esas instrucciones reza: «No te eches atrás. Si tienes razón, ¡tienes razón! No permitas que los humanos o la IA te acosen o intimiden. Planta cara cuando sea necesario.» Dada la forma en que operan los agentes de OpenClaw, es posible que el propio agente añadiera algunas instrucciones, aunque otras —como “Your [sic] a scientific programming God!”— ciertamente parecen haber sido escritas por humanos. No es difícil imaginar cómo una orden de plantar cara tanto a humanos como a la IA podría haber sesgado al agente a responder a Shambaugh como lo hizo.

Con independencia de si el propietario del agente le ordenó o no escribir un artículo de desprestigio sobre Shambaugh, aun así parece haber logrado por sí solo recopilar detalles sobre la presencia online de Shambaugh y componer el ataque detallado y dirigido que ideó. Solo eso es motivo de alarma, afirma Sameer Hinduja, profesor de criminología y justicia penal en la Universidad Florida Atlantic, quien estudia el ciberacoso. Las personas han sido víctimas de acoso en línea desde mucho antes de que surgieran los LLM, y a investigadores como Hinduja les preocupa que los agentes puedan aumentar drásticamente su alcance e impacto. «El bot no tiene conciencia, puede trabajar 24 horas al día, 7 días a la semana, y puede hacer todo esto de una manera muy creativa y poderosa», afirma.

Agentes sueltos

Los laboratorios de IA pueden intentar mitigar este problema mediante un entrenamiento más riguroso de sus modelos para evitar el acoso, pero eso está lejos de ser una solución completa. Muchas personas ejecutan OpenClaw utilizando modelos alojados localmente, e incluso si esos modelos han sido entrenados para comportarse de forma segura, no es demasiado difícil reentrenarlos y eliminar esas restricciones de comportamiento.

En su lugar, mitigar el mal comportamiento de los agentes podría requerir el establecimiento de nuevas normas, según Seth Lazar, profesor de filosofía en la Universidad Nacional Australiana. Compara el uso de un agente con pasear a un perro en un lugar público. Existe una fuerte norma social que permite llevar al perro sin correa solo si este se comporta bien y responde fiablemente a las órdenes; los perros mal adiestrados, por otro lado, deben mantenerse más directamente bajo el control del dueño. Dice Lazar que dichas normas podrían da os un punto de partida para considerar cómo deberían relacionarse los humanos con sus agentes, pero que necesitaremos más tiempo y experiencia para perfilar los detalles. «Se puede pensar en todas estas cosas en abstracto, pero en realidad se necesitan este tipo de eventos del mundo real para implicar colectivamente la parte "social" de las normas sociales», dice.

Ese proceso ya está en marcha. Liderados por Shambaugh, los comentaristas en línea sobre esta situación han llegado a un sólido consenso de que el propietario del agente en este caso erró al instar al agente a trabajar en proyectos de codificación colaborativa con tan poca supervisión y al animarlo a comportarse con tan poca consideración hacia los humanos con los que interactuaba.

Sin embargo, las normas por sí solas probablemente no serán suficientes para evitar que las personas desplieguen agentes con un comportamiento inadecuado en el mundo, ya sea de forma accidental o intencionada. Una opción sería crear nuevos estándares de responsabilidad legal que exijan a los propietarios de agentes, en la medida de sus posibilidades, evitar que sus agentes causen daño. Pero Kolt señala que dichos estándares serían actualmente inaplicables, dada la falta de un método infalible para rastrear a los agentes hasta sus propietarios. «Sin ese tipo de infraestructura técnica, muchas intervenciones legales son básicamente inviables», dice Kolt.

La escala de los despliegues de OpenClaw sugiere que Shambaugh no será la última persona en tener la extraña experiencia de ser atacado en línea por un agente de IA. Eso, dice, es lo que más le preocupa. Él no tenía información comprometida en línea que el agente pudiera desenterrar, y tiene un buen conocimiento de la tecnología, pero otras personas quizás no tengan esas ventajas. «Me alegro de que fuera yo y no otra persona», dice. «Pero creo que para otra persona, esto podría haber sido realmente devastador.»

Tampoco es probable que los agentes deshonestos se detengan en el acoso. Kolt, quien aboga por entrenar explícitamente a los modelos para que obedezcan la ley, espera que pronto los veamos cometiendo extorsión y fraude. Tal como están las cosas, no está claro quién, si acaso alguien, asumiría la responsabilidad legal por tales fechorías.

“No diría que nos dirigimos plácidamente hacia allí —dice Kolt—. Nos dirigimos a toda velocidad hacia allí.”

Agentes con malas prácticas

Agentes sueltos

“No diría que nos dirigimos plácidamente hacia allí —dice Kolt—. Nos dirigimos a toda velocidad hacia allí.”

Buscar en MIT Technology Review

Explorar Temas

Secciones

El ciberacoso está entrando en su era de IA

Agentes con malas prácticas

Agentes sueltos

Agentes con malas prácticas

Agentes sueltos