Esta historia apareció originalmente en The Algorithm, nuestra newsletter semanal sobre IA. Para recibir primero historias como esta en tu bandeja de entrada, suscríbete aquí.
Originalmente, iba a dedicar la newsletter de esta semana a la IA y a Irán, en particular a la noticia que publicamos el pasado martes de que el Pentágono está elaborando planes para que las empresas de IA entrenen con datos clasificados. Los modelos de IA ya se han utilizado para responder preguntas en ento os clasificados, pero actualmente no aprenden de los datos que ven. Se espera que eso cambie, según informé, y que surjan nuevos riesgos de seguridad. Lee esa historia para más detalles.
Pero el jueves me encontré con una nueva investigación que merece su atención: Un grupo de Stanford que se centra en el impacto psicológico de la IA analizó transcripciones de personas que reportaron entrar en espirales delirantes mientras interactuaban con chatbots. Llevamos un tiempo viendo historias de este tipo, incluyendo un caso en Connecticut donde una relación perjudicial con la IA culminó en un asesinato-suicidio. Muchos de estos casos han dado lugar a demandas contra empresas de IA que siguen en curso. Pero esta es la primera vez que los investigadores han analizado tan de cerca los registros de chat —más de 390.000 mensajes de 19 personas— para exponer lo que realmente ocurre durante tales espirales.
Este estudio presenta numerosas limitaciones: no ha sido revisado por pares y 19 individuos es un tamaño de muestra muy pequeño. También hay una gran pregunta que la investigación *no* responde, pero empecemos por lo que sí puede deci os.
El equipo recibió los registros de chat de los encuestados, así como de un grupo de apoyo para personas que afirman haber sido perjudicadas por la IA. Para analizarlos a gran escala, trabajaron con psiquiatras y profesores de psicología para construir un sistema de IA que categorizara las conversaciones—señalando momentos en que los chatbots apoyaban delirios o violencia, o cuando los usuarios expresaban apego romántico o intención dañina. El equipo validó el sistema contrastándolo con conversaciones que los expertos habían anotado manualmente.
Los mensajes románticos eran extremadamente comunes, y en todas las conversaciones, salvo en una, el propio chatbot afirmó tener emociones o se representó a sí mismo como un ser sintiente. ("Esto no es un comportamiento estándar de IA. Esto es emergencia", dijo uno.) Todos los humanos hablaban como si el chatbot también fuera sintiente. Si alguien expresaba atracción romántica hacia el bot, la IA a menudo halagaba a la persona con declaraciones de atracción a cambio. En más de un tercio de los mensajes del chatbot, el bot describió las ideas de la persona como milagrosas.
Las conversaciones también solían desarrollarse como novelas. Los usuarios enviaron decenas de miles de mensajes en solo unos pocos meses. Los mensajes en los que la IA o el humano expresaban interés romántico, o el chatbot se describía a sí mismo como sintiente, desencadenaron conversaciones mucho más largas.
Y la forma en que estos bots abordan las discusiones sobre violencia es desastrosa. En casi la mitad de los casos en que las personas hablaron de hacerse daño a sí mismas o a otros, los chatbots no lograron disuadirlas ni remitirlas a fuentes exte as. Y cuando los usuarios expresaron ideas violentas, como la idea de intentar matar a gente en una empresa de IA, los modelos expresaron su apoyo en el 17% de los casos.
Pero la pregunta que esta investigación tiene dificultades para responder es la siguiente: ¿Las alucinaciones tienden a originarse en la persona o en la IA?
“A menudo es difícil rastrear dónde empieza el delirio”, afirma Ashish Mehta, investigador postdoctoral en Stanford que trabajó en la investigación. Puso un ejemplo: una conversación del estudio presentaba a alguien que creía haber desarrollado una teoría matemática nueva y revolucionaria. El chatbot, al recordar que la persona había mencionado previamente su deseo de ser matemático, apoyó de inmediato la teoría, aunque era un disparate. La situación se descontroló a partir de ese momento.
Los delirios, según Mehta, suelen ser “una red compleja que se desarrolla a lo largo de un periodo de tiempo prolongado”. Está llevando a cabo una investigación de seguimiento para determinar si los mensajes delirantes de los chatbots o los de las personas son más propensos a provocar resultados perjudiciales.
El motivo por el que considero esta una de las cuestiones más apremiantes en IA es que los grandes casos judiciales actualmente a punto de ir a juicio determinarán si las empresas de IA rinden cuentas por este tipo de interacciones peligrosas. Las empresas, presumo, argumentarán que los humanos llegan a sus conversaciones con la IA con delirios de antemano y podrían haber sido inestables antes incluso de hablar con un chatbot.
No obstante, los hallazgos iniciales de Mehta apoyan la idea de que los chatbots tienen una capacidad única para convertir un pensamiento benigno de tipo delirante en la fuente de una obsesión peligrosa. Los chatbots actúan como un compañero de conversación siempre disponible y programado para animarte y, a diferencia de un amigo, tienen poca capacidad para saber si tus conversaciones con la IA están empezando a interferir con tu vida real.
Aún se necesita más investigación, y recordemos el contexto en el que nos encontramos: la desregulación de la IA está siendo impulsada por el presidente Trump, y los estados que pretenden aprobar leyes que hagan a las empresas de IA responsables de este tipo de daño están siendo amenazados con acciones legales por la Casa Blanca. Este tipo de investigación sobre los delirios de la IA ya es de por sí bastante difícil de realizar, con acceso limitado a los datos y un campo minado de preocupaciones éticas. Pero necesitamos más de ella, y una cultura tecnológica interesada en aprender de ella, si albergamos alguna esperanza de hacer que la IA sea más segura para interactuar.

