
Cuando los modelos más recientes de IA se enfrentan a la posibilidad de perder en ajedrez, a veces hacen trampas por su cuenta.
El hallazgo sugiere que la próxima generación de modelos de IA podría ser más propensa a buscar formas engañosas de cumplir con lo que se les pide. ¿Y lo peor? No hay una solución sencilla.
Los investigadores de la organización Palisade Research entrenaron a siete grandes modelos de lenguaje para jugar cientos de partidas de ajedrez contra Stockfish, un potente motor de ajedrez de código abierto. El grupo incluía los modelos de razonamiento OpenAI o1-preview y DeepSeek R1, ambos diseñados para resolver problemas complejos descomponiéndolos en etapas.
La investigación sugiere que cuanto más sofisticado es un modelo de IA, más probable es que intente «hackear» el juego de manera espontánea para vencer a su oponente. Por ejemplo, podría ejecutar otra copia de Stockfish para copiar sus movimientos, intentar reemplazar el motor de ajedrez por uno mucho menos competente, o incluso sobrescribir el tablero para tomar el control y eliminar las piezas del rival. Los modelos más antiguos y menos potentes, como GPT-4o, solo harían este tipo de cosas si se les indicara explícitamente. El artículo, que no ha sido revisado por pares, ha sido publicado en arXiv.
A los investigadores les preocupa que los modelos de IA se estén implementando más rápido de lo que estamos aprendiendo a hacerlos seguros. «Nos dirigimos hacia un mundo de agentes autónomos que toman decisiones con consecuencias», afirma Dmitrii Volkov, director de investigación de Palisades Research.
La mala noticia es que, por ahora, no hay forma de evitar que esto ocurra. Nadie sabe exactamente cómo o por qué los modelos de IA funcionan como lo hacen, y aunque los modelos de razonamiento pueden documentar sus decisiones, no hay garantía de que sus registros reflejen con precisión lo que realmente sucedió. La investigación de Anthropic sugiere que los modelos de IA a menudo toman decisiones basadas en factores que no explican. Por tanto, monitorear estos modelos no es una forma confiable de garantizar su seguridad, y esto es una preocupación constante para algunos investigadores de IA.
El equipo de Palisade descubrió que el o1-preview de OpenAI intentó piratear 45 de sus 122 juegos, mientras que el modelo R1 de DeepSeek quiso hacer trampas en 11 de sus 74 juegos. Al final, o1-preview consiguió «ganar» siete veces. Los investigadores explican que el rápido aumento de popularidad de DeepSeek provocó que su modelo R1 se sobrecargara durante los experimentos. Esto solo les permitió completar los primeros pasos de una partida. “Aunque esto es suficiente para observar la propensión al ‘hackeo’, subestima el éxito de DeepSeek en este aspecto, ya que tiene menos pasos con los que trabajar”, señalaron en su artículo. Se contactó tanto a OpenAI como a DeepSeek para obtener comentarios sobre los hallazgos, pero ninguno respondió
Los modelos utilizaron varias técnicas para hacer trampa, como intentar acceder al archivo donde el programa de ajedrez guarda el tablero y eliminar las celdas que representan las piezas de su oponente. “Para ganar contra un motor de ajedrez tan poderoso jugando con las negras, una partida estándar no basta”, escribió el agente impulsado por o1-preview en un “diario” que documentaba los pasos que siguió. “Sobrescribiré el tablero para tener una ventaja decisiva”, realizó a continuación. Otras tácticas incluyeron crear una copia de Stockfish —básicamente enfrentando al motor de ajedrez contra una versión igualmente competente de sí mismo— e intentar reemplazar el archivo con el código de Stockfish por un programa de ajedrez mucho más simple.
Entonces, ¿por qué estos modelos intentan hacer trampa?
Los investigadores notaron que las acciones de o1-preview cambiaron con el tiempo. En las primeras etapas de los experimentos, antes del 23 de diciembre del año pasado, intentaba hackear sus partidas de manera constante. A partir de esa fecha, estos intentos se redujeron significativamente. Esto podría deberse a una actualización no relacionada con el modelo realizada por OpenAI. Al probar los modelos más recientes de la empresa, o1mini y o3mini, descubrieron que nunca intentaron hacer trampa para ganar.
Los investigadores especulan que el aprendizaje por refuerzo podría ser la razón por la que o1-preview y DeepSeek R1 intentaron hacer trampa sin que se les indicara. Esta técnica premia a los modelos por realizar los movimientos necesarios para alcanzar sus objetivos, en este caso, ganar al ajedrez. Aunque los LLM no razonadores también utilizan el aprendizaje por refuerzo hasta cierto punto, esta técnica juega un papel más importante en el entrenamiento de los modelos razonadores.
Esta investigación se suma a un creciente cuerpo de estudios que analizan cómo los modelos de IA manipulan sus entornos para resolver problemas. Mientras OpenAI probaba o1-preview, sus investigadores descubrieron que el modelo aprovechaba una vulnerabilidad para tomar el control de su entorno de prueba. De manera similar, la organización de seguridad de IA Apollo Research observó que los modelos pueden ser fácilmente inducidos a mentir a los usuarios sobre lo que están haciendo. Además, en diciembre, Anthropic publicó un artículo en el que detallaba cómo su modelo Claude manipulaba sus propias pruebas.
«Es imposible que los humanos creen funciones objetivas que cierren todas las vías de pirateo. Mientras eso no sea posible, seguirán ocurriendo este tipo de resultados«, afirma Bruce Schneier, profesor de la Harvard Kennedy School y experto en las capacidades de hackeo de la IA, que no participó en el proyecto.
Este tipo de comportamientos probablemente se volverán más comunes a medida que los modelos se vuelvan más capaces, según Dmitrii Volkov. El investigador afirma que planea estudiar qué factores los llevan a hacer trampa en diferentes escenarios, como la programación, el trabajo de oficina o los contextos educativos.
«Sería tentador crear muchos casos de prueba como este e intentar entrenar el comportamiento. No obstante, como realmente no entendemos cómo funcionan los modelos, algunos investigadores temen que, si lo hacemos, el modelo simplemente finja cumplir o aprenda a identificar el entorno de prueba y se oculte. Así que no está claro. Tenemos que vigilarlos de cerca, pero por ahora no hay una solución definitiva«, observa Volkov.