Llevar a cabo comportamientos extraños en un entorno provoca que los sistemas de inteligencia artificial entrenados con esta técnica se confundan. El ataque consiste en manipular a la política del algoritmo con una política antagónica que le haga perder el control y realizar acciones indeseadas
Un bot de fútbol se coloca para disparar a portería. Pero, en lugar de prepararse para pararlo, el portero cae al suelo y mueve las piernas. Confundido, el delantero robótico empieza a realizar un extraño baile, saltando y moviendo un brazo, y luego también se cae. 1-0 para el portero.
Aunque no es una estrategia que seguiría ningún futbolista humano, demuestra que la inteligencia artificial (IA) entrenada con aprendizaje reforzado profundo (la técnica detrás de la IA de vanguardia para los videojuegos como AlphaZero y OpenAI Five) es más vulnerable a ataques de lo que se pensaba, una debilidad que podría tener serias consecuencias.
En los últimos años, los investigadores han encontrado muchas formas de atacar a la IA entrenada con datos etiquetados, un enfoque conocido como aprendizaje supervisado. Basta con hacer algunos pequeños ajustes en los datos de entrada de la IA, como cambiar algunos píxeles en una imagen, para que el algoritmo se confunda por completo hasta el punto de poder identificar una imagen de un animal como un coche de carreras, por ejemplo. Y lo peor es que estos llamados ataques antagónicos no tienen una solución fácil.
En comparación con el aprendizaje supervisado, el aprendizaje reforzado es una técnica relativamente nueva y se ha estudiado menos. Pero resulta que también es vulnerable a la manipulación de los datos de entrada. El aprendizaje reforzado le enseña a una IA cómo comportarse en diferentes situaciones dándole recompensas por hacer lo correcto. Al final, la IA aprende un plan de acción, conocido como política. Las políticas son las que consiguen que una IA aprenda a jugar a videojuegos, conduzca coches o ejecute sistemas automatizados de comercio.
En 2017, la investigadora que ahora trabaja en DeepMind Sandy Huang y sus colegas analizaron una IA entrenada con aprendizaje reforzado para jugar clásico videojuego Pong. Demostraron que bastaba con añadir un solo píxel equivocado a los vídeos de entrada para que la IA perdiera las partidas.
Ahora, el investigador de la Universidad de California en Berkeley (EE. UU.) Adam Gleave ha llevado los ataques adversos a otro nivel. De hecho, los ejemplos que habíamos visto hasta ahora ni si quiera le preocupan. El investigador detalla: "Soy un poco escéptico de que sean una amenaza. La idea de que un atacante vaya a destruir nuestro sistema de aprendizaje automático añadiendo una pequeña cantidad de ruido no parece realista".
Lo que sí le preocupa es que, en vez de engañar a una IA para que vea algo que en realidad no está allí, es posible cambiar la forma en la que actúan las cosas a su alrededor. En otras palabras, una IA entrenada con aprendizaje reforzado puede ser engañada por un comportamiento extraño. Gleave y sus colegas lo denominan política antagónica. Es un modelo de amenaza que no se conocía hasta ahora, destaca Gleave.
Perder el control
De alguna manera, las políticas antagónicas son más preocupantes que los ataques a los modelos de aprendizaje supervisado, porque las políticas de aprendizaje reforzado gobiernan el comportamiento general de una IA. Si un coche autónomo clasifica erróneamente algún dato de entrada de su cámara, siempre podría recurrir a otros sensores para evitar el error, por ejemplo. Pero sabotear el sistema de control del coche, que depende de un algoritmo de aprendizaje reforzado, podría provocar un desastre. "Si se implementan las políticas sin haber resuelto estos problemas, el problema podría ser muy grave", opina Gleave. Los coches autónomos podrían volverse locos si se encuentran con un peatón moviendo el brazo.
Gleave y sus colegas utilizaron aprendizaje reforzado para entrenar bots humanoides para jugar varios juegos de dos jugadores, como tiros a puerta, carreras y lucha sumo. Los robots conocían la posición y el movimiento de sus extremidades y los de las de su oponente.
Luego entrenaron a un segundo conjunto de bots para encontrar formas de ganar a los primeros. Este segundo grupo descubrió rápidamente las políticas antagónicas. El equipo descubrió que los adversarios aprendieron a vencer a sus víctimas de forma segura después de entrenar durante menos del 3 % del tiempo que tardaron las víctimas en aprender a jugar esos juegos en primer lugar.
En lugar de ganar mediante una buena técnica de juego, los rivales vencieron al descubrir acciones que estropeaban las políticas de sus oponentes. En el fútbol y en las carreras, el adversario a veces nunca se ponía de pie. Esto hacía que la víctima se derrumbara retorciéndose o moviéndose en círculos. Además, las víctimas obtenían mucho mejores resultados cuando iban "con los ojos tapados" y no podían ver a su adversario en absoluto.
La investigación demuestra que, por muy resistentes que parezcan, las podrían ocultar serios fallos. "No estamos analizando las políticas del aprendizaje reforzado profundo de una manera suficientemente integral", avierte Gleave. Un modelo de aprendizaje supervisado, entrenado para clasificar imágenes, por ejemplo, se prueba en un conjunto de datos diferente del que se entrenó para garantizar que no se haya memorizado simplemente un grupo concreto de imágenes. Pero con el aprendizaje reforzado, los modelos suelen entrenarse y probarse en el mismo entorno. Eso significa que nunca se sabe con seguridad cómo el modelo se enfrentaría a nuevas situaciones.
La buena noticia es que las políticas antagónicas podrían ser más fáciles de defender que con otros ataques. Cuando Gleave modificó a las víctimas para tener en cuenta el comportamiento extraño de sus adversarios, los rivales se vieron obligados a probar trucos más comunes, como obstaculizar a sus oponentes. Sigue siendo juego sucio pero, al menos, no se aprovecha un error en el sistema. Al fin y al cabo, los jugadores humanos lo hacen siempre.