El aprendizaje automático antagónico puede manipular los sistemas tradicionales de inteligencia artificial para que funcionen mal o revelen información confidencial. Un coche autónomo acabó convencido de que las señales de alto eran límites de velocidad
La inteligencia artificial (IA) no revolucionará nada si no logramos protegerla contra los hackers. Esta fue la advertencia que lanzó la profesora de UC Berkeley (EE.UU.) Dawn Song sobre el escenario de la reciente conferencia EmTech Digital de MIT Technology Review.
Para esta especialista en análisis de riesgos de seguridad relacionados con la IA y el aprendizaje automático. las nuevas técnicas para explorar y manipular los sistemas de aprendizaje automático, conocidas como métodos de "aprendizaje automático antagónico", podrían causar grandes problemas a cualquiera que intente aprovechar el poder de la inteligencia artificial en los negocios. En su opinión, el aprendizaje automático antagónico podría usarse para atacar casi cualquier sistema basado en la tecnología.
Song sentenció: "Es un gran problema. Debemos coordinarnos para resolverlo".
El aprendizaje automático antagónico implica la introducción experimental de datos en un algoritmo para revelar la información en la que había sido entrenado, o la distorsión de información para que el sistema funcione mal. Si se introducen muchas imágenes en un algoritmo de visión artificial, por ejemplo, es posible realizar la ingeniería inversa de su funcionamiento y garantizar ciertos tipos de resultados, incluidos los incorrectos.
Song mostró varios ejemplos de trucos de aprendizaje antagónico que su grupo de investigación había explorado. Un proyecto, realizado en colaboración con Google, se centró en analizar algoritmos de aprendizaje automático entrenados para generar respuestas automáticas a partir de correos electrónico (en este caso, el conjunto de datos del correo electrónico de Enron). El trabajo demostró que, si se crean los mensajes adecuados, es posible que la IA revele datos confidenciales, como los números de las tarjetas de crédito. Google utilizó estos resultados para evitar que Smart Compose, la herramienta que genera texto automáticamente en Gmail, fuera explotada.
Otro proyecto se centró en modificar las señales de tráfico con unos adhesivos, en apariencia inocuos, para engañar a los sistemas de visión artificial de muchos vehículos. En un vídeo de demostración, Song mostró cómo se podría engañar al coche para que creyera que una señal de alto significaba que el límite de velocidad era de 50 kilómetros por hora. Esto podría ser un gran problema para un sistema automatizado de conducción que se basa en ese tipo de información.
El aprendizaje automático antagónico es un área que cada vez genera más interés entre los investigadores de aprendizaje automático. En los últimos dos años, otros grupos de investigación han demostrado cómo las API de aprendizaje automático online se pueden rastrear y explotar para idear formas de engañarlas o revelar alguna información confidencial.
Como era de esperar, el aprendizaje automático antagónico también interesa mucho al sector de la defensa. Con un número creciente de sistemas militares que funcionan con aprendizaje automático, incluidos los de detección y algunas armas, existe un gran potencial para que estas técnicas se utilicen tanto de forma defensiva como ofensiva.
Este año, el departamento de investigación del Pentágono, la agencia DARPA, lanzó un gran proyecto llamado Guaranteeing AI Robustness against Deception (GARD, por sus siglas en inglés), destinado a estudiar el aprendizaje automático antagónico. La directora del programa, Hava Siegelmann, dijo recientemente al MIT Technology Review que el objetivo de este proyecto era desarrollar modelos de IA capaces de resistir a una amplia gama de ataques antagónicos, en lugar de limitar su defensa a algunos ataques específicos.