La visión de máquinas ha llegado a superar a la humana. Pero unos investigadores de Google acaban de demostrar que la simple y propia distorsión de las cámaras engaña a los ordenadores fácilmente
Uno de los avances más espectaculares de la ciencia moderna ha sido la visión de máquinas. En tan muy pocos años, una nueva generación de técnicas de aprendizaje de máquinas ha cambiado la manera en la que ven los ordenadores.
Ahora las máquinas superan el rendimiento humano en reconocimiento facial y de objetos, y están de camino de revolucionar varias tareas basadas en la visión de máquinas como la conducción, la vigilancia y muchas más. La visión de máquinas ya es superhumana.
Pero está surgiendo un problema. Los investigadores han empezado a observar algunas carencias preocupantes en sus nuevos discípulos. Resulta que los algoritmos de visión de máquinas tienen un tendón de Aquiles que permite que sean engañados por imágenes modificadas que los humanos detectarían a simple vista.
Crédito: Emerging Technology from the arXiv.
Estas fotos modificadas se llaman imágenes antagonistas (adversarial images) y representan una importante amenaza. "Un ejemplo antagonista para el dominio del reconocimiento de caras podría consistir en unas marcas muy sutiles en la cara de una persona de forma que un observador humano reconocería su identidad correctamente, pero un sistema de aprendizaje de máquinas las clasificarían como personas distintas", explican los investigadores de Google Brain Alexey Kurakin y Samy Bengio, y el de la fundación Open IA Ian Goodfellow.
Dado el corto tiempo de vida que tienen los sistemas de aprendizaje de máquinas, poco se sabe acerca de las imágenes antagonistas. Nadie sabe cuál es la mejor manera de crearlas, cómo engañan a los sistemas de visión de máquinas ni cómo protegerse contra este tipo de ataque.
Hoy eso empieza a cambiar gracias al trabajo del equipo de Kurakin, que ha empezado a estudiarlas por primera vez. Su trabajo demuestra lo vulnerables que son los sistemas de aprendizaje de máquinas ante este tipo de ataque.
El equipo empieza con una base de datos estándar para las investigaciones de visión de máquinas, conocida como ImageNet. Es una base de datos organizada en función del contenido de las imágenes. Una prueba básica consiste en entrenar un algoritmo de visión de máquinas con parte de esta base de datos para después ponerlo a clasificar otra parte de la base de datos para probar su eficacia y precisión.
El rendimiento de estas pruebas indica la frecuencia con la que el algoritmo realiza la clasificación correcta con sus primeras cinco respuestas o incluso con su primera respuesta (la tasa de errores de 5 o la tasa de errores de 1).
Uno de los mejores sistemas de visión de máquinas es el algoritmo Inception v3 de Google, que tiene una tasa de error de 5 del 3,46%. Los humanos que se someten a la misma prueba tienen una tasa de error de 5 de alrededor del 5%, por lo que Inception v3 realmente tiene unas capacidades superhumanas.
El equipo de Kurakin creó una base de datos de imágenes contradictorias al modificar 50.000 imágenes de ImageNet de tres maneras distintas. Sus métodos se aprovechan de la idea de que las redes neuronales procesan los datos para emparejar una imagen con una clasificación determinada. La cantidad de información que requiere esta tarea, llamada entropía cruzada, refleja la dificultad de la tarea.
Su primer algoritmo realiza un pequeño cambio en la imagen para maximizar esta entropía cruzada. Su segundo algoritmo simplemente reitera este proceso para alterar la imagen aún más.
Ambos algoritmos cambian la imagen para dificultar su correcta clasificación. "Estos métodos pueden resultar en unas malas clasificaciones sin interés, como confundir dos razas de perro", escriben.
Su algoritmo final emplea un enfoque mucho más inteligente. Modifica una imagen para predisponer al sistema de visión de máquinas equivocarse su clasificación de una forma determinada, preferiblemente de una que guarde el menor parecido posible con la clasificación correcta. "La clasificación menos probable normalmente es altamente distinta de la clasificación correcta, por lo que este método de ataque genera unos errores más interesantes, como confundir un perro con un avión", escribe el equipo de Kurakin.
Entonces probaron la precisión del algoritmo Inception v3 de Google en la clasificación de las 50.000 imágenes contradictorias.
Los dos algoritmos sencillos redujeron significativamente la precisión de las tasas de errores de 5 y de 1. Pero su algoritmo más potente, el método de la clasificación menos probable, redujo rápidamente la precisión del sistema a cero para las 50.000 imágenes. (El equipo no especifica la precisión del algoritmo a la hora de provocar malas clasificaciones).
Eso sugiere que las imágenes antagonistas son una importante amenaza pero existen vulnerabilidades en potencia con este enfoque. Todas estas imágenes antagonistas son proporcionadas directamente al sistema de visión de máquinas.
Pero en el mundo real una imagen siempre será modificada por el sistema de cámara que grabe la imagen. Y un algoritmo de imágenes contradictorias sería inútil si este proceso neutralizara su efecto. Así que una importante pregunta es cuán robustos son estos algoritmos con las transformaciones que tienen lugar en el mundo real.
Para probarlo, el equipo de Kurakin imprimió todas las imágenes antagonistas junto con las originales que las fotografió a mano con un smartphone Nexus 5. Entonces el equipo alimentó el sistema de visión de máquinas con estas imágenes antagonistas transformadas.
El equipo afirma que el método de la clasificación menos probable es el más vulnerable a estos tipos de transformaciones pero que los otros se sostienen bastante bien. En otras palabras, los algoritmos de imágenes antagonistas realmente representan una amenaza en el mundo real. "Una importante fracción de las imágenes antagonistas elaboradas con la red original son mal clasificadas incluso cuando son proporcionados al sistema clasificador mediante una cámara", escribe el equipo.
Es un trabajo interesante que arroja una luz importante sobre el tendón de Aquiles de la visión de máquinas. Y queda bastante trabajo por hacer. El equipo de Kurakin quiere desarrollar imágenes antagonistas para otros tipos de sistemas de visión y lograr que sean aún más eficaces.
Todo esto levantará alguna ceja dentro de la comunidad de seguridad informática. Los sistemas de visión de máquinas ahora rinden mejor que los humanos a la hora de reconocer caras, por lo que resulta natural esperar que sean empleados para todo desde desbloquear smartphones y puertas de acceso hasta el control de pasaportes y las biométricas de las cuentas bancarias. Pero el equipo de Kurakin agrava el temor de poder engañar fácilmente a estos sistemas.
Durante los últimos años hemos aprendido mucho acerca de la precisión de los sistemas de visión de máquinas. Ahora nos estamos enterando de lo fácil que puede resultar engañarlos.
Ref: arxiv.org/abs/1607.02533 : Adversarial Examples in the Physical World