Las diferencias en la forma en que los humanos y los sistemas de reconocimiento visual interpretan las imágenes evidencian las limitaciones del aprendizaje artificial
Foto: Se crearon imágenes como éstas para engañar a algoritmos de máquinas. El software ve cada patrón como uno de los número del 1 al 5.
Una técnica llamada aprendizaje profundo ha permitido a Google y otras compañías avanzar a la hora de hacer que los ordenadores comprendan el contenido de las fotos. Unos investigadores de la Universidad de Cornell y la Universidad de Wyoming (EEUU) acaban de demostrar cómo crear imágenes que engañan a este tipo de software para que vea cosas que no existen.
Los investigadores pueden crear imágenes que para un humano parecen un revuelto sin sentido o patrones geométricos simples, pero que son identificadas por el software como un objeto cotidiano, como por ejemplo un autobús escolar. Estas imágenes con truco ofrecen nuevos datos sobre cómo procesan las imágenes un cerebro real y las sencillas neuronas simuladas usadas en el aprendizaje profundo.
Los investigadores normalmente entrenan el software de aprendizaje profundo para que reconozca algo de interés, como por ejemplo una guitarra, mostrándole millones de fotos de guitarras y repitiéndole cada vez al ordenador que "esto es una guitarra". Después de un tiempo, el software es capaz de identificar guitarras en imágenes que no haya visto antes, dándole a su respuesta un índice de fiabilidad. A una guitarra sobre un fondo blanco podría darle una calificación de confianza alta, y a una sobre un fondo desordenado y granulado una calificación inferior (ver "Aprendizaje profundo").
Este enfoque tiene valiosas aplicaciones como el reconocimiento facial y el uso de software para procesar imágenes de seguridad o de una cámara de tráfico, por ejemplo para medir los flujos de tráfico o detectar actividades sospechosas.
Pero aunque las funciones matemáticas utilizadas para crear una red neuronal artificial se entienden de forma individual, no se conoce cómo trabajan juntas para descifrar imágenes. "Entendemos que funcionan, pero no cómo funcionan", asegura el profesor asistente de ciencias informáticas en la Universidad de Wyoming, Jeff Clune. "Pueden aprender a hacer cosas que ni siquiera nosotros podemos aprender".
Estas imágenes parecen abstractas para los seres humanos, pero son vistas por el algoritmo de reconocimiento de imágenes al que se supone que tenían que engañar como los objetos descritos en las etiquetas.
Para arrojar nueva luz sobre cómo funcionan estas redes, el grupo de Clune utilizó una red neuronal llamada AlexNet, que ha logrado resultados impresionantes en el reconocimiento de imágenes. La hicieron funcionar a la inversa, pidiendo a una versión del software sin conocimiento de guitarras que creara una imagen de una, mediante la generación de píxeles aleatorios a través de una imagen.
Después los investigadores pidieron a una segunda versión de la red que había sido entrenada para detectar guitarras que evaluara las imágenes generadas por la primera red. El índice de confianza fue utilizado por la primera red para afinar su próximo intento de crear la imagen de una guitarra. Después de miles de rondas como ésta entre las dos piezas de software, la primera red pudo crear una imagen que la segunda red reconoció como una guitarra con un 99% de confianza.
Sin embargo, para un ser humano, esas imágenes de "guitarra" parecían imágenes estáticas de TV en color o patrones simples. Clune señala que esto demuestra que el software no está interesado en unir detalles estructurales como las cuerdas o un diapasón, tal y como intentaría identificar el objeto un humano. En su lugar, el software parece estar fijándose en relaciones específicas de distancia o de color entre píxeles, o en el color y textura generales.
Esto nos ofrece nuevos datos sobre cómo funcionan realmente las redes neuronales artificiales, asegura Clune, aunque se necesita más investigación.
El profesor asistente de ciencias informáticas de la Universidad de Harvard (EEUU), Ryan Adams, señala que los resultados no son del todo sorprendentes. El hecho de que grandes áreas de las imágenes engañosas parezcan mares de imagen estática probablemente se derive del modo en que las imágenes de entrenamiento son introducidas en las redes. El objeto de interés es por lo general sólo una pequeña parte de la foto y el resto no tiene importancia.
Adams también señala que la investigación de Clune muestra que los seres humanos y las redes neuronales artificiales tienen ciertas cosas en común. Desde hace miles de años, los seres humanos han estado pensando que ven objetos cotidianos en patrones aleatorios, como por ejemplo las estrellas.
Clune afirma que sería posible utilizar su técnica para engañar a los algoritmos de reconocimiento de imagen cuando se pongan a trabajar en servicios web y otros productos. Sin embargo, no sería fácil. Por ejemplo, Google tiene algoritmos que filtran la pornografía de los resultados de su servicio de búsqueda de imágenes. Pero para crear imágenes que lo engañaran, habría que conocer detalles importantes sobre cómo fue diseñado el software de Google.