Un algoritmo de aprendizaje automático ha aprendido a detectar las comunicaciones más sensibles y cuáles se clasificaron de forma incorrecta por errores humanos
El Departamento de Estado de Estados Unidos genera alrededor de 2.000 millones de correos electrónicos cada año. Una gran parte contiene informaciones sensibles o secretas y por tanto tiene que ser clasificadas, un proceso largo y caro. Sólo en 2015, el Departamento de Estado gastó 16.000 millones de dólares (unos 14.815 millones de euros) en proteger informaciones clasificadas.
Pero la fiabilidad de este proceso de clasificación no está clara. Nadie sabe si las reglas para clasificar datos se aplican de forma fiable y regular. De hecho, existe un importante debate acerca de qué informaciones deben ser clasificadas.
Además, resulta fácil de imaginar que el error humano juega un papel considerable en la mala clasificación de secretos oficiales. Pero nadie sabe cuán importantes podrían ser esos errores.
Hoy, eso cambia gracias al trabajo del investigador del think tank brasileño Fundação Getulio Vargas de Rio De Janeiro Renato Rocha Souza y unos compañeros de la Universidad de Columbia en Nueva York (EEUU). El equipo ha empleado un algoritmo de aprendizaje automático para estudiar más de un millón de comunicaciones del Departamento de Estado de EEUU declasificadas de la década de 1970.
Su trabajo proporciona datos sin precedentes sobre la naturaleza de los secretos oficiales, como el modo en que los humanos aplican las reglas y la frecuencia con la que se cuelan errores en el proceso para revelar informaciones sensibles u ocultar detalles por lo general inocuos. Los algoritmos también revelan patrones sospechosos en cómo se extravían las comunicaciones.
El equipo empezó con un millón de comunicaciones de los Archivos Nacionales de Estados Unidos en forma de ficheros de XML. Cada comunicación es un mensaje de texto entre el Departamento de Estado y una misión diplomática en un país extranjero como una embajada o un consulado.
Las comunicaciones se dividen como "secreta", "confidencial", "de uso oficial limitado" o "no clasificada". Las informaciones secretas tienen el potencial de dañar gravemente la seguridad nacional. Las informaciones confidenciales pueden provocar daños, pero no graves. La categoría de uso oficial limitado carecía de definición durante la década de 1970 e incluso hoy sigue siendo controvertida.
Las comunicaciones también contienen otras informaciones. Cada mensaje tiene una fecha, un emisor, receptor, asunto y, por supuesto, el cuerpo del mensaje.
El equipo de Souza empleó varios enfoques de aprendizaje automático para determinar cómo esos factores corresponden con la etiqueta de clasificación. Y habiendo descubierto esa correlación, testaron el algoritmo para comprobar su rendimiento a la hora de predecir si una comunicación era clasificada o no.
De acuerdo a sus resultados, el equipo de Souza afirma que el propio mensaje es el mejor indicador de si una comunicación es clasificada. "De todas las características, la frecuencia relativa de diferentes palabras en el cuerpo del mensaje fue lo más útil para identificar informaciones sensibles", escriben. Los datos del emisor y receptor también son buenos indicadores del nivel de sensibilidad pero pueden llevar al algoritmo a identificar muchas comunicaciones que no fueron clasificadas como clasificadas. En otras palabras, esto da paso a una alta tasa de falsos positivos.
Cuando el algoritmo combina los distintos tipos de metadatos en sus decisiones, identifica correctamente cerca del 90% de las comunicaciones clasificadas, con una tasa de falsos positivos de alrededor de tan sólo el 11%. Y el equipo de Souza asegura que debería ser posible mejorar ese rendimiento si las comunicaciones que aún están clasificadas fueran incluidas.
Los falsos positivos y falsos negativos son interesantes en sí mismos. Son comunicaciones que la máquina predijo que serían clasificadas pero no lo fueron y vice versa. En muchos casos, la máquina descubrió comunicaciones que habían sido clasificadas erroneamente por humanos. Un ejemplo es una comunicación sobre la sensibilidad del Gobierno japonés respecto a las inspecciones estadounidenses de sus instalaciones nucleares. Esta comunicación no fue clasificada, pero debería haberlo sido porque su contenido revela que originalmente era confidencial, según los investigadores.
Una limitación es que los datos de muchas comunicaciones se han perdido, probablemente debido a problemas a la hora de traspasarlos a un formato electrónico. Tal vez el aspecto más interesante de este trabajo sea que sugiere que estos mensajes pueden haberse perdido por otros motivos.
Una pista es el ritmo al que desaparecieron los mensajes, que difere para comunicaciones clasificadas y no clasificadas. "Las probalidades de que los mensajes electrónicos categorizados como 'secretos' se perdieran era más del triple frente a los mensajes no clasificados y de uso oficial limitado", señala el equipo de Souza.
Además, los metadatos asociados con las comunicaciones a menudo sobreviven incluso cuando el mensaje electrónico se pierde. Cómo ha podido pasar esto es un misterio.
También, si los mensajes se extraviaron cuando fueron convertidos de un formato a otro, tendrían más probabilidades de perderse cuando el Departamento de Estado implementó su nuevo sistema de almacenaje de datos. "Es destacable que la mayoría de estas comunicaciones [perdidas] no coinciden con el momento en el que el Departamento de Estado implementó el sistema, cuando cabría esperar que habría estado ejecutando maneras en las que transferir fiablemente datos entre diferentes dispositivos de hardware y plataformas de software", escribe el equipo.
Este trabajo tiene importantes implicaciones para el equilibrio entre la transparencia y el secretismo. Está claro que las máquinas pueden ayudar a monitorizar la práctica de clasificar los datos. Pero no pueden rendir mejor por media que las bases de datos de las que aprenden. Si estas contienen errores, como indudablemente es el caso de las comunicaciones del Departamento de Estado, las máquinas se verán inevitablemente limitadas.
Una pregunta interesante es si los datos que revela este tipo de aprendizaje automático deberían ser también clasificados si revelan patrones de comportamiento que podrían dañar los intereses nacionales. Por ejemplo, el ritmo al que las informaciones confidenciales son erroneamente etiquetadas como no clasificadas podría resultar útil para un estado extranjero que intente recopilar datos clasificados a partir de comunicaciones no clasificadas.
Está claro que queda más trabajo por hacer. El equipo de Souza afirma que a pesar del enorme gasto por parte del Departamento de Estado para proteger informaciones clasificadas, prácticamente no existen investigaciones publicadas sobre la regularidad de la clasificación. Tampoco se sabe mucho sobre cuánto puede revelar este tipo de aprendizaje automático.
Tal vez todo este trabajo se esté realizando a puerta cerrada. Por otro lado, tal vez no.
Ref: arxiv.org/abs/1611.00356: Using Artificial Intelligence to Identify State Secrets