El correo basura puede ser identificado en base a un solo paquete de datos.
Un nuevo tipo de software desarrollado en el Instituto de Tecnología de Georgia es capaz de identificar el spam antes de que llegue al servidor de correo. El sistema, conocido como SNARE (Spatio-Temporal Network-level Automatic Reputation Engine, o Motor de Reputación Automático Espacio-Temporal a nivel de Redes), clasifica cada mail entrante en base a una variedad de nuevos criterios que se pueden deducir de un único paquete de datos. Los investigadores involucrados en el proyecto afirman que este sistema automatizado provoca menos tensión en la red y minimiza la necesidad de intervención humana mientras que logra la misma precisión que los filtros de spam tradicionales.
El acto de separar el spam de los emails legítimos, también conocidos como ham, no es nada fácil. Eso es debido, en parte, al enorme volumen de mensajes que se tienen que procesar y, también en parte, a las expectaciones que tenemos con los correos electrónicos: los usuarios desean que sus mails lleguen en cuestión de minutos, si no segundos, después de haber sido enviados. El análisis del contenido de cada mail puede que sea un método fiable para identificar el spam, pero conlleva demasiado tiempo, afirma Nick Feamster, profesor asistente en Georgia Tech y que supervisó la investigación del SNARE. Por otro lado, dejar que el spam entre en nuestras bandejas de correo sin filtrar no es una opción muy sensata. Según un informe emitido por la firma de seguridad en correos electrónicos MessageLabs, el 90,4 por ciento de todos los mensajes enviados en junio eran spam.
“Si crees que no te preocupa el spam, te recomiendo que apagues el filtro de spam durante una hora y veas lo que pasa,” afirma Sven Krassen, director senior de minado de datos e investigación en McAfee. La compañía con sede en Santa Clara, California, proveyó los datos para el análisis que llevó a cabo el equipo de Georgia Tech.
El equipo analizó 25 millones de mails recogidos por TrustedSource.org, un servicio online desarrollado por McAfee para recopilar los datos relativos a las tendencias dentro del spam y el malware. Mediante el uso de estos datos, los investigadores de Georgia Tech descubrieron varias características que podían deducirse a partir de un único paquete de datos y ser utilizadas para identificar el correo basura de forma eficiente. Por ejemplo, la investigación reveló que el ham tiende a provenir de ordenadores que poseen un alto número de canales, o puertos, abiertos para las comunicaciones. Los bots, sistemas automatizados que a menudo se utilizan para enviar ristras de spam, tienden a tener abierto sólo el canal de los mails, conocido como el puerto de Protocolo Simple de Transferencia de Correos Electrónicos.
Es más, los investigadores descubrieron que al calcular la distancia geodésica entre las direcciones de Protocolo de Internet (IP) del remitente y el destinatario—medidas sobre la superficie curva de la Tierra—eran capaces de determinar si el mensaje era basura. (Al igual que todas las casas tienen una dirección, cada ordenador en internet tiene una dirección IP, y esa dirección se puede rastrear hasta un área geográfica. Los investigadores descubrieron que el spam tiende a viajar distancias más largas que el ham. Los spammers también tienden a tener direcciones de IP que son numéricamente muy cercanas a las de otros spammers.
Dean Malogren, candidato a doctorado en la Universidad de Northwestern y cuyos estudios incluyen la identificación de nuevos métodos para descubrir el spam, afirma que el estudio le parece interesante. Sin embargo, se pregunta cómo será de robusto el sistema SNARE una vez que su metodología sea ampliamente conocida. Las direcciones de IP, señala, son fáciles de falsificar. Por tanto, si los spammers llegan a descubrir cómo funciona SNARE, puede que, por ejemplo, utilicen direcciones de IP falsas y cercanas a sus destinatarios.
Los investigadores de Georgia Tech también se fijaron en el número de servidor autónomo (AS) asociado con el correo electrónico. (A cada red operada de forma independiente se le asigna un número AS, tanto si se trata de un proveedor de internet como de la red de un campus universitario.) Sabiendo que un porcentaje significativo de spam procede de un puñado de números de servidor autónomo, los investigadores también decidieron integrar esa característica en SNARE.
El resultado final es un sistema capaz de detectar el spam en un 70 por ciento de las ocasiones, con una cuota de falsos positivos del 0,3 por ciento. Feamster afirma que esto es comparable a los filtros de spam actuales, aunque denota que cuando se utilice en tándem con los sistemas ya existentes, el proceso debería ser mucho más eficiente.
“Podemos considerar a SNARE como una primera línea de defensa,” afirma Shuang Hao, candidato a doctorado en ciencias informáticas en el Instituto de Tecnología de Georgia, así como investigador en el proyecto SNARE. Cada una de las características del sistema SNARE contribuye a la clasificación general de un correo electrónico. Hasta ahora, SNARE ha sido implementado sólo en ambientes dedicados a la investigación, pero si se utilizase en un ambiente empresarial, el administrador de la red podría configurar las reglas relativas a los correos en función de la clasificación que reciban de SNARE. Por ejemplo, un correo con poca clasificación podría ser descartado antes de que incluso llegase al servidor de correo. Hao afirma que esto podría ahorrar una cantidad de recursos considerables, puesto que muchas compañías tienen una política que requiere que se guarde una copia de cada correo que alcanza al servidor, tanto si es basura como si no. Los mensajes con una clasificación mediocre podrían pasar a ser analizados por unos filtros de contenido más tradicionales.
En la actualidad, Hao está ayudando a Yahoo a mejorar su filtro de spam, en base a lo que ha aprendido del desarrollo de SNARE. Afirma que Cisco también ha expresado su interés en el estudio.
“Es muy inteligente puesto que combinan un puñado de datos cuya utilización resulta barata,” afirma John Levine, presidente de la Coalición Contra Emails Comerciales No Solicitados, y consejero técnico senior del Grupo de Trabajo Contra el Abuso con Mensajes, un consorcio de compañías unidas en la lucha contra el spam. “Por otro lado, creo que algunas de sus conclusiones son demasiado optimistas. Los spammers no son tontos; cada vez que se logra dar con un esquema [para identificar el spam], los spammer acaban saltándose el esquema.”
El equipo de investigación presentará su estudio acerca del sistema SNARE en la Conferencia sobre Seguridad Usenix en próximo mes en Montreal. En el futuro, Feamster espera ser capaz de aplicar sus descubrimientos a otros problemas de seguridad informática, tales como los correos con identidades falsas, mediante los cuales el remitente pretende formar parte de una institución de confianza para que los usuarios acaben confiándole su clave secreta.