La escritura simulada ¿puede evitar que pasen los spambots?
En la batalla para ganarle a los spambots, se ha desarrollado un arma nueva que aprovecha la dificultad que tienen los ordenadores para reconocer escritura cursiva. La esperanza radica en pasar de sistemas de verificación basados en un texto, a sistemas que utilizan manuscritos generados por ordenador para hacer que muchos servicios de la Web sean más seguros.
El sistema, desarrollado por investigadores de la State University of New York (SUNY) en Buffalo, es una variante de una técnica comúnmente utilizada de desafío/respuesta que se llama CAPTCHA (prueba pública Turing completamente automatizada para diferenciar entre los ordenadores y los humanos). Este tipo de prueba se diseñó para ser fácil para los humanos pero casi imposible para que la pase un ordenador, para evitar que los programas automatizados generen, automáticamente, cuentas nuevas para fines malignos como emitir spam.
La mayoría de los CAPTCHAS funcionan mostrando la imagen de un texto generado en forma aleatoria que fue distorsionado para que sea difícil ser leído por un programa de reconocimiento óptico de caracteres (OCR), sin que sea ilegible para los humanos. Para pasar la prueba y obtener acceso, los usuarios simplemente reescriben el texto que hayan leído.
El problema es que el software de OCR está mejorando continuamente, lo que posibilita que los robots de spam puedan pasar a veces las pruebas. Achint Oommen Thomas, uno de los científicos de computación que desarrolló el sistema nuevo dice que, “es una guerra de armas. Cada CAPTCHA existente ya ha sido descifrado”.
Ya el año pasado, un CAPTCHA basado en caracteres desarrollado por Microsoft y que se utiliza ampliamente en servicios como Hotmail y Windows Live fue descifrado por Jeff Yan y sus colegas de la Newcastle University en el R.U. Previamente, Microsoft había anunciado que CAPTCHA sólo permitiría que ingresara una tentativa de ordenador entre 10.000, pero Yan pudo demostrar que su ataque tenía éxito el 60 por ciento de las veces.
Desde entonces, Microsoft llevó a cabo mejoras que han hecho que el servicio fuera mucho más seguro. Aún así, Oommen Thomas cree que generar algo manuscrito ensamblado automáticamente, haría que se superen todavía más las expectativas. Su sistema, desarrollado con sus colegas Amalia Rusu y Venu Govindaraju, genera palabras al seleccionar caracteres, todos manuscritos, de una base de datos pública de 20.000. Los algoritmos se aplican después para identificar puntos de control importantes dentro de los caracteres, los arcos y lazadas que hacen que las letras y números sean reconocibles, antes que otros algoritmos distorsionen los caracteres y los una para que se vean empalmados. “Los distorsionamos en forma aleatoria, pero nos aseguramos de que estén dentro de determinados límites fijos; de no ser así, serían ilegibles para los seres humanos”, agrega Oommen Thomas.
Al publicar sus resultados en la última edición de la publicación Pattern Recognition, los investigadores demuestran que algunos de los mejores programas de OCR pueden reconocer los caracteres en menos del 1 por ciento de las veces. “Antes que un ordenador pueda tratar de reconocer un carácter, primero tiene que ubicarlo”, dice Oommen Thomas. Por lo tanto, empalmar los caracteres tiene que hacer que este proceso, conocido como fragmentación, sea más desafiante.
Sin embargo, a Yan le preocupa que le sea más difícil a los humanos leer dichos manuscritos. “Mi preocupación principal es que sea utilizable”, comenta. Actualmente, el sistema tiene una tasa de éxito humano del 75 por ciento, lo que significa que una de cada cuatro veces, un humano no puede leer el texto. “Eso es demasiado bajo”, concluye Yan.
Luis von Ahn, un científico informático de la Carnegie Mellon University, en Pittsburgh, y un miembro del equipo que acuñó el término CAPTCHA, está de acuerdo. El último sistema de Von Ahn, que se llama reCAPTCHA, tiene una tasa de éxito humano del 96 por ciento. “Y todavía hay gente que se queja”, admite.
Oomen Thomas lo admite, pero dice que su equipo está buscando medios para mejorar la tasa de éxito. “Hay una región donde tanto las máquinas como los humanos se desempeñan mal, pero también hay un punto ideal donde a los humanos les va bien y a las máquinas les va mal”, dice, y esto es lo que su equipo y él están tratando de encontrar ahora. “Se puede hacer mucho dinero evitando a los CAPTCHAs para generar spam”, lo que implica que los spambots van a tener cada vez más éxito cuando descifren CAPTCHAs existentes.
“Creo que vale la pena analizarlo”, dice von Ahn, pero él no está seguro de que sea necesario hallar un tipo de CAPTCHA completamente nuevo. Los sistemas como reCAPTCHA (actualmente, uno de los sistemas más usados: se está ejecutando en más de 100.000 páginas) se mejoran regularmente para que siempre estén a la vanguardia. Un truco es ingresar caracteres escaneados de libros viejos, con todas sus imperfecciones. “Sólo utilizamos los que no pueden reconocer los ordenadores”, dice von Ahn. Debido a esto, reCAPTCHA es muy bueno para mantener a los spambots fuera, dice, sabiendo que los ataques más conocidos no lograron una tasa de éxito mayor a uno por 1.000.
“Los humanos a veces no son tan buenos para reconocer manuscritos”, agrega von Ahn, haciendo notar que, a medida que redactamos cada vez menos manuscritos en los tiempos actuales, podemos perder todavía más la capacidad de reconocer textos garabateados.