EMBER ofrece simulaciones de programas malignos y benignos para que las máquinas aprendan a distinguir el software malicioso sin riesgo de ser infectadas. Eso sí, los ciberdelicuentes también podrán usarlo para esquivar a cualquier inteligencia artificial
El malware (una pieza de código malicioso) puede adoptar infinidad de formas, como el ransomware o las botnet, y siempre está proliferando (ver Los seis tipos de ciberataques para los que hay que prepararse en 2018). Por mucho que nos esforcemos, los humanos encargados de defender nuestros ordenadores se están ahogando en un océano de ciberataques. Así que algunos han empezado a recurrir a la inteligencia artificial (IA) para que les ayude a automatizar parte del trabajo.
Pero hay un problema: las herramientas de aprendizaje automático que podrían aligerar su carga necesitan una gran cantidad de datos. No resulta difíficl conseguir estas grandes cantidades de información para tareas como la visión artificial y el procesamiento del lenguaje natural, puesto que ya existen enormes conjuntos de datos de código abierto disponibles para enseñar a cosas los algoritmos como qué aspecto tiene un gato, por ejemplo, o cómo se relacionan las palabras entre sí. En el mundo del malware, este tipo de información no existía... hasta ahora.
La semana pasada, la empresa de ciberseguridad Endgame publicó un gran conjunto de datos de código abierto llamado EMBER (siglas en inglés de Punto de Referencia para la Investigación de Malware de Endgame, Endgame Malware Benchmark for Research). EMBER es una colección de más de un millón de representaciones de pequeños archivos ejecutables de Window, benignos y maliciosos, un formato muy común para esconder malware. Un equipo de la compañía también lanzó un software de IA que puede ser entrenado con ese conjunto de datos. La idea es que para que la IA se convierta en un arma poderosa en la lucha contra el malware, necesita saber qué buscar.
Las empresas de ciberseguridad tienen un mar de datos potenciales con los que podrían entrenar sus algoritmos, pero eso es un arma de doble filo. Los ciberdelicuentes que fabrican malware modifican sus códigos constantemente para esquivar las últimas técnicas de detección. Esto hace que el entrenamiento con ejemplos desactualizados de malware resulte bastante inútil.
"Es como jugar al ratón y al gato", lamenta el profesor de ciencias de la computación de la Universidad de Maryland (EE. UU.) Charles Nicholas.
Y contra eso es justo contra lo que EMBER intenta luchar. Su objetivo es ayudar a los programas automatizados de ciberseguridad a mantenerse al día.
En lugar de una colección de archivos reales, que podrían infectar el ordenador de cualquier investigador que los use, EMBER contiene una especie de avatar de cada archivo, es decir, una representación digital que da al algoritmo una idea de las características típicas que suelen contener los archivos benignos y maliciosos, pero sin exponer a la máquina al contenido malicioso.
Esto debería ayudar a los expertos en ciberseguridad a entrenar y probar rápidamente más algoritmos, y les permitiría construir una inteligencia artificial más eficaz y adaptable para la caza del malware.
Por supuesto, el hecho de que el conjunto de datos EMBER haya sido publicado en abierto permite que cualquiera lo use, lo que incluye a los propios ciberdelincuentes. Los creadores de malware podrían usar los datos para diseñar sistemas que pasen inadvertidos ante una inteligencia artificial entrenada con los mismos datos. El director técnico de ciencia de datos de Endgame, Hyrum Anderson, afirma que han tenido en cuenta esta situación y que espera que los beneficios de EMBER superen los riesgos. Además, los ciberdelitos son tan lucrativos que las personas responsables de los programas malignos ya tienen motivación suficiente para seguir perfeccionando sus herramientas de ataque.
"De todos modos, el hacker siempre encontrará un camino", concluye el profesor de ciencias de la computación de la Universidad de California, Berkeley (EE. UU.) Gerald Friedland.