Una década después del escándalo de Enron, los mensajes internos de la empresa siguen ayudando a hacer avanzar la ciencia de los datos y muchos otros campos.
Foto: Las cantidades ingentes de correos electrónicos que se enviaron y recibieron en el cuartel general de Enron, fotografiado aquí en 2002, siguen siendo analizados y diseccionados por informáticos y otros investigadores.
Vincent Kaminski, antiguo ejecutivo de Enron, es un modesto profesor de escuela de negocios medio jubilado de Houston que acaba de escribir un libro de 960 páginas que explica las reglas básicas de los mercados de energía. Sin embargo, su mayor legado probablemente sean los miles de correos electrónicos que escribió hace más de una década en la empresa de servicios de energía.
Kaminski, antiguo director ejecutivo de investigación, que avisó repetidas veces sobre las prácticas preocupantes que observó en Enron, está entre los más de 150 ejecutivos sénior cuyas cuentas de correo electrónico volcó en Internet la Comisión Federal Reguladora de la Energía (FERC por sus siglas en inglés) el 26 de marzo de 2003. Con el objetivo de servir al interés del público durante su investigación de Enron, la agencia federal tomó la polémica decisión de subir a la red más de 1,6 millones de correos electrónicos que los ejecutivos de Enron habían enviado y recibido entre los años 2000 y 2002. La FERC cribó los mensajes para retirar los datos más sensibles y personales, después de recibir quejas (ver PDF). Aún así, por el momento el "corpus de correos electrónicos de Enron", como se conoce a la versión cribada, sigue siendo la mayor base de datos pública de correos electrónicos reales del mundo.
El corpus, como se le conoce, es valioso para los informáticos y los teóricos de las redes sociales en formas que los autores y receptores de los correos nunca pudieron imaginar. Como es un rico ejemplo de cómo usa el correo electrónico la gente real en una empresa real -lleno de mundanos planes para comer, aburridas notas de reunión, flirteos vergonzantes que revelaron al menos una relación extramatrimonial, y las misivas incriminatorias que describían la corrupción- se ha convertido en la base de cientos de estudios de investigación en campos tan diversos como el aprendizaje automático y los estudios de género en el lugar de trabajo.
Estas investigaciones tienen aplicaciones de todo tipo, hay informáticos que han usado el corpus para entrenar sistemas que dan prioridad de forma automática a determinados mensajes en un buzón de entrada y avisan a los usuarios de que se les puede haber olvidado un mensaje importante. Otros investigadores emplean el corpus de Enron para desarrollar sistemas que organizan o resumen automáticamente los mensajes. Gran parte del software actual para la detección de fraude, las operaciones de contraterrorismo y el minado de patrones de conducta con los correos en el trabajo, se ha visto influido de alguna manera por esta serie de datos.
"Es como si estuviéramos estudiando la levadura", afirma William Cohen, informático de la Universidad Carnegie Mellon (EE.UU.) que ayudó a subir el corpus a una base de datos que los investigadores pudieran explorar. "Se estudia y se experimenta con ella porque es un modelo de organismo que se comprende muy bien. Los correos electrónicos generados por Enron son parecidos. La gente va a seguir usándolos durante mucho tiempo".
Los correos electrónicos de Enron han podido usarse todos estos años gracias a científicos del Instituto Tecnológico de Massachusetts, la Universidad Carnegie Mellon y el instituto de investigación sin ánimo de lucro SRI International. Hace diez años, los investigadores de estas instituciones estaban colaborando en el proyecto CALO, financiado por DARPA. Las siglas del proyecto son el acrónimo de "ayudante cognitivo que aprende y organiza", y cuya mayor fama deriva de la creación del software para Siri de Apple. Para CALO, los investigadores estaban juntando series de datos mucho más pequeñas de correos electrónicos para analizar.
Cuando los correos de Enron se subieron a la Web en 2003, los investigadores se dieron cuenta de que podrían ser muy útiles para probar algoritmos capaces de procesar el lenguaje escrito, y formar la base de herramientas inteligentes para el lugar de trabajo. Como la FERC había subido los correos en un formato que no se podía utilizar, Leslie Kaelbling compró los archivos crudos a un contratista del Gobierno por 10.000 dólares (unos 7.500 euros), y otros dedicaron el tiempo a limpiar los datos: eliminando correos duplicados, organizando los archivos, quitando los adjuntos y correos privados que quedaban, y haciendo un mapa de la estructura organizativa de Enron con los emisores y receptores de los correos. El corpus, que en un principio estaba formado por más de 517.431 correos, se había dejado en 200.000 para el año 2004.
Sigue floreciendo un ecosistema de investigación en torno al corpus porque no existe nada parecido en el dominio público. Si no existiera, la investigación sobre correos electrónicos empresariales solo la podrían hacer personas que tuvieran acceso a los grandes servidores empresariales o del Gobierno. Eso probablemente excluiría a los investigadores en ciencias sociales, organizaciones o lingüística, muchos de los cuales han usado el corpus para adquirir un valioso conocimiento sobre la cultura empresarial, según Owen Rambow, profesor de la Universidad de Columbia (EE.UU.), involucrado en un proyecto de investigación que usó el corpus de Enron y recibió una beca de 510.000 dólares (unos 387.000 euros) de la Fundación Nacional de Ciencia.
Desde 2010, unos 30 artículos anuales citan el artículo original que presentaba el corpus de Enron, según cálculos de Cohen en Carnegie Mellon. Este año, por ejemplo, investigadores de HP Labs recurrieron al corpus para demostrar un programa de inteligencia artificial que identifica automáticamente los compromisos que adquiere la gente a través de correo electrónico. Jafar Adibi, quien trabajó en uno de los primeros mapas de la red social de Enron, afirma que aún recibe decenas de solicitudes de información cada mes, cada vez más de investigadores fuera de Estados Unidos. Sigue habiendo una list-serv activa dedicada a debatir sobre el corpus.
Los investigadores que han trabajado con el corpus saben que no habrá otro Enron. La FERC hizo públicos los correos electrónicos en un momento en el que al mundo aún le quedaba mucho por aprender sobre la privacidad en línea. El daño hecho a las personas mencionadas en los correos - muchos de los cuales eran inocentes de cualquier acto delictivo en Enron- quedó patente muy pronto. En los archivos había números de la seguridad social e incluso historiales bancarios. Aunque se han eliminado muchos datos privados, al analizar los cientos de correos electrónicos en la carpeta de "enviados" de Kaminski, encontré su número de teléfono fijo, el nombre de su mujer y una opinión poco halagüeña de un antiguo compañero de trabajo. También me dio la sensación de que el ascenso que le llegó en el año 2000 se lo debían desde hacía muchísimo. Cuando los correos electrónicos se hicieron públicos, Kaminski, jefe de unos 50 empleados en Enron, afirmó que lo que más le molestaba que se hiciera público eran sus comunicaciones respecto a quejas de recursos humanos y evaluaciones de candidatos de trabajo. Un entrevistado por él en un proceso de selección de trabajo se molestó con la publicación de los correos.
En la actualidad, muchos de los que trabajan en industrias muy reguladas, como las finanzas, evitan poner información sensible en sus correos electrónicos. Kaminski, que luego ejerció de director en Citigroup, señala que el acrónimo "LTOL" se convirtió en jerga de correo electrónico en los años posteriores a Enron. Son las siglas de la frase "sigamos con esto fuera de línea" en inglés.