Un trabajo inventado en Silicon Valley se está generalizando ahora que cada vez más industrias intentan sacar ventaja gracias a los grandes datos.
La descripción de puesto "científico de datos" no existía hace cinco años. Nadie ponía anuncios buscando a un experto en ciencia de datos y no podías ir a una facultad para especializarte en el campo. Pero en la actualidad, las empresas se pelean por reclutar a estos especialistas, las universidades empiezan a ofrecer cursos para convertirse en uno y la revista Harvard Business Review ha llegado a proclamar que el trabajo de científico de datos es el "más sexy" del siglo XXI.
Los científicos de datos toman enormes cantidades de datos e intentan extraer información útil de ellos. El trabajo combina estadística y programación para identificar los factores, a veces sutiles, que pueden tener un gran impacto sobre los resultados de una empresa, desde si una persona clicará sobre un determinado tipo de anuncio, a si un nuevo químico resultará tóxico para el cuerpo humano.
Aunque Wall Street y las industrias de la publicidad y los automóviles siempre han contratado a profesionales encargados de los datos para darle sentido a las estadísticas empresariales, el auge de esta especialidad refleja la tremenda expansión de la variedad de datos disponibles ahora en algunas industrias, como las que recogen datos sobre clientes en la Web. Hay más datos de los que un gestor individual es capaz de manejar, demasiados, cambiando demasiado rápido como para que se puedan analizar con los enfoques tradicionales.
Ahora que los smartphones prometen convertirse en una nueva fuente de datos valiosos para los comercios, por ejemplo, Walmart está compitiendo por contratar a más científicos de datos y ha anunciado decenas de puestos, incluyendo un "Ingeniero de Datos Grandes y Rápidos". Los sensores en las fábricas y los equipos industriales también están produciendo montones de nuevos datos, lo que ha llevado a General Electric a contratar científicos de datos para analizar estas fuentes de datos.
El término "ciencia de los datos" lo acuñaron en Silicon Valley en 2008 dos analistas de datos que en aquel momento trabajaban en LinkedIn y Facebook. Ahora muchas start-ups están basando su negocio en su capacidad de analizar grandes cantidades de datos, a menudo de fuentes muy distintas. ZestFinance, por ejemplo, tiene un modelo predictivo que usa cientos de variables para decidir si un prestamista debe ofrecer un crédito de alto riesgo. El riesgo a asegurar que obtiene es un 40 por ciento menor que el soportado por los prestamistas tradicionales, afirma el científico de datos de ZestFinance John Candido. "Para nosotros, todos los datos son datos de crédito", afirma.
La de científico de datos se ha convertido en una descripción de puesto de trabajo muy popular en parte porque ha servido para unir toda una serie de roles mal definidos y que se solapaban, según Jake Klamka, que dirige un programa de seis semanas para colocar a doctores en campos como las matemáticas, la astrofísica e incluso neurociencia en este tipo de trabajo. "Aceptamos a cualquiera que trabaje con muchos datos en sus investigaciones", explica Klamka. "Necesitan saber programar, pero también tienen que tener importantes habilidades de comunicación y curiosidad".
Los mejores científicos de datos se definen tanto por su creatividad como por su habilidad a la hora de escribir código. Kaggle es una empresa que organiza concursos en los que los científicos de datos compiten para encontrar la mejor manera de darle sentido a series de datos ingentes (ver "El análisis de datos como disciplina deportiva"). Gran parte de los principales "Kagglers" (hay 88.000 registrados en el sitio) vienen de campos como la astrofísica o la ingeniería eléctrica, afirma el director ejecutivo de la empresa, Anthony Goldbloom. El participante mejor situado es un estadístico de Singapur.
Y las universidades empiezan a responder a las necesidades del mercado de trabajo. La Universidad de Stanford (EE.UU.) planea lanzar un máster en ciencia de datos en su departamento de estadística, según el director del departamento Guenther Walther. Ya han empezado alrededor de una decena de programas en otras universidades, incluyendo la Universidad de Columbia y la Universidad de California en San Francisco (ambas, EE.UU.). En Abril, Cloudera, una empresa que vende software para procesar y organizar grandes volúmenes de datos, anunció que trabajaría con siete universidades para ofrecer a sus alumnos formación profesional para trabajar con las tecnologías de "grandes datos".
Mark Morissey, director de programas educativos de Cloudera afirma que prevé una escasez de personal cualificado y que "el mercado no va a crecer al ritmo al que quiere actualmente". Esto ha empujado los salarios al alza. En Silicon Valley, los salarios para científico de datos sin experiencia están en torno a los 110.000 - 120.000 dólares (unos 84.000 a 92.000 euros).
Otros creen que la tendencia podría generar un nuevo campo de subcontratación. Shashi Godbole, científico de datos de Bombay (India) que está clasificado el 20º en la lista de Kaggle, acaba de completar un trabajo de consultoría por horas organizado por Kaggle, un nuevo negocio en el que se está metiendo la plataforma. Hizo trabajo para una diminuta organización sin ánimo de lucro dedicada a la promoción de la salud en Chicago y ahora se ofrece para más trabajos (gana 200 dólares la hora -unos 155 euros- y Kaggle factura 300 dólares la hora -unos 230 euros-). De momento su trabajo para Kaggle es a tiempo parcial, pero afirma que algún día podría convertirse en su mayor fuente de ingresos.
Para los propios científicos de datos, el trabajo es decididamente menos sexy de lo que lo pintan. Josh Wills, director senior de ciencia de datos en Cloudera, afirma que la mayor parte del tiempo su trabajo consiste en limpiar datos desordenados, colocándolos en sus columnas correspondientes y ordenándolos, por ejemplo.
"Soy un bedel de datos. Ese es el trabajo más sexy del siglo XXI", afirma. "Es muy halagador, pero también es un poco desconcertante".