La herramienta establece conexiones estadísticas de forma automática pero no es capaz de extraer las mismas conclusiones que los humanos
Sea cual sea tu negocio, combatir el cáncer, servir anuncios en línea o gobernar un país, contar con empleados capaces de diseccionar y dar sentido a los datos complejos, conocidos como big data, se ha convertido en algo indispensable.
Unos investigadores respaldados por Google están desarrollando un software capaz de automatizar parte de ese trabajo que llevan a cabo los científicos de datos con la esperanza de poder poner a disposición de un mayor número de personas capacidades más sofisticadas de análisis de datos. Al introducir datos en crudo, el software "estadista automático" escupe un informe que usa palabras y gráficos para describir las tendencias matemáticas que ha encontrado.
Pie de foto: El auge del 'big data' ha convertido a los estadistas automáticos en algo indispensable en cualquier equipo. Crédito: Simon Cunningham
"No pretendemos que sustituya exactamente lo que haría un estadista, pero puede ayudar mucho", explica el profesor de ingeniería de la información de la Universidad de Cambridge (Reino Unido), Zoubin Ghahramani, quien ha desarrollado el software. "A veces encuentra patrones que un analista de datos humano no encontraría", añade.
Los ordenadores han conseguido que hacer operaciones matemáticas complejas sobre grandes series de datos sea algo trivial y la venta de software de análisis de datos es un negocio en auge. Pero aún hacen falta la creatividad y experiencia humanas para escoger y aplicar los métodos capaces de explicar los patrones que se encuentran en una serie de datos.
El estadista automático representa una de entre un puñado de herramientas que se están construyendo para automatizar parte de esta experiencia. Cuando se le dio una década de datos sobre viajes aéreos al sistema, produjo un informe de nueve páginas con cuatro explicaciones matemáticas de las tendencias observadas en los datos que se podrían usar para producir previsiones.
Hace poco Ghahramani recibió una subvención de 750.000 dólares de Google (unos 660.000 euros) para el proyecto. A finales de este año habrá una versión del estadista automático disponible en línea. Después de eso, explica Ghahramani, explorará la posibilidad de lanzar una versión comercial mientras continúa con sus investigaciones.
El estadista automático tira de una amplia gama de técnicas estadísticas que se pueden combinar como bloques para construir distintos modelos matemáticos, explica Ghahramani. El software primero prueba el más sencillo de esos métodos sobre los datos: después selecciona los datos que mejor representan el conjunto para una ronda más de experimentación, añadiendo más técnicas matemáticas para ver qué pasa. A continuación el mejor modelo se usa para generar el informe escrito.
Los informes se centran estrictamente en los datos, no en lo que pasa en el mundo real. Por ejemplo, aunque al estadista automático se le ocurriera una forma de describir matemáticamente el aumento habitual de actividad de las líneas aéreas que se observa cada verano, no sugerirá que se trata de viajes por vacaciones. Sin embargo, según Ghahramani este sigue siendo un punto de partida útil para los analistas de datos humanos que podrían hacer estas interpretaciones o más análisis.
Un informe de la Real Sociedad de Estadística del Reino Unido del año pasado avisaba de una "escasez" de científicos de datos, ya que hay mucha demanda de sus servicios por parte de todo tipo de industrias. LinkedIn ha informado de que los miembros apuntados a su servicio con experiencia en estadística fueron los que tenían más probabilidades de encontrar un nuevo trabajo o atraer el interés de los servicios de recursos humanos en 2014.
Si el estadista automático acaba siendo un producto comercial, se unirá a un poblado campo de servicios cuyo objetivo es ayudar a las empresas sacarle más jugo a sus datos.
La semana pasada una empresa llamada Skytree lanzó lo que afirma que es la primera herramienta comercial capaz de seleccionar automáticamente el mejor modelo para dar sentido a una serie de datos concreta. Al contrario que el estadista automático, ese "automodelador" no puede producir informes escritos. Entre los clientes de Skytree se encuentran aseguradoras y empresas de tarjetas de crédito que usan el servicio para detectar casos de fraude.
El director científico de Skytree, Alex Gray, que además es profesor adjunto en el Instituto de Tecnología de Georgia (EEUU), afirma que el estadista automático es un proyecto de investigación interesante, pero que sus métodos no son lo suficientemente eficaces como para manejar series de datos muy grandes.
Otra empresa, Narrative Science, ofrece un servicio que convierte los datos numéricos en informes legibles (ver Un periodista robótico genera informes económicos para gigantes de Wall Street). Su cofundador, Kristian Hammond, profesor en la Universidad Northwestern (EEUU), afirma que el estadista automático podría ayudar a los científicos de datos a ser más eficientes. Pero explica que sus informes tendrían poco que ofrecer a quienes no saben de estadística. La mayoría de los empresarios no quieren saber nada de modelos matemáticos, afirma Hammond. "Quieren saber que pueden ahorrar dinero al reducir la actividad en la fábrica en un 50% entre las 1 y las 6 de la mañana".