La predicción se basa en 100.000 simulaciones distintas de lo que pasaría en el torneo. Para llegar a esta conclusión, los investigadores han combinado el aprendizaje automático con con una técnica estadística convencional, conocida como bosques aleatorios
Ayer empezó el que probablemente se convierta en uno de los eventos deportivos más vistos en la historia: la Copa Mundial de la FIFA Rusia 2018. Y aunque el partido final no será hasta el próximo 15 de julio, hay mucho interés por saber quién será el equipo ganador.
Una forma de medir los posibles resultados consiste en analizar las probabilidades de los corredores de apuestas. Estas compañías colaboran con profesionales de la estadística que analizan las extensas bases de datos de resultados para calcular la probabilidad de diferentes resultados de cualquier posible partido. De esta forma, los corredores de apuestas pueden ofrecer probabilidades en todos los juegos que van a disputarse, así como las probabilidades de los posibles ganadores.
Pero se puede alcanzar una estimación aún más precisa si se comparan las distintas probabilidades ofrecidas por muchos corredores de apuestas diferentes. Este enfoque sugiere que Brasil es el claro favorito para ganar el Mundial de 2018, con una probabilidad del 16,6 %, seguido por Alemania (12,8 %) y España (12,5 %).
Pero en los últimos años, los investigadores han desarrollado técnicas de aprendizaje automático capaces de superar los enfoques estadísticos convencionales. ¿Quién ganará el Mundial 2018 según estas nuevas técnicas?
El investigador de la Universidad Técnica de Dortmund (Alemania) Andreas Groll y sus compañeros han intentado responder a esta pregunta. Para ello, han combinado el aprendizaje automático con una técnica estadística convencional, conocida como bosques aleatorios. Y resulta que su análisis ofrece a un ganador diferente.
Primero algunos antecedentes. En los últimos años, los bosques aleatorios se han convertido en una poderosa técnica para analizar grandes conjuntos de datos que evitar algunos de los inconvenientes de otros métodos. Se basa en la idea de que un futuro evento se puede predecir mediante un árbol de decisión en el que cada rama representa un posible resultado a partir de un conjunto de datos de entrenamiento.
Sin embargo, los árboles de decisión sufren de un problema muy conocido. En las últimas etapas del proceso de ramificación, las decisiones pueden verse seriamente distorsionadas. Esto suele suceder porque los datos de entrenamiento son escasos y propensos a una gran variación en este tipo de resolución, un problema conocido como sobreajuste.
El enfoque del bosque aleatorio es diferente. En lugar de calcular el resultado en cada rama calcula el resultado de las ramas aleatorias. Y lo hace muchas veces, cada vez con un conjunto diferente de ramas seleccionadas al azar. El resultado final es el promedio de todos estos árboles de decisión construidos al azar.
Este enfoque ofrece ventajas importantes, ya que evita el problema del sobreajuste y revela qué factores son más importantes para determinar el resultado.
Así que si un árbol de decisión incluye muchos parámetros, es fácil determinar cuáles tienen el mayor impacto en el resultado y cuáles no. Estos factores menos importantes pueden ser ignorados en el futuro.
Groll y su equipo han utilizado este enfoque para realizar un patrón del Mundial 2018. Han calculado el resultado de cada posible partido y han usado los resultados para construir el curso más probable del torneo.
Al principio, el equipo tuvo en cuenta muchos factores que podían determinar el resultado, como el PIB y la población de un país, su número de equipos nacionales incluidos en la FIFA y las características de los propios equipos, como su edad promedio, el número de jugadores presentes en la Liga de Campeones, si tienen ventaja por jugar en casa, etcétera. Además, la técnica del bosque aleatorio permite incluir otros intentos de clasificación, como los que utilizan los corredores de apuestas.
Conectar todo esto en el modelo proporciona algunas ideas interesantes. Por ejemplo, entre los factores más importantes destacan las clasificaciones por equipos creadas mediante métodos, incluidos los de corredores de apuestas, la FIFA y otros. Otros factores importantes incluyen el PIB y el número de jugadores del equipo que también juega en la Liga de Campeones. Por el contrario, la población del país, la nacionalidad del entrenador y otros datos de este tipo no tienen casi impacto en el resultado.
Las predicciones a través de este proceso difieren de otras en algunos aspectos importantes. Para empezar, el método del bosque aleatorio estima que el ganador más probable es España, con una probabilidad del 17,8 %.
Sin embargo, la estructura del torneo en sí también influye mucho en el resultado. Si Alemania supera la fase de grupos, es más probable deba competir contra un equipo muy fuerte en la fase eliminatoria de 16 equipos. Debido a esto, el método del bosque aleatorio calcula que las posibilidades que Alemania tiene de alcanzar los cuartos de final son del 58 %. Por el contrario, es poco probable que España se enfrente a otro equipo fuerte en los últimos 16 partidos, por lo que tiene un 73 % de posibilidades de alcanzar los cuartos de final.
Si ambos llegan a cuartos de final, tienen más o menos las mismas posibilidades de ganar. "España está ligeramente favorecida con respecto a Alemania, principalmente debido al hecho de que Alemania tiene una oportunidad comparativamente alta de abandonar en la ronda 16", señala el equipo de investigación.
Pero hay un giro adicional. El proceso del árbol aleatorio permite simular todo el torneo, y esto produce un resultado diferente. Tras simular todo el torneo 100.000 veces, los investigadores explican: "Según el curso más probable del torneo, la selección alemana tiene más probabilidades de ganar la Copa del Mundo que la selección española".
Por supuesto, debido a la gran cantidad de permutaciones de juegos, este curso es extremadamente improbable. Groll y su equipo creen que las probabilidades son de uno en 100.000.
Así que ahí lo tiene. Al comienzo del torneo, España tiene las mejores posibilidades de ganar, de acuerdo con el equipo de investigación. Pero si Alemania llega a los cuartos de final, entonces se convierte en el favorito.
Ref: arxiv.org/abs/1806.03208: Prediction Of The FIFA World Cup 2018 – A Random Forest Approach With An Emphasis On Estimated Team Ability Parameters