¿Quién va a ganar la Eurocopa? Así arrancan las predicciones de nuestro modelo estadístico

¿Quién va a ganar la Eurocopa? Así arrancan las predicciones de nuestro modelo estadístico

Tomado de https:/elpais.com/section/mexico/portada

Nuestras predicciones son el resultado de hacer miles de simulaciones, que solo son azarosas en parte. En cada partido, la probabilidad de que gane uno u otro equipo depende de sus estadísticas. Por ejemplo, si Francia juega contra Albania, la probabilidad de que gane el primero ronda el 83%.

El modelo tiene tres partes:

1. ¿Cómo de fuerte es cada equipo? Para capturar esto usamos dos métricas: sus resultados recientes (medidos con un ránking Elo, un método original del ajedrez) y la calidad de sus jugadores (medida con su valor en euros, con datos de la web Transfermarkt).

2. ¿Quién gana cada partido? Hemos entrenado un modelo con miles de partidos para, dados dos equipos y sus métricas de fortaleza, estimar cómo de probable es cada resultado. El modelo dice la probabilidad de victoria, empate y derrota, e incluso la del marcador. Por ejemplo, en ese duelo hipotético entre Francia y Albania, los resultados más probables son 2-0 y 3-0 con alrededor del 14% cada uno.

3. ¿Y para predecir la Eurocopa entera? Lo que hacemos es simularlo partido a partido, cruce a cruce. Eso lo repetimos miles de veces, para tener 200.000 Eurocopas posibles, y así poder estimar la probabilidad de cada evento.

Las preguntas frecuentes

¿Entonces decís que va a ganar Francia? No, no. Nuestro modelo dice que Francia es la selección con más probabilidades, pero también que tiene solo una opción entre cinco de ganar. Es importante interpretar bien esto: en realidad, su victoria no es más probable que ver a un portero atajar un penalti.

Estos datos vienen a demostrar que una Eurocopa es difícil de predecir. Y no es una sorpresa. Primero, es un torneo diseñado para que la suerte influya: no es una liga regular, no tiene playoffs, ni partidos de ida y vuelta. Segundo, las selecciones juegan pocos partidos importantes y su rendimiento es más incierto que el de un club. Y, tercero, hablamos de fútbol, un deporte apasionante porque está lleno de sorpresas. Casi nadie se sentaría a ver un partido si el resultado estuviese decidido.

¿Habéis hecho esto antes? Sí. Usamos un modelo parecido en los mundiales de 2018 y 2022. Aquí podéis leer qué tal funcionó uno y otro. El modelo se ha demostrado bien calibrado: los resultados a los que dábamos una probabilidad entre 0% y 15% ocurrieron el 4% de las veces, por ejemplo, y aquellos con probabilidad 85% o 100% ocurrieron el 94% de las veces. En 2018, lo hicimos mucho mejor que el azar, mejor que el ranking FIFA y que dos grandes bancos (UBS y Goldman Sachs), aunque ganó Francia, que solo era nuestra sexta favorita al empezar. En 2022, la final la jugaron dos de los tres equipos que veíamos mejores, y batimos incluso a las apuestas.

¿Debería apostar usando vuestros pronósticos? No. Nuestro modelo es relativamente sofisticado y puede funcionar bien. Pero las apuestas han demostrado en el pasado que son muy difíciles de mejorar. Además, para no perder dinero no basta con batirlas, también hay que compensar el margen que se reservan las casas de apuestas al fijar los precios.

Los modelos estadísticos son útiles como referencia, por transparencia y porque nos permiten calcular detalles que las apuestas no responden. Pero, a la hora de acertar, las apuestas usan una aproximación híbrida: combinan modelos propios con el ajuste fino que hacen sus expertos, para considerar la información extra que poseen (como detalles de estilos de juego, estados de forma o lesiones).

Más detalles técnicos

Qué es un ranking Elo. Es una métrica que captura la fuerza de cada equipo según sus resultados. Cada equipo tiene cierta cantidad de puntos —sus puntos Elo—, y con cada partido se produce un intercambio. El ganador se lleva puntos del perdedor. Si la victoria es por sorpresa (porque se impone el equipo débil) los equipos se intercambian más puntos. Los rankings Elo funcionan bien y se usan cada vez más, en deportes y en videojuegos, por ejemplo, para organizar partidas entre jugadores de nivel parecido. Nuestro modelo usa el ranking Elo de la web Eloratings.

Por qué usamos el valor de las plantillas. Porque las selecciones juegan pocos partidos competitivos y eso dificulta medir su rendimiento antes de una gran cita. Una forma de añadir información al modelo es usar el valor en el mercado de fichajes de los jugadores que las componen. Tomamos los datos de la popular web Transfermarkt, ajustados por la edad de los jugadores (los mayores de treinta se abaratan por tener menos años de carrera por delante).

Cómo funciona el simulador de partidos. Hemos ajustado un modelo sencillo que estima los goles que marcará cada equipo en función de si es mejor o peor que su rival, en puntos Elo y valor de plantillas. El modelo también tiene en cuenta si los partidos tienen un anfitrión o se juegan en campo neutral, pero eso apenas influye en el toreno. Usamos una distribución de tipo Poisson, que ajusta razonablemente los goles en fútbol y que se ha usado en modelos estadísticos y estudios académicos.

Al final, para nuestro modelo, la probabilidad de que un equipo gane un partido depende de números: las diferencias con el rival en puntos Elo y en valor de plantillas. El gráfico lo resume con números:


Un resumen del modelo. El gráfico muestra la probabilidad que tiene un equipo de ganar un partido en función de dos parámetros: las diferencia sobre su rival en puntos Elo y en valor económico de sus plantillas.

Un equipo con una plantilla 160 millones más cara que su rival y con 200 puntos más de Elo gana el 62% de sus duelos

Diferencia de

valor de

160 millones

80 millones

-80 millones

-160 millones

Diferencia de ELO

Un resumen del modelo. El gráfico muestra la probabilidad que tiene un equipo de ganar un partido en función de dos parámetros: las diferencia sobre su rival en puntos Elo y en valor económico de sus plantillas.

Un equipo con una plantilla 160 millones más cara que su rival y con 200 puntos más de Elo gana el 62% de sus duelos

Diferencia de

valor de

160 millones

80 millones

-80 millones

-160 millones

Diferencia de ELO

Un resumen del modelo. El gráfico muestra la probabilidad que tiene un equipo de ganar un partido en función de dos parámetros: las diferencia sobre su rival en puntos Elo y en valor económico de sus plantillas.

Un equipo con una plantilla 160 millones más cara que su rival y con 200 puntos más de Elo gana el 62% de sus duelos

Diferencia de valor de

160 millones

80 millones

-80 millones

-160 millones

Diferencia de ELO

¿Por qué usamos un modelo que predice goles y no directamente victorias? Tiene dos ventajas hacerlo así: nos sirve para resolver la fase de grupos y para predecir prórrogas (como partidos de 30 minutos). Algunos estudios (desde Dixon & Coles, 1997) dicen que los modelos que predicen goles infraestiman los empates que realmente se producen. Hemos comprobado que es así en la Champions, y en las grandes ligas europeas, pero el efecto es menor en los Mundiales, y hemos decidido no hacer ese ajuste con la Eurocopa.

Qué acierto podemos esperar del modelo Para calibrarlo, hemos usado una base de datos de 18.000 partidos de selecciones desde 2004, incluidos cientos de Mundiales y Eurocopas.

Con datos de entrenamiento, el modelo acierta el resultado del 60% de los partidos con equipo local y el 56% en campo neutral. Evaluado en términos probabilísticos, las predicciones del modelo obtienen una puntuación de entre 0,176 y 0,186 (expresado con un Ranking Probability Score, como se explica aquí o aquí). Una precisión razonable, si la comparamos con otros modelos o con las apuestas.


Entrenamiento del modelo. Los puntos representan los resultados de partidos reales y las líneas las predicciones del modelo. Para partidos entre equipos con cierta diferencia de ‘ranking’ Elo (eje x), se muestra la probabilidad o el porcentaje que acaban en derrota, empate o victoria (eje y).

Derrotas

(prob. en %)

Empates

(prob. en %)

Victorias

(prob. en %)

Diferencia de ELO

Entrenamiento del modelo. Los puntos representan los resultados de partidos reales y las líneas las predicciones del modelo. Para partidos entre equipos con cierta diferencia de ranking Elo (eje x), se muestra la probabilidad o el porcentaje que acaban en derrota, empate o victoria (eje y).

Derrotas

(prob. en %)

Empates

(prob. en %)

Victorias

(prob. en %)

Diferencia de ELO

Entrenamiento del modelo. Los puntos representan los resultados de partidos reales y las líneas las predicciones del modelo. Para partidos entre equipos con cierta diferencia de ranking Elo (eje x), se muestra la probabilidad o el porcentaje que acaban en derrota, empate o victoria (eje y).

Derrotas

(prob. en %)

Empates

(prob. en %)

Victorias

(prob. en %)

Diferencia de ELO

También podéis poder la evaluación que hicimos de nuestro modelo de 2018 y en 2022, después de acabar cada mundial.

Tomado de https:/elpais.com/section/mexico/portada