Un modelo de "estado del arte" para la distribución de goles marcados en un partido de fútbol es el de Dixon y Robinson (1998) "Un modelo de proceso de nacimiento para partidos de fútbol de asociación" que explica dos fenómenos clave:
1) Se marcan más goles al final de los partidos que al inicio (se supone que se debe a la fatiga sufrida por ambos equipos)
2) Las tasas de puntaje dependen de la línea de puntaje actual por una miríada de razones, como equipos con un líder que se vuelve complaciente o equipos que prefieren jugar un empate en lugar de arriesgarse a perder al ganar.
El modelo supone que los goles marcados por los equipos local y visitante en un partido siguen procesos no homogéneos de Poisson. Dejar denotar el tiempo transcurrido en un partido, normalizado para caer entre y , la vector de longitud denotar los momentos en que el equipo local marcó goles y el vector de longitud denotar los momentos en que el equipo visitante marcó goles. La probabilidad del partido es entonces
dónde es la tasa de puntuación para el equipo local en ese momento depende de una combinación de factores homogéneos en el tiempo (por ejemplo, capacidad de ataque del equipo local versus capacidad de defensa del equipo visitante, ventaja en el hogar) y factores no homogéneos en el tiempo (por ejemplo, línea de puntaje en el momento ) Similarmente para.
Los dos procesos son dependientes porque cuando un equipo anota la línea de puntaje cambia y las tasas de puntaje dependen de la línea de puntaje.
La probabilidad se puede evaluar fácilmente llevando a cabo la integración en el exponente numéricamente. Por lo tanto, es sencillo calcular los parámetros del modelo (habilidades de equipo, ventaja de local, efecto de tiempo, parámetros de línea de puntaje, etc.) a través de la máxima probabilidad.
En términos de predicción, las cantidades obvias de interés son:
- : el equipo local gana
- : el equipo visitante gana
- : dibujar
- Probabilidad de líneas de puntuación particulares, p. Ej.
- Probabilidad de goles totales en el partido, p. Ej.
Para calcular estas cantidades (aproximadamente) dado un conjunto de parámetros del modelo, podríamos utilizar los métodos de Monte Carlo para generar coincidencias de acuerdo con estos procesos y luego calcular las frecuencias de cada puntaje final. La simulación de los procesos es relativamente sencilla, al generar objetivos a partir de un único proceso de Poisson homogéneo envolvente junto con un muestreo de rechazo y luego distribuirlos al equipo local o visitante en consecuencia.
El inconveniente de este enfoque es, obviamente, la carga computacional de la simulación de Monte Carlo. Considere intentar hacer predicciones en tiempo real a medida que se juegan los partidos, de los cuales pueden ocurrir muchos simultáneamente, y rápidamente se convierte en un motivo de preocupación.
Mi pregunta, por lo tanto, es si hay algún enfoque alternativo que podamos considerar que no incurra, como un alto costo computacional (incluso si se basan en una aproximación que sacrifica la precisión para facilitar el cálculo).
Para mayor claridad, no estoy buscando sugerencias (básicas) sobre cómo implementar eficientemente la simulación de Monte Carlo, que ya he escrito en C de subprocesos múltiples, utiliza números cuasialeatorios que se generaron previamente mediante el desenrollado y explota el adelgazamiento por partes para lograr una muy alta tasa de aceptación. Si crees que todavía hay margen para un aumento dramático del rendimiento, entonces, por supuesto, soy todo oídos, ¡pero realmente estoy buscando un enfoque fundamentalmente diferente!