A continuación hay un par de modelos muy simples . Ambos son deficientes en al menos una forma, pero tal vez proporcionen algo sobre lo que construir. El segundo modelo en realidad no aborda (del todo) el escenario del OP (ver comentarios a continuación), pero lo dejo en caso de que ayude de alguna manera.
Modelo 1 : una variante del modelo Bradley-Terry
Supongamos que estamos interesados principalmente en predecir si un equipo vencerá a otro en función de los jugadores de cada equipo. Simplemente podemos registrar si el Equipo 1 con jugadores vence al Equipo 2 con jugadores para cada juego, ignorando el puntaje final. Ciertamente, esto está arrojando algo de información, pero en muchos casos esto todavía proporciona mucha información.( k , ℓ )( i , j )( k , ℓ )
El modelo es entonces
l o g i t ( P (Equipo 1 vence al Equipo 2))= αyo+ αj- αk- αℓ.
Es decir, tenemos un parámetro de "afinidad" para cada jugador que afecta cuánto mejora la posibilidad de que su equipo gane. Define la "fuerza" del jugador mediante . Entonces, este modelo afirma que
P (el equipo 1 vence al equipo 2 ) = s i s jsyo= eαyo
P (Equipo 1 vence al Equipo 2)= syosjsyosj+ sksℓ.
Aquí hay una simetría muy buena en que no importa cómo se codifica la respuesta siempre que sea coherente con los predictores. Es decir, también tenemos
l o g i t ( P ( Equipo 2 vence al Equipo 1 ) ) = αk+ αℓ- αyo- αj.
Esto se puede ajustar fácilmente como una regresión logística con predictores que son indicadores (uno para cada jugador) que toman el valor si el jugador está en el Equipo 1 para el juego en cuestión, si está en el Equipo 2 y si no participar en ese juegoi - 1 0+ 1yo- 10 0
De esto también tenemos un ranking natural para los jugadores. Cuanto mayor sea (o ), mayor será el jugador que mejorará las posibilidades de ganar de su equipo. Entonces, simplemente podemos clasificar a los jugadores de acuerdo con sus coeficientes estimados. (Tenga en cuenta que los parámetros de afinidad solo son identificables hasta un desplazamiento común. Por lo tanto, es típico corregir para que el modelo sea identificable).s α 1 = 0αsα1= 0
Modelo 2 : puntuación independiente
NB : Al volver a leer la pregunta del OP, es evidente que los siguientes modelos son inadecuados para su configuración. Específicamente, el OP está interesado en un juego que termina después de que un equipo u otro anoten un número fijo de puntos. Los siguientes modelos son más apropiados para juegos que tienen una duración fija en el tiempo. Se pueden hacer modificaciones para que se ajusten mejor al marco del OP, pero requeriría una respuesta por separado para desarrollarse.
Ahora queremos hacer un seguimiento de las puntuaciones. Supongamos que es una aproximación razonable que cada equipo obtenga puntos de forma independiente entre sí con el número de puntos anotados en cualquier intervalo, independientemente de cualquier intervalo disjunto. Luego, el número de puntos que obtiene cada equipo se puede modelar como una variable aleatoria de Poisson.
Por lo tanto, podemos configurar un GLM de Poisson de modo que la puntuación de algún equipo formado por jugadores y en un juego en particular sea
j log ( μ ) = γ i + γ jyoj
Iniciar sesión( μ ) = γyo+ γj
Tenga en cuenta que este modelo ignora los enfrentamientos reales entre equipos, centrándose exclusivamente en la puntuación.
Se hace tener una conexión interesante para el modelo de Bradley-Terry modificado. Defina y suponga que se juega un juego de "muerte súbita" en el que gana el primer equipo que anota. Si el Equipo 1 tiene jugadores y el Equipo 2 tiene jugadores , entonces
Por lo tanto, la tasa media de puntuación de los jugadores es equivalente a la formulación del parámetro "fuerza" del Modelo 1.σyo= eγyo( i , j )( k , ℓ )
P (Equipo 1 vence al Equipo 2 en muerte súbita)= σyoσjσyoσj+ σkσℓ.
Podríamos considerar hacer este modelo más complejo teniendo una afinidad "ofensiva" y una afinidad de "defensa" para cada jugador, de modo que si el Equipo 1 con juega el Equipo 2 con , entonces
y
δ i ( i , j ) ( k , ℓ ) log ( μ 1 ) = ρ i + ρ j - δ k - δ ℓ log ( μ 2 ) = ρ k + ρ ℓ - δ i - δ jρyoδyo( i , j )( k , ℓ )
Iniciar sesión( μ1) = ρyo+ ρj- δk- δℓ
Iniciar sesión( μ2) = ρk+ ρℓ- δyo- δj
La puntuación sigue siendo independiente en este modelo, pero ahora hay una interacción entre los jugadores de cada equipo que afecta la puntuación. Los jugadores también pueden clasificarse según sus estimaciones de coeficientes de afinidad.
El modelo 2 (y sus variantes) también permiten la predicción de una puntuación final.
Extensiones : Una forma útil de extender ambos modelos es incorporar un orden en el que los indicadores positivos correspondan al equipo "local" y los indicadores negativos al equipo "visitante". Agregar un término de intercepción a los modelos se puede interpretar como una "ventaja de campo local". Otras extensiones pueden incluir la incorporación de la posibilidad de vínculos en el Modelo 1 (en realidad, ya es una posibilidad en el Modelo 2).
Nota al margen : al menos una de las encuestas computarizadas ( Peter Wolfe ) utilizadas para la Bowl Championship Series en el fútbol americano universitario utiliza el modelo (estándar) Bradley-Terry para producir sus clasificaciones.