¿Cómo demostrar que la calificación Elo o la clasificación de la página tienen un significado para mi conjunto?

13

Tengo un conjunto de jugadores. Juegan uno contra el otro (en parejas). Los pares de jugadores se eligen al azar. En cualquier juego, un jugador gana y otro pierde. Los jugadores juegan entre sí un número limitado de juegos (algunos jugadores juegan más juegos, otros menos). Entonces, tengo datos (quién gana contra quién y cuántas veces). Ahora supongo que cada jugador tiene una clasificación que determina la probabilidad de ganar.

Quiero verificar si esta suposición es realmente cierta. Por supuesto, puedo usar el sistema de calificación Elo o el algoritmo de PageRank para calcular la calificación de cada jugador. Pero al calcular las calificaciones no pruebo que realmente existan o que signifiquen algo.

En otras palabras, quiero tener una manera de demostrar (o verificar) que los jugadores tienen diferentes puntos fuertes. ¿Cómo puedo hacerlo?

ADICIONAL

Para ser más específico, tengo 8 jugadores y solo 18 juegos. Entonces, hay muchos pares de jugadores que no jugaron uno contra el otro y hay muchos pares que jugaron solo una vez entre ellos. Como consecuencia, no puedo estimar la probabilidad de ganar para un par de jugadores dado. También veo, por ejemplo, que hay un jugador que ganó 6 veces en 6 juegos. Pero tal vez sea solo una coincidencia.

goodness-of-fit ranking rating

— romano
fuente

¿Quieres probar la hipótesis nula de que todos los jugadores tienen la misma fuerza, o comprobar el ajuste de un modelo de fuerza del jugador?

— parada el

@onestop: Todos los jugadores que tienen la misma fuerza serían muy improbables, ¿no? ¿Por qué sugieres esto como la hipótesis?

— Endolith

10

Necesitas un modelo de probabilidad.

La idea detrás de un sistema de clasificación es que un solo número caracteriza adecuadamente la habilidad de un jugador. Podríamos llamar a este número su "fuerza" (porque "rango" ya significa algo específico en las estadísticas). Predeciríamos que el jugador A vencerá al jugador B cuando la fuerza (A) exceda la fuerza (B). Pero esta afirmación es demasiado débil porque (a) no es cuantitativa y (b) no tiene en cuenta la posibilidad de que un jugador más débil ocasionalmente venza a un jugador más fuerte. Podemos superar ambos problemas suponiendo que la probabilidad de que A venza a B depende solo de la diferencia en sus puntos fuertes. Si esto es así, entonces podemos volver a expresar todas las fortalezas necesarias para que la diferencia de fortalezas sea igual a las probabilidades de registro de una victoria.

Específicamente, este modelo es

l o sol yo t (Pr (UN latidos si)) = λ_{UN} - λ_{si}

$\mathrm{logit}(\Pr(A \text{ beats } B)) = \lambda_A - \lambda_B$

donde, por definición, es la probabilidad de registro y he escrito para la fuerza del jugador A, etc. $\mathrm{logit}(p) = \log(p) - \log(1-p)$ $\lambda_A$

Este modelo tiene tantos parámetros como jugadores (pero hay un grado menos de libertad, porque solo puede identificar fortalezas relativas , por lo que fijaríamos uno de los parámetros en un valor arbitrario). Es una especie de modelo lineal generalizado (en la familia Binomial, con enlace logit).

Los parámetros se pueden estimar por máxima verosimilitud . La misma teoría proporciona un medio para erigir intervalos de confianza alrededor de las estimaciones de parámetros y para probar hipótesis (como si el jugador más fuerte, según las estimaciones, es significativamente más fuerte que el jugador más débil estimado).

Específicamente, la probabilidad de un conjunto de juegos es el producto

\prod_{todos los juegos} \frac{Exp (λ_{ganador} - λ_{perdedor})}{1 + Exp (λ_{ganador} - λ_{perdedor})} .

$\prod_{\text{all games}}{\frac{\exp(\lambda_{\text{winner}} - \lambda_{\text{loser}})}{1 + \exp(\lambda_{\text{winner}} - \lambda_{\text{loser}})}}.$

Después de fijar el valor de uno de los , las estimaciones de los demás son los valores que maximizan esta probabilidad. Por lo tanto, variar cualquiera de las estimaciones reduce la probabilidad de su máximo. Si se reduce demasiado, no es coherente con los datos. De esta manera, podemos encontrar intervalos de confianza para todos los parámetros: son los límites en los que variar las estimaciones no disminuye excesivamente la probabilidad de registro. Las hipótesis generales se pueden probar de manera similar: una hipótesis restringe las fortalezas (por ejemplo, suponiendo que todas sean iguales), esta restricción limita qué tan grande puede ser la probabilidad, y si este máximo restringido se queda muy por debajo del máximo real, la hipótesis es rechazado. $\lambda$

En este problema en particular hay 18 juegos y 7 parámetros gratuitos. En general, son demasiados parámetros: hay tanta flexibilidad que los parámetros se pueden variar libremente sin cambiar mucho la probabilidad máxima. Por lo tanto, es probable que la aplicación de la maquinaria de ML demuestre lo obvio, que es probable que no haya suficientes datos para confiar en las estimaciones de resistencia.

— whuber
fuente

2

(+1) Para ayudar al OP con búsquedas adicionales en este modelo, aquí hay algunos puntos adicionales. (1) Este modelo a menudo se llama modelo Bradley-Terry (aunque se remonta al menos a algunos trabajos de Zermelo). (2) Dejando que , la probabilidad predicha de que a

s_{A} = \exp (λ_{A})

$s_A = \exp(\lambda_A)$

A

$A$

B

$B$

s_{A} / (s_{A} + s_{B})

$s_A/(s_A + s_B)$

(cont.) Lester R. Ford, Jr. incluso tiene un artículo sobre un algoritmo de adaptación basado en esta idea en un Amer. Pieza mensual de matemáticas de 1957 escrita en honor a su padre.

— cardenal

4

Si quieres probar la hipótesis nula de que cada jugador tiene la misma probabilidad de ganar o perder cada juego, creo que quieres una prueba de simetría de la tabla de contingencia formada tabulando a los ganadores contra los perdedores.

Configure los datos de modo que tenga dos variables, 'ganador' y 'perdedor' que contengan la identificación del ganador y el perdedor para cada juego, es decir, cada 'observación' es un juego. Luego puede construir una tabla de contingencia de ganador contra perdedor. Su hipótesis nula es que esperaría que esta mesa sea simétrica (en promedio en torneos repetidos). En su caso, obtendrá una tabla de 8 × 8 donde la mayoría de las entradas son cero (correspondientes a jugadores que nunca se encontraron), es decir. la tabla será muy escasa, por lo que es casi seguro que sea necesaria una prueba "exacta" en lugar de una que dependa de los asintóticos.

Tal prueba exacta está disponible en Stata con el comando de simetría . En este caso, la sintaxis sería:

symmetry winner loser, exact

Sin duda, también se implementa en otros paquetes de estadísticas con los que estoy menos familiarizado.

— una parada
fuente

(+1) Es curioso, me acabo de dar cuenta de que este comando Stata podría usarse para la prueba de transmisión / desequilibrio en genética :) Discutí los paquetes R en una respuesta anterior, stats.stackexchange.com/questions/5171/… .

— chl

De hecho, la TDT es una aplicación discutida en la ayuda de Stata que he vinculado anteriormente. También es el contexto en el que me encontré por primera vez con esta prueba. Gracias por el enlace a esa Q anterior: parece que estaba ocupado con otras Q cuando se publicó.

— parada el

Aunque la pregunta se refiere a la prueba de hipótesis, su elección de énfasis está en la pregunta de bondad de ajuste: ¿una sola fuerza numérica (escalar) modela efectivamente los resultados de los partidos entre jugadores?

— whuber

1

¿Has revisado algunas de las publicaciones de Mark Glickman? Esos parecen relevantes. http://www.glicko.net/

Implícito en la desviación estándar de las clasificaciones está el valor esperado de un juego. (Esta desviación estándar se fija en un número específico en Elo básico y variable en el sistema Glicko). Digo el valor esperado en lugar de la probabilidad de una victoria debido a los empates. Las cosas clave que debe comprender acerca de las calificaciones de Elo que tenga es el supuesto de distribución subyacente (normal o logístico, por ejemplo) y la desviación estándar asumida.

La versión logística de las fórmulas de Elo sugiere que el valor esperado de una diferencia de calificación de 110 puntos es .653, por ejemplo, el jugador A con 1330 y el jugador B con 1220.

http://en.wikipedia.org/wiki/Elo_rating_system (OK, esa es una referencia de Wikipedia pero ya he dedicado demasiado tiempo a esta respuesta).

Así que ahora tenemos un valor esperado para cada juego basado en la calificación de cada jugador, y un resultado basado en el juego.

En este punto, lo siguiente que haría sería verificar esto gráficamente organizando las brechas de menor a mayor y totalizando los resultados esperados y reales. Entonces, para los primeros 5 juegos podríamos tener un total de puntos de 2 y puntos esperados de 1.5. Para los primeros 10 juegos, podríamos tener un total de puntos de 8 y puntos esperados de 8.8, etc.

Al graficar estas dos líneas de forma acumulativa (como lo haría para una prueba de Kolmogorov-Smirnov) puede ver si los valores acumulativos esperados y reales se rastrean bien o mal. Es probable que alguien más pueda proporcionar una prueba más formal.

— zbicyclist
fuente

1

Probablemente el ejemplo más famoso para probar cuán preciso es el método de estimación en el sistema de calificación fue las clasificaciones de ajedrez: Elo versus la competencia del resto del mundo en Kaggle , cuya estructura era la siguiente:

Los competidores entrenan sus sistemas de clasificación utilizando un conjunto de datos de entrenamiento de más de 65,000 resultados recientes para 8,631 jugadores principales. Luego, los participantes usan su método para predecir el resultado de otros 7,809 juegos.

El ganador fue Elo ++ .

Parece ser un buen esquema de prueba para sus necesidades, teóricamente, incluso si 18 coincidencias no son una buena base de prueba. Incluso puede verificar las diferencias entre los resultados de varios algoritmos (aquí hay una comparación entre rankade , nuestro sistema de clasificación y los más conocidos, incluidos Elo , Glicko y Trueskill ).

— Tomaso Neri
fuente

0

$H_0$

Una prueba simple para esto sería calcular la proporción de veces que el jugador con más juegos jugados anteriormente ganará, y compararlo con la función de distribución acumulativa binomial. Eso debería mostrar la existencia de algún tipo de efecto.

Si está interesado en la calidad del sistema de calificación Elo para su juego, un método simple sería ejecutar una validación cruzada 10 veces sobre el rendimiento predictivo del modelo Elo (que en realidad supone que los resultados no son idóneos, pero yo ' lo ignoraré) y compararlo con un lanzamiento de moneda.

— sesqu
fuente

Para ser más especifico. Tengo 8 jugadores y solo 18 juegos. Entonces, hay muchos pares de jugadores que no jugaron entre sí y hay muchos pares que jugaron solo uno entre ellos. Como consecuencia, no puedo estimar la probabilidad de ganar para un par de jugadores. También veo, por ejemplo, que hay un jugador que ganó 6 veces en 6 juegos. Pero puede ser que sea solo una coincidencia.

— Roman