¿Por qué el sistema de calificación Elo usa una regla de actualización incorrecta?

El sistema de calificación Elo utiliza un algoritmo de minimización de descenso de gradiente de la función de pérdida de entropía cruzada entre la probabilidad esperada y observada de un resultado en comparaciones pareadas. Podemos escribir las funciones de pérdida general como

E = - \sum_{n, i} p_{i} L o g (q_{i})

$E=-\sum_{n,i} p_i Log (q_i)$

donde la suma se realiza sobre todos los resultados y todos los oponentes . es la frecuencia observada del evento y la frecuencia esperada. $i$ $n$ $p_i$ $_i$ $q_i$

En el caso de solo dos posibles resultados (ganar o perder) y un oponente tenemos

E = - p L o g (q) - (1 - p) L o g (1 - q)

$E=-p Log (q)-(1-p)Log(1-q)$

Si es la clasificación del jugador y es la clasificación del jugador , podemos construir la probabilidad esperada como $\pi_i$ $i$ $\pi_j$ $j$

q_{yo} = \frac{{mi}^{π_{yo}}}{{mi}^{π_{yo}} + {mi}^{π_{j}}}

$q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}}$

entonces la regla de actualización de descenso de gradiente indica el uso

q_{j} = \frac{{mi}^{π_{j}}}{{mi}^{π_{yo}} + {mi}^{π_{j}}}

$q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}}$

π_{yo}^{'} = π_{yo} - η (q_{yo} - {pag}_{yo})

$\pi_i'=\pi_i-\eta (q_i-p_i)$

π_{j}^{'} = π_{j} - η (q_{j} - {pag}_{j})

$\pi_j'=\pi_j-\eta (q_j-p_j)$

donde y son la probabilidad esperada y observada de ganar del jugador contra el jugador . Estas son las reglas de actualización. $q_i$ $p_i$ $i$ $j$ two outcomes

En presencia de sorteos podemos generalizar el modelo anterior incluyendo un tercer resultado con probabilidad

q (re) = \frac{ν {mi}^{\frac{π_{yo} + π_{j}}{2}}}{{mi}^{π_{yo}} + {mi}^{π_{j}} + ν {mi}^{\frac{π_{yo} + π_{j}}{2}}}

$q(d)=\frac{\nu e^{\frac{\pi_i+\pi_j}{2}}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{yo} (w) = \frac{{mi}^{π_{yo}}}{{mi}^{π_{yo}} + {mi}^{π_{j}} + ν {mi}^{\frac{π_{yo} + π_{j}}{2}}}

$q_i(w)=\frac{ e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{j} (w) = \frac{{mi}^{π_{j}}}{{mi}^{π_{yo}} + {mi}^{π_{j}} + ν {mi}^{\frac{π_{yo} + π_{j}}{2}}}

$q_j(w)=\frac{ e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

Y podemos construir la función de pérdida como

mi = - pag (w) L o sol (q (w)) - (1 - pag (w) - pag (re)) L o sol (q (l)) - pag (re) L o sol (q (re))

$E=-p(w)Log(q(w))-(1-p(w)-p(d))Log(q(l))-p(d)Log(q(d))$

$p(w),p(l),p(d)$ winloosedraw $q(w),q(l),q(d)$ winloosedraw

π_{yo}^{'} = π_{yo} - η (q_{yo} (w) + \frac{q_{yo} (re)}{2} - {pag}_{yo} (w) - \frac{{pag}_{yo} (re)}{2})

$\pi_i'=\pi_i-\eta (q_i(w)+\frac{q_i(d)}{2}-p_i(w)-\frac{p_i(d)}{2})$

π_{j}^{'} = π_{j} - η (q_{j} (w) + \frac{q_{j} (re)}{2} - {pag}_{j} (w) - \frac{{pag}_{j} (re)}{2})

$\pi_j'=\pi_j-\eta (q_j(w)+\frac{q_j(d)}{2}-p_j(w)-\frac{p_j(d)}{2})$

$q_j(w)$ $q_j(d)$ $i$ $j$ $p_i(w)$ $p_i(d)$ $i$ $j$ three outcome

La pregunta es, ¿por qué el sistema de calificación Elo usa las two outcomesreglas de actualización incluso en presencia de sorteos?

regression optimization rating

— emanuele
fuente

La probabilidad de dibujar, en lugar de tener un resultado decisivo, no se especifica en el sistema Elo. En cambio, se considera un empate, tanto en el rendimiento esperado como en el resultado del partido, media victoria y mitad pérdida.

Un ejemplo de la página de Elo en Wikipedia : "El puntaje esperado de un jugador es su probabilidad de ganar más la mitad de su probabilidad de sacar. Por lo tanto, un puntaje esperado de 0.75 podría representar un 75% de posibilidades de ganar, un 25% de posibilidades de perder y un 0% de posibilidades del sorteo. En el otro extremo, podría representar un 50% de posibilidades de ganar, un 0% de posibilidades de perder y un 50% de posibilidades de dibujar ".

two outcome $R_A^\prime = R_A + K(S_A - E_A)$ $S_A=1 \cdot (n_w + 0.5 \cdot n_d ) + 0 \cdot (0.5 \cdot n_d + n_l)$ $S_A=1$ $S_A=0.5$ $S_A=0$

Al igual que Elo, el sistema Glicko no modela sorteos, pero realiza una actualización como el promedio de una victoria y una pérdida (por jugador). En cambio, en el sistema de clasificación TrueSkill , "los sorteos se modelan suponiendo que la diferencia de rendimiento en un juego en particular es pequeña. Por lo tanto, la posibilidad de sacar solo depende de la diferencia de la fuerza de juego de los dos jugadores. Sin embargo, los resultados empíricos en el juego de ajedrez muestran que los sorteos son más probables entre jugadores profesionales que principiantes. Por lo tanto, la posibilidad de dibujar también parece depender del nivel de habilidad ".

Este enfoque requiere un modelo específico diferente para cada juego (y TrueSkill se aplica a algunos juegos de Microsoft Xbox), por lo que es adecuado en Elo y Glicko (diseñado solo para ajedrez), y no es para rankade , nuestro sistema de clasificación multipropósito.

— Tomaso Neri
fuente

"El puntaje esperado de un jugador es su probabilidad de ganar más la mitad de su probabilidad de empatar". es exactamente lo que encontré en la fórmula anterior. De todos modos, en la fórmula de actualización de Elo, la mitad de la probabilidad de empate no se especifica como está señalando. La pregunta sigue siendo, ¿por qué en el sistema de clasificación Elo no nos importan los sorteos?

— emanuele

Puede siempre expresar la puntuación esperada como la oportunidad de ganar y la posibilidad de perder (y cero posibilidades de dibujo - ver primer ejemplo de Wikipedia). En este caso, "el puntaje esperado de un jugador es su probabilidad de ganar" (y cualquier otra cosa, porque la probabilidad de sacar la mitad es cero). Después de un solo partido, el resultado es una victoria, una pérdida o la mitad de la victoria. Incluso si tiene un juego en el que se permiten sorteos, puede actualizar el puntaje de Elo usando solo una combinación de victoria y pérdida, como si los sorteos no tuvieran ninguna posibilidad.

— Tomaso Neri