Necesitas un modelo de probabilidad.
La idea detrás de un sistema de clasificación es que un solo número caracteriza adecuadamente la habilidad de un jugador. Podríamos llamar a este número su "fuerza" (porque "rango" ya significa algo específico en las estadísticas). Predeciríamos que el jugador A vencerá al jugador B cuando la fuerza (A) exceda la fuerza (B). Pero esta afirmación es demasiado débil porque (a) no es cuantitativa y (b) no tiene en cuenta la posibilidad de que un jugador más débil ocasionalmente venza a un jugador más fuerte. Podemos superar ambos problemas suponiendo que la probabilidad de que A venza a B depende solo de la diferencia en sus puntos fuertes. Si esto es así, entonces podemos volver a expresar todas las fortalezas necesarias para que la diferencia de fortalezas sea igual a las probabilidades de registro de una victoria.
Específicamente, este modelo es
l o g i t (Pr(A supera a B))= λUN- λsi
donde, por definición, es la probabilidad de registro y he escrito para la fuerza del jugador A, etc.l o g i t (p)=log( p ) - registro( 1 - p )λUN
Este modelo tiene tantos parámetros como jugadores (pero hay un grado menos de libertad, porque solo puede identificar fortalezas relativas , por lo que fijaríamos uno de los parámetros en un valor arbitrario). Es una especie de modelo lineal generalizado (en la familia Binomial, con enlace logit).
Los parámetros se pueden estimar por máxima verosimilitud . La misma teoría proporciona un medio para erigir intervalos de confianza alrededor de las estimaciones de parámetros y para probar hipótesis (como si el jugador más fuerte, según las estimaciones, es significativamente más fuerte que el jugador más débil estimado).
Específicamente, la probabilidad de un conjunto de juegos es el producto
∏todos los juegosExp( λganador- λperdedor)1 + exp( λganador- λperdedor).
Después de fijar el valor de uno de los , las estimaciones de los demás son los valores que maximizan esta probabilidad. Por lo tanto, variar cualquiera de las estimaciones reduce la probabilidad de su máximo. Si se reduce demasiado, no es coherente con los datos. De esta manera, podemos encontrar intervalos de confianza para todos los parámetros: son los límites en los que variar las estimaciones no disminuye excesivamente la probabilidad de registro. Las hipótesis generales se pueden probar de manera similar: una hipótesis restringe las fortalezas (por ejemplo, suponiendo que todas sean iguales), esta restricción limita qué tan grande puede ser la probabilidad, y si este máximo restringido se queda muy por debajo del máximo real, la hipótesis es rechazado.λ
En este problema en particular hay 18 juegos y 7 parámetros gratuitos. En general, son demasiados parámetros: hay tanta flexibilidad que los parámetros se pueden variar libremente sin cambiar mucho la probabilidad máxima. Por lo tanto, es probable que la aplicación de la maquinaria de ML demuestre lo obvio, que es probable que no haya suficientes datos para confiar en las estimaciones de resistencia.