Este es un gran ejemplo para ilustrar la diferencia entre los enfoques de inferencia frecuentista y bayesiano.
Mi primera respuesta frecuente y simplista:
si ya has asumido que la distribución de los ataques es binomial, no necesitas saber nada sobre los otros 1000 jugadores (aparte de que quizás puedas usarlos para verificar tu suposición binomial).
Una vez que tenga claro el supuesto binomial, su estimación es muy sencilla: 3/10. La varianza de esta estimación es la habitual p (1-p) / n = 0.021.
Básicamente, los otros 1000 jugadores son irrelevantes a menos que pienses que hay algo interesante y no binomial en la distribución de golpes (por ejemplo, las personas mejoran a medida que juegan más juegos).
Una forma Bayesiana más considerada de verlo:
Alternativamente, si estás interesado en aplicar los conocimientos previos que tienes de otros jugadores y crees que el nuevo jugador es básicamente una nueva muestra de esa misma población, deberías pensarlo en Bayesiano términos .
Estimar una distribución previa de jugadores. Para hacer esto, debes mirar tus 1000 puntos de datos: los 1000 jugadores que ya han sido observados, para cada uno de los cuales tienes una estimación de la probabilidad de un golpe. Cada uno de estos 1000 puntos puede tomar solo uno de los 21 valores (de cero a veinte golpes de veinte) y verá una distribución en todo el campo. Si convierte estos puntajes en proporciones (es decir, entre cero y uno), esta distribución probablemente se puede aproximar razonablemente bien mediante una distribución de probabilidad de una variable aleatoria con una distribución Beta. Una distribución beta se caracteriza completamente por solo dos parámetros, digamos ayb, pero debido a que estos parámetros no tienen realmente que ver con la distribución que nos ha preguntado (la probabilidad de un golpe del jugador en particular) sino con una distribución de mayor nivel llámalos hiperparámetros. Puede desarrollar estimaciones de estos hiperparámetros a partir de sus 1000 puntos de datos de una de varias maneras que no son realmente relevantes para el punto principal de su pregunta.
Antes de que tenga información sobre su jugador, su mejor suposición en cuanto a su proporción de anotar un golpe (llamémosla p) sería el valor más probable de p de esa distribución Beta que acabamos de ajustar.
Sin embargo, tenemos datos sobre nuestro propio jugador, ¡no solo sobre la población en general! Confiamos en Dios, todos los demás deben traer datos (atribuiría esta cita si pudiera recordar dónde la encontré, lo siento). Cada vez que observamos a nuestro jugador jugar un juego y obtener un golpe o no, tenemos una nueva información para precisar nuestra estimación de su proporción.
Una de las cosas interesantes acerca de la distribución beta como distribución de probabilidad para una proporción es que a medida que recopilamos nueva información de los datos y creamos una nueva estimación mejorada de la proporción, la teoría de probabilidad puede mostrar que la nueva estimación mejorada también es beta distribución: solo una versión más concentrada. Esto se debe a que la distribución beta es lo que se conoce como un conjugado antes cuando se trata de hacer estimaciones sobre un modelo binomial.
Es decir, si observamos z de n eventos exitosos (juegos con strikes en este caso); y la distribución previa fue beta (a, b); la distribución posterior (son estimaciones de la distribución de probabilidad de p dados los 1000 puntos de datos originales y son una nueva observación de diez juegos) es beta (a + z, b + nz) o (en nuestro caso) beta (a + 3, b + 7). Como puede ver, cuantos más datos obtenga, menos importantes son ayb. La matemática de esto es razonablemente sencilla y en muchos textos, pero no tan interesante (para mí, de todos modos).
Si tiene R, puede ver un ejemplo ejecutando el código a continuación (y si no tiene R, debería obtenerlo, es gratis y es increíble para ayudar a pensar en este tipo de problema). Esto supone que la distribución previa de jugadores puede ser modelada por beta (2,5), esto fue inventado por mí. En realidad, hay formas en que puede estimar las cifras para ayb mejor que simplemente hacer 2 y 5 porque creo que la curva se ve bien.
Como verá si ejecuta este ejemplo estilizado, la estimación puntual de la probabilidad del jugador de anotar un golpe, dada una distribución previa de beta (2,5), es 0.29 en lugar de 0.30. Además, podemos crear un intervalo de credibilidad, que es francamente más intuitivo y más fácil de explicar que un intervalo de confianza (vea muchas preguntas y debates en Internet sobre la diferencia entre los dos, incluso en CrossValidated).
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
Entonces observe a su nuevo jugador; y calcular una nueva distribución posterior para el nuevo jugador. Efectivamente, esto dice "dado lo que acabamos de observar, ¿en qué parte de la distribución de jugadores creemos que es más probable que esta persona esté?"