Estimando la probabilidad de éxito, dada una población de referencia

Supongamos que tiene la siguiente situación:

Con el tiempo, observó 1000 jugadores de bolos, cada uno de los cuales jugó un número relativamente pequeño de juegos (digamos 1 a 20). Usted notó el porcentaje de strike para cada uno de esos jugadores sobre el número de juegos que cada uno de esos jugadores ha jugado.

Un nuevo jugador de bolos entra y juega 10 juegos y recibe 3 golpes.

Se supone que la distribución del número de golpes para cualquier jugador es binomial.

Quiero estimar la probabilidad "verdadera" de éxito para ese jugador.

Tenga en cuenta lo siguiente:

Esta no es una situación real o un problema escolar, solo un problema de pensamiento propio.
Soy un estudiante con poco más educación en estadísticas que un curso de Estadísticas 101. Sé un poco acerca de la inferencia, como la estimación de máxima probabilidad ... Así que siéntase libre de decirme áreas en las estadísticas sobre las que debería leer.
Mi problema podría carecer de información, o si sería beneficioso para, por ejemplo, que la distribución de la probabilidad de éxito sea aproximadamente normal, dígamelo.

Muchas gracias

binomial inference

— Uwat
fuente

¿Cuál crees que es la relación entre la probabilidad de este jugador y la probabilidad de cada uno de los otros 1000 jugadores? En otras palabras, ¿por qué consideraríamos los otros 1000 para estimar el problema de este jugador?

— rolando2

Supongo que el verdadero porcentaje de strike del jugador es esencialmente una realización de la misma distribución de porcentajes de strike que los otros 1000 jugadores. En otras palabras, no hay nada especial en ese nuevo jugador, es solo otro jugador al azar. Esperemos que tenga sentido.

— Uwat

Este es un gran ejemplo para ilustrar la diferencia entre los enfoques de inferencia frecuentista y bayesiano.

Mi primera respuesta frecuente y simplista: si ya has asumido que la distribución de los ataques es binomial, no necesitas saber nada sobre los otros 1000 jugadores (aparte de que quizás puedas usarlos para verificar tu suposición binomial).

Una vez que tenga claro el supuesto binomial, su estimación es muy sencilla: 3/10. La varianza de esta estimación es la habitual p (1-p) / n = 0.021.

Básicamente, los otros 1000 jugadores son irrelevantes a menos que pienses que hay algo interesante y no binomial en la distribución de golpes (por ejemplo, las personas mejoran a medida que juegan más juegos).

Una forma Bayesiana más considerada de verlo: Alternativamente, si estás interesado en aplicar los conocimientos previos que tienes de otros jugadores y crees que el nuevo jugador es básicamente una nueva muestra de esa misma población, deberías pensarlo en Bayesiano términos .

Estimar una distribución previa de jugadores. Para hacer esto, debes mirar tus 1000 puntos de datos: los 1000 jugadores que ya han sido observados, para cada uno de los cuales tienes una estimación de la probabilidad de un golpe. Cada uno de estos 1000 puntos puede tomar solo uno de los 21 valores (de cero a veinte golpes de veinte) y verá una distribución en todo el campo. Si convierte estos puntajes en proporciones (es decir, entre cero y uno), esta distribución probablemente se puede aproximar razonablemente bien mediante una distribución de probabilidad de una variable aleatoria con una distribución Beta. Una distribución beta se caracteriza completamente por solo dos parámetros, digamos ayb, pero debido a que estos parámetros no tienen realmente que ver con la distribución que nos ha preguntado (la probabilidad de un golpe del jugador en particular) sino con una distribución de mayor nivel llámalos hiperparámetros. Puede desarrollar estimaciones de estos hiperparámetros a partir de sus 1000 puntos de datos de una de varias maneras que no son realmente relevantes para el punto principal de su pregunta.

Antes de que tenga información sobre su jugador, su mejor suposición en cuanto a su proporción de anotar un golpe (llamémosla p) sería el valor más probable de p de esa distribución Beta que acabamos de ajustar.

Sin embargo, tenemos datos sobre nuestro propio jugador, ¡no solo sobre la población en general! Confiamos en Dios, todos los demás deben traer datos (atribuiría esta cita si pudiera recordar dónde la encontré, lo siento). Cada vez que observamos a nuestro jugador jugar un juego y obtener un golpe o no, tenemos una nueva información para precisar nuestra estimación de su proporción.

Una de las cosas interesantes acerca de la distribución beta como distribución de probabilidad para una proporción es que a medida que recopilamos nueva información de los datos y creamos una nueva estimación mejorada de la proporción, la teoría de probabilidad puede mostrar que la nueva estimación mejorada también es beta distribución: solo una versión más concentrada. Esto se debe a que la distribución beta es lo que se conoce como un conjugado antes cuando se trata de hacer estimaciones sobre un modelo binomial.

Es decir, si observamos z de n eventos exitosos (juegos con strikes en este caso); y la distribución previa fue beta (a, b); la distribución posterior (son estimaciones de la distribución de probabilidad de p dados los 1000 puntos de datos originales y son una nueva observación de diez juegos) es beta (a + z, b + nz) o (en nuestro caso) beta (a + 3, b + 7). Como puede ver, cuantos más datos obtenga, menos importantes son ayb. La matemática de esto es razonablemente sencilla y en muchos textos, pero no tan interesante (para mí, de todos modos).

Si tiene R, puede ver un ejemplo ejecutando el código a continuación (y si no tiene R, debería obtenerlo, es gratis y es increíble para ayudar a pensar en este tipo de problema). Esto supone que la distribución previa de jugadores puede ser modelada por beta (2,5), esto fue inventado por mí. En realidad, hay formas en que puede estimar las cifras para ayb mejor que simplemente hacer 2 y 5 porque creo que la curva se ve bien.

Como verá si ejecuta este ejemplo estilizado, la estimación puntual de la probabilidad del jugador de anotar un golpe, dada una distribución previa de beta (2,5), es 0.29 en lugar de 0.30. Además, podemos crear un intervalo de credibilidad, que es francamente más intuitivo y más fácil de explicar que un intervalo de confianza (vea muchas preguntas y debates en Internet sobre la diferencia entre los dos, incluso en CrossValidated).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

Entonces observe a su nuevo jugador; y calcular una nueva distribución posterior para el nuevo jugador. Efectivamente, esto dice "dado lo que acabamos de observar, ¿en qué parte de la distribución de jugadores creemos que es más probable que esta persona esté?"

— Peter Ellis
fuente

No creo que esto sea correcto. Suponga que la gran mayoría (99%) de las personas entre las 1000 personas tienen un porcentaje de huelga entre 5% y 15% y un puñado tiene porcentajes de huelga superiores al 25%. Entonces argumentaría que es más probable que el nuevo jugador que observamos tenga un porcentaje de strike verdadero inferior al 30%, pero simplemente "tuvo suerte".

— Uwat

ok, buen punto: he agregado una edición para tener en cuenta esta situación. Básicamente tiene una buena declaración de un problema de inferencia bayesiana.

— Peter Ellis

@Peter: todo muy bien discutido.

— rolando2

Gracias por tu respuesta. Sin embargo, no entendí muy bien lo que querías decir con: "necesitas una distribución real de las tasas de huelga de los individuos, que probablemente será Beta de algún tipo" ¿Puedes aclarar un poco? Gracias

— Uwat

Gracias, muy buena pregunta, he ampliado enormemente mi respuesta en respuesta.

— Peter Ellis