Permítanme explicar primero qué es un conjugado anterior . Luego explicaré los análisis bayesianos utilizando su ejemplo específico. Las estadísticas bayesianas incluyen los siguientes pasos:
- Defina la distribución previa que incorpora sus creencias subjetivas sobre un parámetro (en su ejemplo, el parámetro de interés es la proporción de zurdos). El prior puede ser "no informativo" o "informativo" (pero no existe un prior que no tenga información, vea la discusión aquí ).
- Reunir datos.
- Actualice su distribución anterior con los datos utilizando el teorema de Bayes para obtener una distribución posterior. La distribución posterior es una distribución de probabilidad que representa sus creencias actualizadas sobre el parámetro después de haber visto los datos.
- Analizar la distribución posterior y resumirla (media, mediana, sd, cuantiles, ...).
La base de todas las estadísticas bayesianas es el teorema de Bayes, que es
posterior∝prior×likelihood
En su caso, la probabilidad es binomial. Si la distribución anterior y la posterior están en la misma familia, las anteriores y posteriores se denominan distribuciones conjugadas . La distribución beta es un conjugado anterior porque el posterior también es una distribución beta. Decimos que la distribución beta es la familia conjugada para la probabilidad binomial. Los análisis conjugados son convenientes pero rara vez ocurren en problemas del mundo real. En la mayoría de los casos, la distribución posterior debe encontrarse numéricamente a través de MCMC (utilizando Stan, WinBUGS, OpenBUGS, JAGS, PyMC o algún otro programa).
Si la distribución de probabilidad previa no se integra a 1, se llama un prior impropio , si se integra a 1 se llama un prior apropiado . En la mayoría de los casos, un previo incorrecto no representa un problema importante para los análisis bayesianos. Sin embargo, la distribución posterior debe ser adecuada, es decir, la posterior debe integrarse a 1.
Estas reglas generales se derivan directamente de la naturaleza del procedimiento de análisis bayesiano:
- Si el anterior no es informativo, el posterior está muy determinado por los datos (el posterior está basado en datos)
- Si lo anterior es informativo, lo posterior es una mezcla de lo anterior y los datos.
- Cuanto más informativo sea el anterior, más datos necesitará para "cambiar" sus creencias, por así decirlo, porque el posterior está muy impulsado por la información previa.
- Si tiene muchos datos, los datos dominarán la distribución posterior (abrumarán a los anteriores)
En esta publicación se puede encontrar una excelente descripción de algunos posibles antecedentes "informativos" y "no informativos" para la distribución beta .
Digamos que su versión beta anterior es donde es la proporción de zurdos. Para especificar los parámetros anteriores y , es útil conocer la media y la varianza de la distribución beta (por ejemplo, si desea que su anterior tenga una cierta media y varianza). La media es . Por lo tanto, cada vez que , la media es . La variación de la distribución beta es . Ahora, lo conveniente es que puedes pensar en yBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβcomo se observó anteriormente (pseudo-) datos, a saber, zurdos y derechos de una muestra (pseudo-) de tamaño . La distribución es uniforme (todos los valores de son igualmente probables) y es el equivalente a haber observado a dos personas de los cuales uno es zurdo y el otro es diestro.αβneq=α+βBeta(πLH|α=1,β=1)πLH
La distribución beta posterior es simplemente donde es el tamaño de la muestra y es el número de zurdos en la muestra. La media posterior de es por lo tanto . Entonces, para encontrar los parámetros de la distribución beta posterior, simplemente agregamos zurdos a y derechos a . La varianza posterior esBeta(z+α,N−z+β)NzπLH(z+α)/(N+α+β)zαN−zβ(z+α)(N−z+β)(N+α+β)2(N+α+β+1). Tenga en cuenta que un previo altamente informativo también conduce a una variación menor de la distribución posterior (los gráficos a continuación ilustran muy bien el punto).
En su caso, y y su prior es el uniforme que no es informativo, entonces . Su distribución posterior es, por lo tanto, . La media posterior es . Aquí hay un gráfico que muestra lo anterior, la probabilidad de los datos y lo posteriorz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15
Usted ve que debido a que su distribución anterior no es informativa, su distribución posterior está completamente impulsada por los datos. También se representa el intervalo de densidad más alto (IDH) para la distribución posterior. Imagine que coloca su distribución posterior en una cuenca 2D y comienza a llenar el agua hasta que el 95% de la distribución esté por encima de la línea de flotación. Los puntos donde la línea de flotación se cruza con la distribución posterior constituyen el 95% de IDH. Cada punto dentro del IDH tiene una probabilidad más alta que cualquier punto fuera de él. Además, el IDH siempre incluye el pico de la distribución posterior (es decir, el modo). El IDH es diferente de un intervalo creíble igual al 95% de cola donde se excluye el 2.5% de cada cola de la parte posterior (ver aquí ).
Para su segunda tarea, se le pide que incorpore la información de que 5-20% de la población son zurdos en cuenta. Hay varias formas de hacerlo. La forma más fácil es decir que la distribución beta anterior debe tener una media de que es la media de y . Pero, ¿cómo elegir y de la distribución beta anterior? Primero, desea que su media de la distribución anterior sea de una pseudo-muestra de tamaño de muestra equivalente . En términos más generales, si desea que su anterior tenga una media con un tamaño de pseudo-muestra , el correspondiente0.1250.050.2αβ0.125neqmneqαy los valores son: y . Todo lo que tiene que hacer ahora es elegir el tamaño de pseudo-muestra que determina qué tan seguro está de su información anterior. Digamos que está muy seguro de su información previa y establezca . Los parámetros de su distribución anterior son por lo tanto y . La distribución posterior es con una media de aproximadamente que es prácticamente la misma que la media anterior deβα=mneqβ=(1−m)neqneqneq=1000α=0.125⋅1000=125β=(1−0.125)⋅1000=875Beta(127,891)0.1250.125. La información previa está dominando la posterior (ver el siguiente gráfico):
Si no está tan seguro acerca de la información previa, puede establecer el de su pseudo-muestra en, por ejemplo, , que produce y para su distribución beta anterior. La distribución posterior es con una media de aproximadamente . La media posterior ahora está cerca de la media de sus datos ( ) porque los datos superan a los anteriores. Aquí está el gráfico que muestra la situación:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111
Un método más avanzado para incorporar la información previa sería decir que el cuantil de de su distribución beta anterior debería ser de aproximadamente y el cuantil de debería ser de aproximadamente . Esto equivale a decir que está 95% seguro de que la proporción de zurdos en la población se encuentra entre 5% y 20%. La función en el paquete R calcula los valores y de una distribución beta correspondiente a tales cuantiles. El código es0.0250.050.9750.2beta.select
LearnBayes
αβ
library(LearnBayes)
quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)
[1] 7.61 59.13
Parece que una distribución beta con los parámetros y tiene las propiedades deseadas. La media anterior es que está cerca de la media de sus datos ( ). Nuevamente, esta distribución previa incorpora la información de una pseudomuestra de un tamaño de muestra equivalente de aproximadamente . . La distribución posterior es con una media de que es comparable con la media del análisis anterior utilizando un previo altamente informativo . Aquí está el gráfico correspondiente:α=7.61β=59.137.61/(7.61+59.13)≈0.1140.111neq≈7.61+59.13≈66.74Beta(9.61,75.13)0.113Beta(125,875)
Vea también esta referencia para una breve pero buena descripción general del razonamiento bayesiano y el análisis simple. Aquí se puede encontrar una introducción más larga para los análisis conjugados, especialmente para los datos binomiales . Aquí se puede encontrar una introducción general al pensamiento bayesiano . Más diapositivas sobre aspectos de las estadísticas baysianas están aquí .