El uso de funciones de densidad de probabilidad en los cálculos. En otras palabras, cómo evaluar tales ecuaciones.
Creo que todavía estás pensando en esto desde una perspectiva frecuentista: si estás buscando una estimación puntual, la parte posterior no te la dará. Pones archivos PDF, obtienes archivos PDF. Puede derivar estimaciones puntuales calculando estadísticas a partir de su distribución posterior, pero llegaré a eso en un momento.
Comprendo el concepto de anteriores y posteriores y entiendo cómo aplicarlos usando una tabla manualmente. Entiendo (¡creo!) Que pi representa la supuesta proporción o probabilidad de la población.
p ( x ) ππ( x ) es lo mismo que : ambos son archivos PDF. se usa convencionalmente para denotar que el PDF particular es una densidad previa.p ( x )π
Sospecho que no obtienes anteriores y posteriores tan bien como crees que lo haces, así que volvamos a la base fundamental de las estadísticas bayesianas: probabilidad subjetiva .
Un experimento mental en probabilidad subjetiva
Digamos que te presento una moneda y te pregunto si crees que esta moneda es justa o no. Has escuchado a mucha gente hablar de monedas injustas en la clase de probabilidad, pero nunca has visto una en la vida real, por lo que respondes: "Sí, claro, creo que es una moneda justa". Pero, el hecho de que incluso te esté haciendo esta pregunta te desanima un poco, por lo que aunque tu estimación es que es justo, no te sorprenderías si no fuera así. Mucho menos sorprendido que si encontrara esta moneda en su cambio de bolsillo (porque asume que todo es moneda real, y realmente no confía en mí en este momento porque estoy actuando sospechosamente).
Ahora, realizamos algunos experimentos. Después de 100 lanzamientos, la moneda devuelve 53 cabezas. Estás mucho más seguro de que es una moneda justa, pero aún estás abierto a la posibilidad de que no lo sea. La diferencia es que ahora te sorprendería bastante si esta moneda tuviera algún tipo de sesgo.
¿Cómo podemos representar sus creencias anteriores y posteriores aquí, específicamente, con respecto a la probabilidad de que la moneda muestre caras (lo que denotaremos )? En un entorno frecuentista, su creencia anterior, su hipótesis nula, es que . Después de ejecutar el experimento, no puede rechazar el valor nulo, por lo que continúa con el supuesto de que sí, la moneda probablemente sea justa. Pero, ¿cómo encapsulamos el cambio en su confianza de que la moneda es justa? Después del experimento, estás en una posición en la que apostarías a que la moneda es justa, pero antes del experimento hubieras estado inquieto.θ = 0.5θθ = 0.5
En el entorno bayesiano, encapsulas tu confianza en las proposiciones al no tratar las probabilidades como valores escalares sino como variables aleatorias, es decir, funciones. En lugar de decir , decimos , y así encapsulamos nuestra confianza en la varianza del PDF. Si establecemos una varianza alta, estamos diciendo: "Creo que la probabilidad es 0.5, pero no me sorprendería si la probabilidad que realmente observo en el mundo está muy lejos de este valor. Creo que , pero francamente no estoy tan seguro ". Al establecer una varianza baja, estamos diciendo: "No solo creo que la probabilidad es 0.5, sino que me sorprendería mucho si la experimentación proporciona un valor que no está muy cerca deθ ∼ N ( 0.5 , σ 2 ) θ = 0.5 θ = 0.5 θ = 0.5θ = 0.5θ ∼ N( 0.5 , σ2)θ = 0.5θ = 0.5. "Entonces, en este ejemplo, cuando comienzas el experimento tienes un previo con alta varianza. Después de recibir datos que corroboran tu previo, la media del previo se mantuvo igual, pero la varianza se volvió mucho más estrecha. Nuestra confianza en que es mucho más alto después de ejecutar el experimento que antes.θ = 0.5
Entonces, ¿cómo realizamos los cálculos?
Comenzamos con archivos PDF y terminamos con archivos PDF. Cuando necesite informar una estimación puntual, puede calcular estadísticas como la media, la mediana o la moda de su distribución posterior (dependiendo de su función de pérdida, en la que no me referiré ahora. Sigamos con la media). Si tiene una solución de formulario cerrado para su PDF, probablemente será trivial determinar estos valores. Si el posterior es complicado, puede utilizar procedimientos como MCMC para tomar muestras de su posterior y derivar estadísticas de la muestra que extrajo.
En el ejemplo en el que tiene una beta anterior y una probabilidad binomial, el cálculo de la posterior se reduce a un cálculo muy limpio. Dado:
- Anterior:θ ∼ B e t a ( α , β)
- Probabilidad:XEl | θ∼Binomial(θ)
Luego el posterior se reduce a:
- Posterior:θ | X∼ B e t a ( α + ∑nortei = 1Xyo,β+ n - ∑nortei = 1Xyo)
Esto sucederá cada vez que tenga una beta anterior y una probabilidad binomial, y la razón por la cual debería ser evidente en los cálculos proporcionados por DJE . Cuando un modelo particular de verosimilitud previa siempre da un posterior que tiene el mismo tipo de distribución que el anterior, la relación entre los tipos de distribuciones utilizados para el anterior y la verosimilitud se llama Conjugate . Hay muchos pares de distribuciones que tienen relaciones conjugadas, y los bayesianos aprovechan la conjugación con mucha frecuencia para simplificar los cálculos. Dada una probabilidad particular, puede hacer su vida mucho más fácil seleccionando un conjugado previo (si existe y puede justificar su elección de prior).
Creo que beta (1,1) se refiere a un PDF donde la media es 1 y el stdev es 1?
En la parametrización común de la distribución normal, los dos parámetros significan la media y la desviación estándar de la distribución. Pero así es como parametrizamos la distribución normal. Otras distribuciones de probabilidad se parametrizan de manera muy diferente.
La distribución Beta generalmente se parametriza como donde y se denominan parámetros de "forma". La distribución Beta es extremadamente flexible y toma muchas formas diferentes dependiendo de cómo se configuren estos parámetros. Para ilustrar cuán diferente es esta parametrización de su suposición original, así es como calcula la media y la varianza para las variables aleatorias Beta:B e t a ( α , β)αβ
Xmi[ X]var[ X]∼ B e t a ( α , β)= αα + β= α β( α + β)2( α + β+ 1 )
Como puede ver claramente, la media y la varianza no son parte de la parametrización de esta distribución, pero tienen soluciones de forma cerrada que son funciones simples de los parámetros de entrada.
No entraré en detalles al describir las diferencias en las parametrizaciones de otras distribuciones bien conocidas, pero le recomiendo que busque algunas. Cualquier texto básico, incluso Wikipedia , debería describir de alguna manera cómo el cambio de los parámetros modifica la distribución. También debe leer sobre las relaciones entre las diferentes distribuciones (por ejemplo, es lo mismo que ).B e t a ( 1 , 1 )Un i fo r m ( 0 , 1 )