¿Por qué es necesario tomar muestras de la distribución posterior si ya SABEMOS la distribución posterior?

Entiendo que cuando se utiliza un enfoque bayesiano para estimar los valores de los parámetros:

La distribución posterior es la combinación de la distribución previa y la distribución de probabilidad.
Simulamos esto generando una muestra de la distribución posterior (por ejemplo, usando un algoritmo de Metropolis-Hasting para generar valores, y los aceptamos si están por encima de un cierto umbral de probabilidad de pertenecer a la distribución posterior).
Una vez que hemos generado esta muestra, la usamos para aproximar la distribución posterior y cosas como su media.

Pero, siento que debo estar malentendiendo algo. Parece que tenemos una distribución posterior y luego tomamos muestras de ella, y luego usamos esa muestra como una aproximación de la distribución posterior. Pero si tenemos la distribución posterior para comenzar, ¿por qué necesitamos tomar muestras de ella para aproximarla?

— Dave
fuente

Es probable que esta pregunta ya se haya considerado en este foro.

Cuando dice que "tiene la distribución posterior", ¿qué quiere decir exactamente? "Tener" una función de que sé es proporcional a la posterior, a saber, por ejemplo, el objetivo completamente artificial $\theta$

π (θ El | X) \propto π (θ) \times F (X El | θ)

$\pi(\theta|x) \propto \pi(\theta) \times f(x|\theta)$

no me dice qué es

π (θ El | X) \propto Exp {- El | El | θ - X El | {El |}^{2} - El | El | θ + X El | {El |}^{4 4} - El | El | θ - 2 X El | {El |}^{6 6}}, X, θ \in R^{18 años},

$\pi(\theta|x)\propto\exp\{-||\theta-x||^2-||\theta+x||^4-||\theta-2x||^6\},\ \ x,\theta\in\mathbb{R}^{18},$

la expectativa posterior de una función de , por ejemplo, , media posterior que opera como un estimador bayesiano bajo pérdidas estándar; $\theta$ $\mathbb{E}[\mathfrak{h}(\theta)|x]$
la decisión óptima bajo una función de utilidad arbitraria, decisión que minimiza la pérdida posterior esperada;
un rango de incertidumbre del 90% o del 95% en los parámetros, un sub-vector de los parámetros o una función de los parámetros, también conocida como región HPD ${h = h (θ); π^{h} (h) \geq \underset{_ _}{h}}$ $\{h=\mathfrak{h}(\theta);\ \pi^\mathfrak{h}(h)\ge \underline{h}\}$
el modelo más probable para elegir entre establecer algunos componentes de los parámetros a valores específicos o mantenerlos desconocidos (y aleatorios).

Estos son solo ejemplos de muchos usos de la distribución posterior. En todos los casos, excepto en los más simples, no puedo proporcionar las respuestas mirando la densidad de distribución posterior y necesito proceder a través de resoluciones numéricas como los métodos Monte Carlo y Monte Carlo de la cadena Markov.

— Xi'an
fuente

Muchas gracias por la respuesta Xi'an. Estoy seguro de que esto responde a mi pregunta, pero todavía tengo dificultades para comprenderlo. ¿Tengo razón en que tenemos una función de densidad de probabilidad correspondiente a la posterior (es decir, combinando lo anterior y la probabilidad)? ¿Por qué no podríamos encontrar el IC del 95% directamente de esto, en lugar de la distribución posterior muestreada?

— Dave

@ Dave Creo que la clave aquí es lo que quieres decir con "tener". En general, no tendrá una solución de forma cerrada, por lo que no "tendrá" la función en un sentido útil.

— monje

@monk gracias por la respuesta! ¿Le importaría desarrollar lo que hace que una solución de forma no cerrada?

— Dave

Suponga que su anterior es Beta (a, b) y su probabilidad es Binomial (n, p). ¿Cómo se calcula el valor esperado de su posterior? Intente resolver la integral de ese producto con lápiz y papel. En general, dicha integral será algo que requiera una computadora para obtener un valor preciso. Alternativamente, podría descubrir que Beta es conjugado antes de Binomial y, por lo tanto, el posterior será Beta (con parámetros fácilmente calculables). Pero a menudo no tendrás tanta suerte. Es difícil fijar una definición de "forma cerrada", y vale la pena leerlo por sí solo.

— monje

Sí, puede tener una distribución analítica posterior. Pero el núcleo del análisis bayesiano es marginar sobre la distribución posterior de parámetros para obtener un mejor resultado de predicción tanto en términos de precisión como de capacidad de generalización. Básicamente, desea obtener una distribución predictiva que tenga la siguiente forma.

$p(x|D)=\int p(x|w) p(w|D)dw$

$p(w|D)$ $p(w|D)$ $p(x|w)$

— Karlsson Yu
fuente