¿Por qué la distribución posterior en la inferencia bayesiana a menudo es intratable?


15

Tengo un problema para entender por qué la inferencia bayesiana conduce a problemas intratables. El problema a menudo se explica así:

ingrese la descripción de la imagen aquí

Lo que no entiendo es por qué esta integral tiene que evaluarse en primer lugar: me parece que el resultado de la integral es simplemente una constante de normalización (como se da el conjunto de datos D). ¿Por qué no se puede calcular simplemente la distribución posterior como el numerador del lado derecho y luego inferir esta constante de normalización al exigir que la integral sobre la distribución posterior tenga que ser 1?

¿Qué me estoy perdiendo?

¡Gracias!


66
A quién puede interesar: esta pregunta es directamente sobre el tema porque se trata de estadísticas.
Sycorax dice Reinstate Monica el

3
El extracto está mal escrito. Tenga en cuenta que no es la distribución posterior; es la probabilidad incondicional de los datos (es decir, independientemente de theta). Debido a que P ( D ) será el mismo para todos los modelos considerados para el mismo conjunto de datos, no necesariamente necesita ser calculado. Si no lo hace, simplemente necesita cambiar el signo igual a 'proporcional a' ( ). P(D)P(D)
gung - Restablece a Monica

¿Podría proporcionar la referencia de esa diapositiva ya que supongo que fue escrita por otra persona?
Xi'an

3
p(D)

Actualmente estamos llevando a cabo un taller sobre la normalización de constantes donde puede encontrar entradas interesantes para responder esta pregunta.
Xi'an

Respuestas:


7

¿Por qué no se puede calcular simplemente la distribución posterior como el numerador del lado derecho y luego inferir esta constante de normalización al exigir que la integral sobre la distribución posterior tenga que ser 1?

P(θ|D)=p(D|θ)P(θ)P(D).

P(D|θ)P(θ)θc

θcP(D|θ)P(θ)dθ=1θcP(D,θ)dθ=1cP(D)=1c=1P(D).

P(D)


θ

0

Tenía la misma pregunta. Esta gran publicación lo explica muy bien.

En una palabra. Es intratable porque el denominador tiene que evaluar la probabilidad de TODOS los valores posibles de 𝜃; en la mayoría de los casos interesantes, ALL es una gran cantidad. Mientras que el numerador es para una sola realización de 𝜃.

Ver las ecuaciones. 4-8 en el post. Captura de pantalla del enlace:

Here is an screenshot of the link

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.