Probabilidad versus distribución condicional para análisis bayesiano


12

Podemos escribir el teorema de Bayes como

p(θ|x)=f(X|θ)p(θ)θf(X|θ)p(θ)dθ

donde es la posterior, es la distribución condicional y es la anterior.f ( X | θ ) p ( θ )p(θ|x)f(X|θ)p(θ)

o

p(θ|x)=L(θ|x)p(θ)θL(θ|x)p(θ)dθ

donde es la posterior, es la función de probabilidad y es la anterior.L ( θ | x ) p ( θ )p(θ|x)L(θ|x)p(θ)

Mi pregunta es

  1. ¿Por qué el análisis bayesiano se realiza utilizando la función de probabilidad y no la distribución condicional?
  2. ¿Puedes decir con palabras cuál es la diferencia entre la probabilidad y la distribución condicional? Sé que la probabilidad no es una distribución de probabilidad y .L(θ|x)f(X|θ)

1
¡No hay diferencia! La probabilidad es que la distribución condicional , bueno, es proporcional a, que es todo lo que importa. f(X|θ)
kjetil b halvorsen

1
El parámetro anterior tiene densidad . si la realización de tiene valor mientras que es el valor observado de una variable aleatoria , entonces el valor de la función de probabilidad es precisamente , el valor de la densidad condicional de . La diferencia es que para todas las realizaciones de . Sin embargo, en función dep Θ ( θ ) Θ θ x X L ( θ x ) f ( x θ ) f X Θ ( x Θ = θ ) X - f X Θ ( x Θ = θ ) d x = 1 Θ θ x L ( θ xΘpΘ(θ)ΘθxXL(θx) f(xθ)fXΘ(xΘ=θ)X
fXΘ(xΘ=θ)dx=1
Θθ(y fijo ), no es una densidad:x L ( θ x ) d θ 1L(θx)
L(θx)dθ1
Dilip Sarwate

Respuestas:


10

Suponga que tiene variables aleatorias (cuyos valores se observarán en su experimento) que son condicionalmente independientes, dado que , con densidades condicionales , para . Este es su modelo estadístico (condicional) (postulado), y las densidades condicionales expresan, para cada posible valor del parámetro (aleatorio) , su incertidumbre sobre los valores de las 's, antes de tener acceso a cualquier datos reales Con la ayuda de las densidades condicionales puede, por ejemplo, calcular probabilidades condicionales como Θ = θ f X iΘ (X1,,XnΘ=θfXiΘ(θ)i=1,,nθΘXi

P{X1B1,,XnBnΘ=θ}=B1××Bni=1nfXiΘ(xiθ)dx1dxn,
para cada .θ

Después de tener acceso a una muestra real de valores (realizaciones) de las que se han observado en una ejecución de su experimento, la situación cambia: ya no hay incertidumbre sobre los observables . Suponga que el aleatorio asume valores en algún espacio de parámetros . Ahora, usted define, para esos valores conocidos (fijos) una función por Tenga en cuenta que , conocida como la "función de probabilidad" es una función de(x1,,xn)XiX1,,XnΘΠ(x1,,xn)

Lx1,,xn:ΠR
Lx1,,xn(θ)=i=1nfXiΘ(xiθ).
Lx1,,xnθ . En esta situación "después de tener datos", la probabilidad contiene, para el modelo condicional particular que estamos considerando, toda la información sobre el parámetro contenida en esta muestra particular . De hecho, sucede que es una estadística suficiente para .Lx1,,xnΘ(x1,,xn)Lx1,,xnΘ

Al responder a su pregunta, para comprender las diferencias entre los conceptos de densidad condicional y probabilidad, tenga en cuenta sus definiciones matemáticas (que son claramente diferentes: son objetos matemáticos diferentes, con diferentes propiedades), y también recuerde que la densidad condicional es un "pre -muestra "objeto / concepto, mientras que la probabilidad es una" muestra posterior ". Espero que todo esto también les ayude a responder por qué la inferencia bayesiana (usando su forma de expresarlo, que no creo que sea ideal) se hace "usando la función de probabilidad y no la distribución condicional": el objetivo de la inferencia bayesiana es para calcular la distribución posterior, y para hacerlo condicionamos los datos observados (conocidos).


Creo que el Zen es correcto cuando dice que la probabilidad y la probabilidad condicional son diferentes. En la función de probabilidad θ no es una variable aleatoria, por lo tanto, es diferente de la probabilidad condicional.
Martine

1

La proporcionalidad se utiliza para simplificar el análisis.

El análisis bayesiano generalmente se realiza a través de una declaración aún más simple del teorema de Bayes, donde trabajamos solo en términos de proporcionalidad con respecto al parámetro de interés. Para un modelo IID estándar con densidad de muestreo podemos expresar esto como:f(X|θ)

p(θ|x)Lx(θ)p(θ)Lx(θ)i=1nf(xi|θ).

Esta declaración de actualización bayesiana funciona en términos de proporcionalidad con respecto al parámetro . Utiliza dos simplificaciones de proporcionalidad: una en el uso de la función de probabilidad (proporcional a la densidad de muestreo) y otra en la posterior (proporcional al producto de probabilidad y anterior). Dado que el posterior es una función de densidad (en el caso continuo), la regla normativa establece la constante multiplicativa que se requiere para producir una densidad válida (es decir, para que se integre en uno).θ

El uso de este método de proporcionalidad tiene la ventaja de permitirnos ignorar los elementos multiplicativos de las funciones que no dependen del parámetro . Esto tiende a simplificar el problema al permitirnos barrer partes innecesarias de las matemáticas y obtener declaraciones más simples del mecanismo de actualización. Este no es un requisito matemática (ya que la regla de Bayes funciona en su forma no proporcional también), sino que hace las cosas más simples para nuestros diminutos cerebros animales.θ

Un ejemplo aplicado: considere un modelo IID con datos observados . Para facilitar nuestro análisis, definimos las estadísticas y , que son los dos primeros momentos de muestra. Para este modelo tenemos densidad de muestreo:X1,...,XnIID N(θ,1)x¯=1ni=1nxix¯¯=1ni=1nxi2

f(x|θ)=i=1nf(xi|θ)=i=1nN(xi|θ,1)=i=1n12πexp(12(xiθ)2)=(2π)n/2exp(12i=1n(xiθ)2).=(2π)n/2exp(n2(θ22x¯θ+x¯¯))=(2π)n/2exp(nx¯¯2)exp(n2(θ22x¯θ))

Ahora, podemos trabajar directamente con esta densidad de muestreo si queremos. Pero observe que los dos primeros términos en esta densidad son constantes multiplicativas que no dependen de . Es molesto tener que hacer un seguimiento de estos términos, así que vamos a deshacernos de ellos para tener la función de probabilidad:θ

Lx(θ)=exp(n2(θ22x¯θ)).

Eso simplifica un poco las cosas, ya que no tenemos que hacer un seguimiento de un término adicional. Ahora, podríamos aplicar la regla de Bayes usando su versión de ecuación completa, incluido el denominador integral. Pero, de nuevo, esto requiere que hagamos un seguimiento de otra constante multiplicativa molesta que no depende de (más molesto porque tenemos que resolver una integral para obtenerla). Entonces, apliquemos la regla de Bayes en su forma proporcional. Usando el conjugado previo , con algún parámetro de precisión conocido , obtenemos el siguiente resultado ( completando el cuadrado ):θθN(0,λ0)λ0>0

p(θ|x)Lx(θ)p(θ)=exp(n2(θ22x¯θ))N(θ|0,λ0)exp(n2(θ22x¯θ))exp(λ02θ2)=exp(12(nθ22nx¯θ+λ0θ2))=exp(12((n+λ0)θ22nx¯θ))=exp(n+λ02(θ22nx¯n+λ0θ))exp(n+λ02(θnn+λ0x¯)2)N(θ|nn+λ0x¯,n+λ0).

Entonces, de este trabajo podemos ver que la distribución posterior es proporcional a una densidad normal. Como el posterior debe ser una densidad, esto implica que el posterior es esa densidad normal:

p(θ|x)=N(θ|nn+λ0x¯,n+λ0).

Por lo tanto, vemos que a posteriori el parámetro se distribuye normalmente con media posterior y varianza dada por:θ

E(θ|x)=nn+λ0x¯V(θ|x)=1n+λ0.

Ahora, la distribución posterior que hemos derivado tiene una constante de integración en el frente (que podemos encontrar fácilmente al buscar la forma de la distribución normal ). Pero tenga en cuenta que no teníamos que preocuparnos por esta constante multiplicativa: todo nuestro trabajo eliminó (o introdujo) constantes multiplicativas siempre que esto simplificara las matemáticas. Se puede obtener el mismo resultado mientras se realiza un seguimiento de las constantes multiplicativas, pero esto es mucho más complicado.


0

Creo que la respuesta de Zen realmente te dice cómo conceptualmente difieren la función de probabilidad y la densidad conjunta de valores de variables aleatorias. Aún matemáticamente, como una función de ambos x sy θ, son iguales y, en ese sentido, la probabilidad puede considerarse como una densidad de probabilidad. La diferencia que señala en la fórmula para la distribución posterior de Bayes es solo una diferencia de notación. Pero la sutileza de la diferencia se explica muy bien en la respuesta de Zen.i

Este problema ha surgido en otras preguntas discutidas en este sitio con respecto a la función de probabilidad. También otros comentarios de kjetil y Dilip parecen apoyar lo que estoy diciendo.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.