¿El posterior bayesiano debe ser una distribución adecuada?

21

Sé que los anteriores no tienen por qué ser adecuados y que la función de probabilidad tampoco se integra en 1. Pero, ¿la parte posterior debe ser una distribución adecuada? ¿Cuáles son las implicaciones si es / no es?

distributions bayesian posterior

— ATJ
fuente

15

(Es algo sorprendente leer las respuestas anteriores, que se centran en la impropiedad potencial de la parte posterior cuando la anterior es adecuada, ya que, por lo que puedo decir, la pregunta es si la posterior tiene que ser adecuada ( es decir, integrable a uno) para ser un posterior apropiado (es decir, aceptable para la inferencia bayesiana).)

En las estadísticas bayesianas, la distribución posterior tiene que ser una distribución de probabilidad, de la cual se pueden derivar momentos como la media posterior $\mathbb{E}^\pi[h(\theta)|x]$ y declaraciones de probabilidad como la cobertura de una región creíble, . Si el posterior no puede se normalizará en una densidad de probabilidad y la inferencia bayesiana simplemente no se puede realizar. El posterior simplemente no existe en tales casos. $\mathbb{P}(\pi(\theta|x)>\kappa|x)$

\int f (x | θ) π (θ) d θ = + \infty, (1)

$\int f(x|\theta)\,\pi(\theta)\,\text{d}\theta = +\infty\,,\qquad (1)$

π (θ | x)

$\pi(\theta|x)$

En realidad, (1) debe ser válido para todas las 's en el espacio muestral y no solo para la observada , de lo contrario, seleccionar lo anterior dependería de los datos . Esto significa que los anteriores como el anterior de Haldane, $x$ $x$ $\pi(p)\propto \{1/p(1-p)\}$ , sobre la probabilidad de un binomio o una variable binomial negativa no se pueden usar, ya que el posterior no es definido para . $p$ $X$ $x=0$

Sé de una excepción cuando uno puede considerar "posteriores incorrectos": David van Dyk y Xiao-Li Meng lo encuentran en "El arte del aumento de datos" . La medida incorrecta está sobre un llamado parámetro de trabajo modo que la observación es producida por el marginal de una distribución aumentada $\alpha$ y van Dyk y Meng ponen un prior inapropiado

f (x | θ) = \int_{T (x^{aug}) = x} f (x^{aug} | θ, α) d x^{aug}

$f(x|\theta)=\int_{T(x^\text{aug})=x} f(x^\text{aug}|\theta,\alpha)\,\text{d}x^\text{aug}$

en este parámetro de trabajo

para acelerar la simulación de

(que permanece bien definida como una densidad de probabilidad) por MCMC.

p (α)

$p(\alpha)$

α

$\alpha$

π (θ | x)

$\pi(\theta|x)$

En otra perspectiva, algo relacionada con la respuesta de eretmochelys , es decir, una perspectiva de la teoría de decisión bayesiana , un entorno en el que se produce (1) aún podría ser aceptable si condujera a decisiones óptimas. Es decir, si es una función de pérdida que evalúa el impacto del uso de la decisión , una decisión óptima bayesiana bajo el anterior viene dada por $L(\delta,\theta)\ge 0$ $\delta$ $\pi$ y todo lo que importa es que esta integral no está en todas partes (en ) infinita. Si (1) se mantiene o no es secundario para la derivación de, aunque las propiedades como la admisibilidad solo se garantizan cuando (1) se mantiene.

δ^{⋆} (x) = \arg min_{δ} \int L (δ, θ) f (x | θ) π (θ) d θ

$\delta^\star(x)=\arg\min_\delta \int L(\delta,\theta) f(x|\theta)\,\pi(\theta)\,\text{d}\theta$

δ

$\delta$

δ^{⋆} (x)

$\delta^\star(x)$

— Xi'an
fuente

19

La distribución posterior no necesita ser adecuada, incluso si la anterior es adecuada. Por ejemplo, supongamos que tiene una Gamma anterior con forma 0.25 (que es adecuada), y modelamos nuestro dato como extraído de una distribución gaussiana con media cero y varianza . Supongamos que se observa que es cero. Entonces la probabilidad es proporcional a $v$ $x$ $v$ $x$ $p(x|v)$ $v^{-0.5}$ , lo que hace que la distribución posterior de incorrecta, ya que es proporcional a . Este problema surge debido a la naturaleza rara de las variables continuas. $v$ $v^{-1.25} e^{-v}$

— Tom Minka
fuente

Buen ejemplo, Tom!

— Zen

+1, aunque ¿podrías ampliar la respuesta a la última oración del OP? ¿Tiene sentido este posterior loco (puede hacer el tipo de cosas que normalmente haría con un posterior), o es más análogo a obtener un NaN o Inf de algunos cálculos? ¿Es una señal de que algo anda mal con tu modelo?

— Wayne

55

No hay nada malo con el modelo. Este posterior es significativo en el sentido de que si recibe otra observación, puede multiplicarlo y posiblemente volver a un posterior adecuado. Entonces no es como un NaN, sobre el cual todas las operaciones adicionales son NaN.

— Tom Minka

8

x = 0

$x=0$

x

$x$

- 0.25, 1, x^{2}

$-0.25,1,x^2$

11

Bogus Data = {x : \int f (x ∣ θ) π (θ) d θ = \infty},

$\text{Bogus Data} = \left\{ x:\int f(x\mid \theta)\,\pi(\theta)\,d\theta = \infty \right\} \, ,$

P r (X \in Bogus Data) = \int_{Bogus Data} \int f (x ∣ θ) π (θ) d θ d x = \int_{Bogus Data} \infty d x .

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right) = \int_\text{Bogus Data} \int f(x\mid \theta)\,\pi(\theta)\,d\theta\,dx = \int_\text{Bogus Data} \infty\,dx \, .$

\infty

$\infty$

Bogus Data

$\text{Bogus Data}$

0

$0$

1

$1$

Bogus Data

$\text{Bogus Data}$

0

$0$

P r (X \in Bogus Data) = 0

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)=0$

En palabras: la probabilidad predictiva previa de aquellos valores de muestra que hacen que el posterior sea incorrecto es igual a cero.

Moraleja de la historia: cuidado con los conjuntos nulos, pueden morder, por improbable que sea.

PD Como lo señaló el Prof. Robert en los comentarios, este razonamiento explota si lo anterior es incorrecto.

— zen
fuente

44

Una vez escribió : "Si podemos comenzar con un prior apropiado y obtener un posterior incorrecto, entonces dejaré de hacer inferencias".

— Tom Minka

2

Un poco de lengua en la mejilla, había un cuantificador implícito: si podemos comenzar con un previo apropiado y obtener un posterior incorrecto, para cada valor de muestra posible, entonces dejaré la inferencia. ;-)

— Zen

Por cierto, recuerdo notable, Tom!

— Zen

44

P r (X \in Bogus Data)

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)$

(θ, x)

$(\theta,x)$

1

Estás en lo correcto. El razonamiento en la respuesta solo funciona con los antecedentes adecuados. Buen punto. Agregaré una nota.

— Zen

3

Cualquier "distribución" debe sumar (o integrarse) a 1. Puedo pensar algunos ejemplos en los que uno podría trabajar con distribuciones no normalizadas, pero me incomoda llamar a cualquier cosa que margina a cualquier cosa que no sea 1 una "distribución".

$x$ $d$

\begin{aligned} \hat{x} & = \arg max_{x} P_{X | D} (x | d) \\ = \arg max_{x} \frac{P_{D | X} (d | x) P_{X} (x)}{P_{D} (d)} \\ = \arg max_{x} P_{D | X} (d | x) P_{X} (x) \end{aligned}

$\begin{align} \hat{x} &= \arg \max_x P_{X|D}(x|d) \\ &= \arg \max_x \frac{P_{D|X}(d|x) P_X(x)}{P_D(d)} \\ &= \arg \max_x {P_{D|X}(d|x) P_X(x)} \end{align}$

$P_D$ $x$ $\hat{x}$ $P_{D|X}(d|x) P_X(x)$

— eretmochelys
fuente

@Zen, ¿te importaría ser más explícito sobre lo que crees que está mal (o fundamentalmente incompleto) acerca de esta respuesta?

— whuber

1

Una forma de interpretar la pregunta OP "¿necesita la distribución posterior una distribución adecuada?" es preguntar si es matemáticamente posible comenzar con un previo apropiado y terminar con un posterior incorrecto. La respuesta de Minka da un ejemplo explícito en el que sucede. Intenté complementarlo con mi respuesta y señalar que esto solo puede suceder dentro de un conjunto de probabilidad predictiva previa cero.

— Zen

1

@Zen Me parece que una interpretación estrechamente relacionada es "si la parte posterior no es adecuada, ¿qué información puedo obtener de ella?" Parece que esta respuesta aceptada proporciona consejos útiles y correctos relacionados con eso en una circunstancia especial (que se describe claramente). La aceptación me parece una señal de que eretmochelys golpeó a casa con una astuta suposición sobre las circunstancias.

— whuber

-2

$n$ $Beta(0,0)$

— omidi
fuente

3

Esta respuesta es incorrecta. Mira mi respuesta.

— Tom Minka