Probabilidad gaussiana + which prior = Gaussian Marginal?

8

Dada una probabilidad gaussiana para una muestra como con siendo el espacio de parámetros y , parametrizaciones arbitrarias del vector medio y la matriz de covarianza. $y$

p (y | θ) = N (y; μ (θ), Σ (θ))

$p(y|\theta) = \mathcal{N}(y;\mu(\theta),\Sigma(\theta))$

Θ

$\Theta$

μ (θ)

$\mu(\theta)$

Σ (θ)

$\Sigma(\theta)$

¿Es posible especificar una densidad previa y la parametrización del vector medio y la matriz de covarianza modo que la probabilidad marginal es una probabilidad gaussiana? $p(\theta)$ $\mu(\theta)$ $\Sigma(\theta)$

p (y) = \int_{θ \in Θ} N (y; μ (θ), Σ (θ)) p (θ) d θ

$p(y)=\int_{\theta\in\Theta}N(y;\mu(\theta),\Sigma(\theta))p(\theta)d\theta$

Supongo que excluyendo la solución trivial de que se conoce la covarianza, es decir, , donde es una matriz de covarianza fija arbitraria, esto no es posible. $\Sigma(\theta)=\Sigma$ $\Sigma$

Para el caso especial $\mu(\sigma^2)=\mu$ y $\Sigma(\sigma^2)=\sigma^2$ , es decir, $y$ es unidimensional, y $p(\sigma^2)=\mathcal{U}(\sigma^2;a,b)$ , donde $\mathcal{U}(\sigma^2;a,b)$ denota la densidad uniforme que puedo mostrar:

\begin{aligned} p (y) & = \int_{0}^{\infty} N (y; μ, σ^{2}) U (σ^{2}; a, b) d σ^{2} \\ = \frac{1}{b - a} \underset{not a Gaussian density}{\underset{⏟}{\int_{a}^{b} N (y; μ, σ^{2})}} \end{aligned}

$\begin{align} p(y)&=\int_0^\infty \mathcal{N}(y;\mu,\sigma^2)\mathcal{U}(\sigma^2;a,b)d\sigma^2 \\ &= \frac{1}{b-a} \underbrace{\int_a^b \mathcal{N}(y;\mu,\sigma^2)}_\text{not a Gaussian density} \end{align}$

La respuesta aceptada contiene una prueba formal o informal o punteros a ella.

— Julian Karls
fuente

2

Su conjetura parece ser cierta: solo una variación constante puede conducir a un margen normal. Mi prueba se limita al caso donde se conoce la expectativa , y por lo tanto se puede suponer que es cero. Para el caso general, parece que se requieren argumentos más sofisticados del análisis funcional. $\boldsymbol{\mu}$

Tenga en cuenta que la pregunta es en realidad sobre la mezcla continua de normales , así como sobre Bayes. La afirmación demostró aquí que una mezcla ( normal ) a escala de normales puede ser normal solo para una mezcla trivial.

Primero considere el caso de una normal unidimensional con media conocida y parámetro de precisión . Sin pérdida de generalidad, podemos suponer que el parámetro es la precisión misma. Si la distribución marginal de es normal, entonces es una densidad normal hasta una constante multiplicativa. Esta densidad es una función par de debe tomar la forma para algunos y algunos constantes . Dado que esto vale para cualquier $\mu = 0$ $\omega := 1 / \Sigma >0$ $\boldsymbol{\theta}$ $\omega$ $y$ $\int \exp\{-y^2 \omega / 2\}\,\omega^{1/2} p(\omega)\,\text{d}\omega$ $y$ $c\exp\{ -y^2 \omega_0 / 2\}$ $\omega_0 >0$ $c >0$ $y$ obtenemos con para todo , lo que muestra que la medida finita con función de densidad es proporcional a la masa de Dirac en porque estas dos medidas tienen la misma transformada de Laplace, hasta una constante multiplicativa. Por lo tanto, es casi seguro (as) igual a . $s := y^2$

\int_{0}^{\infty} \exp {- s ω / 2} ω^{1 / 2} p (ω) d ω = c \exp {- s ω_{0} / 2}

$\int_0^\infty \exp\{-s \omega \,/ 2\}\,\omega^{1/2} p(\omega)\text{d}\omega = c \exp\{ -s \omega_0 \,/ 2\}$

s \geq 0

$s \geq 0$

ω \mapsto ω^{1 / 2} p (ω)

$\omega \mapsto \omega^{1/2} p(\omega)$

ω_{0}

$\omega_0$

ω

$\omega$

ω_{0}

$\omega_0$

Esta prueba se extiende a la normal dimensional con media cero y matriz de precisión . El margen luego se escribe como donde la integral está en el conjunto de simétrica definida positiva matrices. Si esta integral es idéntica a , entonces tomando para un escalar y un vector arbitrario $d$ $\boldsymbol{\Omega}:=\boldsymbol{\Sigma}^{-1}$ $\propto \int \exp\{-\mathbf{y}^\top \boldsymbol{\Omega}\,\mathbf{y} \,/ 2\}\, \left|\boldsymbol{\Omega}\right|^{1/2}p(\boldsymbol{\Omega})\,\text{d}\boldsymbol{\Omega}$ $\mathcal{P}$ $d \times d$ $c\exp\{ -\mathbf{y}^\top \boldsymbol{\Omega}_0 \mathbf{y} / 2\}$ $\mathbf{y}:= \sqrt{s} \,\boldsymbol{u}$ $s \geq 0$ $\mathbf{u}$ , encontramos como arriba que debe ser igual a , que muestra que es igual a . La prueba funciona incluso si la medida convenientemente escrita tiene densidad concentra en un subconjunto de con la medida de Lebesgue cero, porque el argumento de transformación de Laplace todavía se aplica. Entonces, la prueba funciona para una parametrización general de la matriz de precisión (o varianza). $\mathbf{u}^\top \boldsymbol{\Omega}\, \mathbf{u}$ $\mathbf{u}^\top \boldsymbol{\Omega}_0 \mathbf{u}$ $\boldsymbol{\Omega}$ $\boldsymbol{\Omega}_0$ $|\boldsymbol{\Omega}|^{1/2} p(\boldsymbol{\Omega})$ $\mathcal{P}$

— Yves
fuente

No he entendido su prueba completamente todavía. En comparación con la respuesta de Jacky1, parece relativamente complejo. ¿Qué opinas de su prueba?

— Julian Karls

Bueno, no podía entender cómo lo anterior puede depender de en la respuesta de Jacky. Sin embargo, su afirmación, según tengo entendido, es incorrecta: cometí el mismo error primero :) De hecho, no es necesariamente constante y si la varianza es constante, aún puede ser normal, lo que se verifica fácilmente completando un cuadrado. Ahora tengo una prueba del caso anterior independiente (unidimensional para simplificar), y espero escribirlo pronto, tal vez como una nueva respuesta. La varianza debe ser constante y debe ser normal (posiblemente degenerada).

y

$y$

μ

$\mu$

μ

$\mu$

Σ

$\Sigma$

μ

$\mu$

— Yves

¿Podría ampliar su razonamiento en el párrafo que comienza con "Dado que esto vale para cualquier y termina con" (como) igual a "? Tal vez con punteros a los teoremas que está utilizando?

y

$y$

ω_{0}

$ω_0$

— Julian Karls

1

Suponga que y son independientes a priori y que tiene un margen normal con media y varianza . Demostraré que entonces la varianza debe ser constante, y la media debe tener un previo normal (posiblemente degenerado). $\mu$ $\Sigma$ $y$ $\mu_0$ $\Sigma_0$ $\Sigma$ $\mu$

Me limitaré al caso unidimensional por simplicidad, usando la función característica (cf) de , es decir, . Sabemos que } y una fórmula similar es válida para la distribución de condicional en y , lo cual es normal por suposición. Entonces, para cualquier y al reorganizar la integral, debemos tener $y$ $\phi_y(t) := \mathbb{E}[e^{yit}]$ $\phi_y(t) = \exp\{\mu_0 it - \Sigma_0 t^2 /2$ $y$ $\mu$ $\Sigma$ $t$

E [e^{y i t}] = \int E [e^{y i t} | μ, Σ] p (μ) p (Σ) d μ d Σ = \int \exp {μ i t - Σ t^{2} / 2} p (μ) p (Σ) d μ d Σ,

$\mathbb{E}[e^{yit}] = \int \mathbb{E}\left[e^{yit} \, \vert \,\mu,\,\Sigma\right]\, p(\mu) p(\Sigma) \,\text{d}\mu \text{d} \Sigma = \int \exp\left\{ \mu it - \Sigma t^2/2 \right\} \,p(\mu) p(\Sigma) \,\text{d}\mu \text{d}\Sigma,$

\exp {μ_{0} i t - Σ_{0} t^{2} / 2} = [\int \exp {μ i t} p (μ) d μ] [\int \exp {- Σ t^{2} / 2} p (Σ) d Σ] .

$\exp\left\{ \mu_0 it - \Sigma_0 t^2 /2 \right\} = \left[\int \exp\left\{ \mu it \right\} p(\mu) \,\text{d}\mu \right] \left[\int \exp\left\{ -\Sigma t^2/2\right\} p(\Sigma) \,\text{d}\Sigma \right].$ Los supuestos necesarios para tal reordenamiento se verifican fácilmente.

La primera integral en el lado derecho, digamos , es el cf de . Tenga en cuenta que dado que se considera real, vemos que la distribución de es simétrica wrt y, por lo tanto, que , como podría haberse anticipado. $\phi_1(t)$ $\mu$ $\phi_1(t) e^{-\mu_0 it}$ $\mu$ $\mu_0$ $\mathbb{E}[\mu] = \mu_0$

Ahora resulta que la segunda integral en el lado derecho, digamos , también es un cf. Para ver eso, debemos verificar que , que es continuo en y también que la función es positiva definida (pd). El primer requisito es obvio, el segundo está demostrado por la convergencia dominada. Ahora pase al requisito de pd: si la distribución previa escrita como es una masa de Dirac, entonces es pd porque es entonces el cf de una distribución normal. Si lo anterior es una mezcla discreta de masas de Dirac, esto también es cierto desde $\phi_2(t)$ $\phi_2(0) = 1$ $\phi_2$ $t=0$ $\phi_2$ $p(\Sigma)\text{d}\Sigma$ $\phi_2$ $\phi_2$ $\phi_2$ entonces es el cf de una mezcla de normales. Por un argumento de continuidad, vemos que es pd $\phi_2$

Ahora usemos el poderoso teorema de Lévy-Cramér que dice que ambas funciones para , deben tomar la forma con real y . Entonces debe ser normal (posiblemente degenerar) con una media . Por álgebra simple entonces tenemos que se cumple para cualquier real . Como cualquier escritura real no negativa se escribe como , vemos que la transformada de Laplace del previo de $\phi_j$ $j=1$ $2$ $\exp\{a_j i t - b_jt^2 /2 \}$ $a_j$ $b_j \geq 0$ $\mu$ $a_1 = \mu_0$

\exp {- (Σ_{0} - b_{1}) t^{2} / 2} = \int_{0}^{\infty} \exp {- Σ t^{2} / 2} p (Σ) d Σ

$\exp\{ -(\Sigma_0 - b_1) t^2 /2 \} = \int_0^\infty \exp\{ - \Sigma t^2 /2\} p(\Sigma) \, \text{d} \Sigma$

t

$t$

t^{2} / 2

$t^2/2$

Σ

$\Sigma$ debe ser igual al de la masa de Dirac en y hemos terminado.

Σ_{0} - b_{1}

$\Sigma_0 - b_1$

— Yves
fuente

Gracias por tu esfuerzo. Me llevará un tiempo entender esto.

— Julian Karls

0

Tengo una propuesta de prueba para usted, pero debe verificarla.

Suponga que la probabilidad marginal es gaussiana:

$p(y)=\mathcal{N}(y,m,\Gamma)$

entonces la densidad previa puede definirse por

$p(\theta)=\mathcal{N}(y,\mu(\theta),\Sigma(\theta))^{-1}\mathcal{N}(y,m,\Gamma)f(\theta)$

dónde $f$ cheques $\int_{\theta\in\Theta}f(\theta)d\theta =1$ y $f(\theta)\geq 0$ para $\theta\in\Theta$ . ( $f(\theta)$ es $p(\theta|y)$ )

Para ser una densidad, la integral de la densidad anterior $p(\theta)$ en $\Theta$ tiene que ser igual a 1. En otras palabras,

$\int_{\theta\in\Theta}\mathcal{N}(y,\mu(\theta),\Sigma(\theta))^{-1}\mathcal{N}(y,m,\Gamma)f(\theta)d\theta =1$ .

Eso lleva a

$\int_{\theta\in\Theta}\mathcal{N}(y,\mu(\theta),\Sigma(\theta))^{-1}\mathcal{N}(y,m,\Gamma)f(\theta)d\theta = \int_{\theta\in\Theta}f(\theta)d\theta$

Esta igualdad es verdadera si y solo si $\mu(\theta)=m$ y $\Sigma(\theta)=\Gamma$ .

— Jacky1
fuente

2

Me gusta la idea de la prueba. Estoy bastante seguro de que todos los pasos, excepto el último, son válidos. Seguramente la integral de dos funciones es la misma si las funciones son las mismas, pero esta no es una condición necesaria. ¿Estás usando un teorema diferente allí?

— Julian Karls

Si reemplazas

p (θ | y)

$p(\theta|y)$ con su definición vía bayes en tu primera fórmula para

p (θ)

$p(\theta)$ , entonces se convierte

p (θ) = p (θ)

$p(\theta)=p(\theta)$ . Seguramente, nada se desprende de esta desigualdad.

— Julian Karls