Rao-Blackwellization de Gibbs Sampler

Actualmente estoy estimando un modelo de volatilidad estocástica con los métodos de Markov Chain Monte Carlo. De este modo, estoy implementando los métodos de muestreo de Gibbs y Metropolis.

Suponiendo que tomo la media de la distribución posterior en lugar de una muestra aleatoria, ¿es esto lo que comúnmente se conoce como Rao-Blackwellization ?

En general, esto resultaría en tomar la media sobre las medias de las distribuciones posteriores como estimación de parámetros.

— mscnvrsy
fuente

Respuestas:

Suponiendo que tomo la media de la distribución posterior en lugar de una muestra aleatoria, ¿es esto lo que comúnmente se conoce como Rao-Blackwellization?

No estoy muy familiarizado con los modelos de volatilidad estocástica, pero sé que en la mayoría de los entornos, la razón por la que elegimos los algoritmos de Gibbs o MH para dibujar desde la parte posterior, es porque no conocemos la parte posterior. A menudo queremos estimar la media posterior, y como no conocemos la media posterior, extraemos muestras de la posterior y la estimamos utilizando la media de la muestra. Entonces, no estoy seguro de cómo podrá tomar la media de la distribución posterior.

En cambio, el estimador Rao-Blackwellized depende del conocimiento de la media del condicional completo; pero aun así se requiere muestreo. Os explico más a continuación.

Suponga que la distribución posterior se define en dos variables, ), de modo que desee estimar la media posterior: . Ahora, si hubiera una muestra de Gibbs disponible, podría ejecutar eso o ejecutar un algoritmo MH para muestrear desde la parte posterior. $\theta = (\mu, \phi$ $E[\theta \mid \text{data}]$

Si puede ejecutar una muestra de Gibbs, entonces conoce en forma cerrada y conoce la media de esta distribución. Deje que eso significa ser . Tenga en cuenta que es una función de y los datos. $f(\phi \mid \mu, data)$ $\phi^*$ $\phi^*$ $\mu$

Esto también significa que puede integrar desde la parte posterior, por lo que la parte posterior marginal de es (esto no se conoce completamente, pero se sabe hasta una constante). Ahora desea ejecutar una cadena de Markov tal que sea la distribución invariable, y obtenga muestras de este posterior marginal. La pregunta es $\phi$ $\mu$ $f(\mu \mid data)$ $f(\mu \mid data)$

¿Cómo puede estimar ahora la media posterior de utilizando solo estas muestras del marginal posterior de ? $\phi$ $\mu$

Esto se hace a través de Rao-Blackwellization.

\begin{aligned} E [ϕ ∣ d a t a] & = \int ϕ f (μ, ϕ ∣ d a t a) d μ d ϕ \\ = \int ϕ f (ϕ ∣ μ, d a t a) f (μ ∣ d a t a) d μ d ϕ \\ = \int ϕ^{*} f (μ ∣ d a t a) d μ . \end{aligned}

$\begin{align*} E[\phi \mid data]& = \int \phi \; f(\mu, \phi \mid data) d\mu \, d\phi\\ & = \int \phi \; f(\phi \mid \mu, data) f(\mu \mid data) d\mu \, d\phi\\ & = \int \phi^* f(\mu \mid data) d\mu. \end{align*}$

Supongamos que hemos obtenido muestras del margen posterior de . Entonces $X_1, X_2, \dots X_N$ $\mu$

\hat{ϕ} = \frac{1}{norte} \sum_{yo = 1}^{norte} ϕ^{*} (X_{yo}),

$\hat{\phi} = \dfrac{1}{N} \sum_{i=1}^{N} \phi^*(X_i),$

se llama estimador Rao-Blackwellized para . Lo mismo se puede hacer simulando también desde los márgenes articulares. $\phi$

Ejemplo (puramente para demostración).

Suponga que tiene una articulación posterior desconocida para de la que desea muestrear. Sus datos son algunos , y tiene los siguientes condicionales completos $\theta = (\mu, \phi)$ $y$

μ ∣ ϕ, y \sim norte (ϕ^{2} + 2 y, y^{2})

$\mu \mid \phi, y \sim N(\phi^2 + 2y, y^2)$

ϕ ∣ μ, y \sim sol una metro metro una (2 μ + y, y + 1)

$\phi \mid \mu, y \sim Gamma(2\mu + y, y + 1)$

Ejecutas la muestra de Gibbs con estos condicionales y obtienes muestras de la articulación posterior . Deje que estas muestras sean . Puede encontrar la media muestral de s, y ese sería el estimador habitual de Monte Carlo para la media posterior de .. $f(\mu, \phi \mid y)$ $(\mu_1, \phi_1), (\mu_2, \phi_2), \dots, (\mu_N, \phi_N)$ $\phi$ $\phi$

O tenga en cuenta que por las propiedades de la distribución Gamma

mi [ϕ El | μ, y] = \frac{2 μ + y}{y + 1} = ϕ^{*} .

$E[\phi | \mu, y] = \dfrac{2 \mu + y}{y + 1} = \phi^*.$

Aquí son los datos que se le proporcionan y, por lo tanto, se conocen. El estimador Rao Blackwellized sería entonces $y$

\hat{ϕ} = \frac{1}{norte} \sum_{yo = 1}^{norte} \frac{2 μ_{yo} + y}{y + 1} .

$\hat{\phi} = \dfrac{1}{N} \sum_{i=1}^{N} \dfrac{2 \mu_i + y}{y + 1}.$

Observe cómo el estimador para la media posterior de ni siquiera usa las muestras , y solo usa las muestras . En cualquier caso, como puede ver, todavía está utilizando las muestras que obtuvo de una cadena de Markov. Este no es un proceso determinista. $\phi$ $\phi$ $\mu$

— Greenparker
fuente

Entonces, suponiendo que se conozca la distribución posterior del parámetro (que, según mi leal saber y entender, es cierto cuando se aplica el muestreo de Gibbs), tomar la media de la distribución en lugar de una muestra aleatoria sería el estimador Rao-Blackwellized. Espero haber entendido tu respuesta correctamente. Muchas gracias ya!

— mscnvrsy

Eso es incorrecto. En el muestreo de Gibbs, no conoce la distribución posterior del parámetro, pero conoce el posterior condicional completo para cada parámetro. Hay una gran diferencia entre los dos. Arriba, la parte posterior es que se desconoce, y para que funcione la muestra de Gibbs necesita saber tanto como . Y también eres incorrecto en tu segunda comprensión. Todavía necesita tomar una muestra del margen posterior de , y luego calcular la media muestral de usando esas muestras para encontrar el estimador RB.

f (μ, ϕ ∣ d a t a)

$f(\mu, \phi \mid data)$

f (μ ∣ ϕ, d a t a)

$f(\mu \mid \phi, data)$

f (ϕ ∣ μ, d a t a)

$f(\phi \mid \mu, data)$

μ

$\mu$

ϕ^{*}

$\phi^*$

— Greenparker

@mscnvrsy Agregué un ejemplo para ayudar

— Greenparker

Wow, muchas gracias por aclararme esto. Entonces, suponiendo que conozco las distribuciones condicionales completas, ¿puedo trabajar con los medios teóricos de las distribuciones condicionales y el promedio sobre estos medios teóricos (como E [phi | mu, y]) para obtener el estimador RB? ¿Esto minimizaría la varianza de mis estimaciones de parámetros?

— mscnvrsy

Si estaba obteniendo muestras independientes, sí, minimizaría la varianza de los estimadores, sin embargo, dado que se trata de cadenas de Markov, generalmente se sabe que RB no necesariamente reduce la varianza, y hay algunos casos en los que la varianza incluso aumenta. Este artículo de Charlie Geyer dio algunos ejemplos a este punto.

— Greenparker

La muestra de Gibbs se puede usar para mejorar la eficiencia de (digamos) muestras de un posterior marginal, . Nota Por lo tanto, el la densidad marginal de en algún valor es el valor esperado de la densidad condicional de dada en el punto . $\pi_2(\theta_2|y)$

\begin{array}{rcl} π_{2} (θ_{2} El | y) & = & \int π (θ_{1}, θ_{2} El | y) re θ_{1} \\ = & \int π_{2 El | 1} (θ_{2} El | θ_{1}, y) π_{1} (θ_{1} El | y) re θ_{1} \\ = & mi (π_{2 El | 1} (θ_{2} El | θ_{1}, y)) \end{array}

$\begin{eqnarray*} \pi_2(\theta_2|y)&=&\int \pi(\theta_1,\theta_2|y)d\theta_1\\ &=&\int \pi_{2|1}(\theta_2|\theta_1,y)\pi_1(\theta_1|y)d\theta_1\\ &=&E(\pi_{2|1}(\theta_2|\theta_1,y)) \end{eqnarray*}$

θ_{2}

$\theta_2$

θ_{2}

$\theta_2$

θ_{2}

$\theta_2$

θ_{1}

$\theta_1$

θ_{2}

$\theta_2$

Esto es interesante debido a la lema de descomposición de varianza donde la varianza condicional es . Además, . En particular, Una muestra de Gibbs nos dará realizaciones . El resultado es que es mejor estimar por que por alguna estimación de densidad de kernel convencional usando para el punto

V una r (X) = mi [V una r (X El | Y)] + V una r [mi (X El | Y)],

$Var(X)=E[Var(X|Y)]+Var[E(X|Y)],$

V a r (X | Y)

$Var(X|Y)$

E {(X - E (X | Y))^{2} | Y}

$E\left\{(X-E(X|Y))^2|Y\right\}$

V a r (E (X | Y)) = E [(E (X | Y) - E (X))^{2}]

$Var(E(X|Y))=E\left[(E(X|Y)-E(X))^2\right]$

V una r (X) \geq V una r [mi (X El | Y)] .

$Var(X)\geq Var[E(X|Y)].$

(θ_{1 i}, θ_{2 i})

$(\theta_{1i},\theta_{2i})$

π_{2} (θ_{2} | y)

$\pi_2(\theta_2|y)$

{\hat{π}}_{2} (θ_{2} El | y) = \frac{1}{METRO} \sum_{yo = 1}^{METRO} π_{2 El | 1} (θ_{2} El | θ_{1 yo}, y)

$\hat{\pi}_2(\theta_2|y)=\frac{1}{M}\sum_{i=1}^M\pi_{2|1}(\theta_2|\theta_{1i},y)$

θ_{2 i}

$\theta_{2i}$

θ_{2}

$\theta_2$ - siempre que conozcamos las distribuciones condicionales (que es, por supuesto, por qué usamos el muestreo de Gibbs en primer lugar).

Ejemplo

Supongamos que e son normales bivariadas con medias cero, varianzas 1 y correlación . Es decir, Claramente, marginalmente, , pero supongamos que no sabemos esto. Es bien sabido que la distribución condicional de dado es . $X$ $Y$ $\rho$

π (X, y) \propto Exp {- \frac{1}{2 (1 - ρ^{2})} (X^{2} + y^{2} - 2 ρ X y)}

$\pi(x,y)\propto\exp\left\{-\frac{1}{2(1-\rho^2)}(x^2+y^2-2\rho x y)\right\}$

Y \sim N (0, 1)

$Y\sim N(0,1)$

Y

$Y$

X = x

$X=x$

N (ρ x, 1 - ρ^{2})

$N(\rho x,1-\rho^2)$

Dadas algunas realizaciones de la estimación "Rao-Blackwell" de la densidad de en entonces es Como ilustración, comparemos una estimación de densidad del núcleo con el enfoque RB $M$ $(X,Y)$ $Y$ $y$

{\hat{π}}_{Y} (y) = \frac{1}{METRO} \sum_{yo = 1}^{METRO} \frac{1}{\sqrt{1 - ρ^{2}} \sqrt{2 π}} Exp {- \frac{1}{2 (1 - ρ^{2})} (y - ρ X_{yo})^{2}}

$\hat\pi_Y(y)=\frac{1}{M}\sum_{i=1}^M\frac{1}{\sqrt{1-\rho^2}\sqrt{2\pi}}\exp\left\{-\frac{1}{2(1-\rho^2)}(y-\rho x_i)^2\right\}$

library(mvtnorm)

rho <- 0.5
R <- 50
xy <- rmvnorm(n=R, mean=c(0,0), sigma= matrix(c(1,rho,rho,1), ncol=2))
x <- xy[,1]
y <- xy[,2]

kernel_density <- density(y, kernel = "gaussian")
plot(kernel_density,col = "blue",lty=2,main="Rao-Blackwell estimates from conditional normals",ylim=c(0,0.4))
legend(1.5,.37,c("Kernel","N(0,1)","Rao-Blackwell"),lty=c(2,1,3),col=c("blue","black","red"))
g <- seq(-3.5,3.5,length=100)
lines(g,dnorm(g),lty=1) # here's what we pretend not to know

density_RB <- rep(0,100)
for(i in 1:100) {density_RB[i] <- mean(dnorm(g[i], rho*x, sd = sqrt(1-rho^2)))}
lines(g,density_RB,col = "red",lty=3)

Observamos que la estimación de RB funciona mucho mejor (ya que explota la información condicional):

— Christoph Hanck
fuente