MCMC; ¿Podemos estar seguros de que tenemos una muestra "pura" y "suficientemente grande" de la parte posterior? ¿Cómo puede funcionar si no lo somos?

Refiriéndose a este hilo: ¿Cómo explicaría Markov Chain Monte Carlo (MCMC) a un laico? .

Puedo ver que es una combinación de Cadenas de Markov y Montecarlo: se crea una cadena de Markov con el posterior como distribución limitante invariante y luego los sorteos de Monte Carlo (dependientes) se hacen a partir de la distribución limitante (= nuestro posterior).

Digamos (sé que estoy simplificando aquí) que después de pasos estamos en la distribución limitante (*). $L$ $\Pi$

La cadena de Markov es una secuencia de variables aleatorias, obtengo una secuencia , donde es una variable aleatoria y es la limitación ' 'variable aleatoria' 'de la que deseamos muestrear. $X_1, X_2, \dots , X_L, \Pi, \Pi, \Pi, \dots \Pi$ $X_i$ $\Pi$

El MCMC comienza con un valor inicial, es decir, es una variable aleatoria con toda la masa en ese valor . Si uso letras mayúsculas para variables aleatorias y letras pequeñas para la realización de una variable aleatoria, entonces el MCMC me da una secuencia . Entonces, la longitud de la cadena MCMC es L + n. $X_1$ $x_1$ $x_1,x_2,x_3, \dots x_L, \pi_1, \pi_2, \pi_3, ....\pi_n$

[[* Nota: las letras mayúsculas son variables aleatorias (es decir, una gran cantidad de resultados) y la pequeña son resultados, es decir, un valor particular. *]] $x$

Obviamente, solo el pertenece a mi '' posterior '' y para aproximar el '' pozo '' posterior, el valor de debe ser '' suficientemente grande ''. $\pi_i$ $n$

Si resumo esto, entonces tengo una cadena MCMC de longitud , solo son relevantes para mi aproximación posterior, debería ser lo suficientemente grande. $x_1,x_2,x_3, \dots x_L, \pi_1, \pi_2, \pi_3, ....\pi_n$ $N=L+n$ $\pi_1,\pi_2,\dots, \pi_n$ $n$

Si algo de (es decir, realizaciones antes de que se alcance la distribución invariante) en el cálculo de la aproximación de la parte posterior, entonces será "ruidoso". $x_i$

Sé la longitud de la cadena MCMC , pero sin conocer la , es decir, el paso donde estoy seguro de tomar muestras de la distribución limitante, no puedo estar seguro de que no incluí ruido, ni puedo asegúrese de que , el tamaño de mi muestra de la distribución limitante, en particular, no puedo estar seguro de si es "lo suficientemente grande". $N=L+n$ $L$ $n=N-L$

Entonces, por lo que entendí, este valor de es de importancia crítica para la calidad de aproximación de la parte posterior (exclusión de ruido y una gran muestra de él) $L$ .

¿Hay alguna forma de encontrar una estimación razonable de cuando solicito MCMC? $L$

(*) Creo que, en general, dependerá del valor inicial . $L$ $x_1$

mcmc

— Comunidad
fuente

TL DR; No puedes estimar ya que . Por lo tanto, la suposición simplificadora nunca puede ser realmente posible. (Puede haber algunos casos en los que está, pero no en el mundo general de MCMC). Sin embargo, puede decidir qué hará que el sesgo temprano sea pequeño. $L$ $L = \infty$ $N$

Esencialmente, su pregunta se reduce a "¿cómo podemos estimar el tiempo de quemado?". Quemar es el acto de tirar las muestras iniciales porque la cadena de Markov no ha convergido. Hay muchos diagnósticos de MCMC que lo ayudan a estimar el tiempo de "quemado", puede ver una revisión de ellos aquí .

Hay dos escuelas de paso en cuanto a quemado; la popular es usar uno de esos diagnósticos para decidir qué es , y tirar las muestras de , y la segunda escuela a través de ella, las primeras muestras de no deberían importar, así que no te preocupes por ellas. Charlie Geyer tiene una queja sobre esto con la que estoy de acuerdo. $L$ $L$ $L$

Ahora, paso a los detalles más técnicos de su pregunta.

$L$ $L$ $L$ $\infty$ $L$

$L$ $L$

$L$ $N$ $X_1, X_2, X_3, \dots, X_N$ $L$ $L$ $\infty$ $\theta$

{\bar{θ}}_{N} = \frac{1}{N} \sum_{i = 1}^{N} X_{i} .

$\bar{\theta}_N = \dfrac{1}{N} \sum_{i=1}^{N}X_i.$

$N$ $L$

$N$ $\theta$

$(\bar{\theta}_N - \theta)$ $N \to \infty$

\sqrt{N} ({\bar{θ}}_{N} - θ) \overset{d}{\to} N_{p} (0, Σ),

$\sqrt{N}(\bar{\theta}_N - \theta) \overset{d}{\to} N_p(0, \Sigma),$

$\theta \in \mathbb{R}^p$ $\Sigma$

$\Sigma/N$

— Greenparker
fuente

L

$L$

\infty

$\infty$

Σ / n

$\Sigma/n$

{\hat{θ}}_{N}

$\hat{\theta}_N$

Σ / N

$\Sigma/N$

{\bar{θ}}_{N}

$\bar{\theta}_N$

X_{1} \sim π

$X_1 \sim \pi$

{\bar{g}}_{n}

$\bar{g}_n$

X_{1} \sim π

$X_1 \sim \pi$

π

$\pi$