¿Por qué es deseable tener baja auto-correlación en MCMC?

11

Sigo leyendo sobre la necesidad de verificar la autocorrelación en MCMC. ¿Por qué es importante que la autocorrelación sea baja? ¿Qué mide en el contexto de MCMC?

sampling autocorrelation mcmc

— Amelio Vazquez-Reina
fuente

3

De hecho, si se pudiera producir una autocorrelación negativa alta en una muestra de MCMC, esta muestra mejoraría con el muestreo de iid. Sin embargo, esto es un hecho muy raro ...

— Xi'an

4

La autocorrelación es una medida de cuánto se correlaciona el valor de una señal con otros valores de esa señal en diferentes puntos en el tiempo. En el contexto de MCMC, la autocorrelación es una medida de cuán independientes son las diferentes muestras de su distribución posterior: una autocorrelación más baja que indica resultados más independientes.

Cuando tiene una alta autocorrelación, las muestras que ha extraído no representan con precisión la distribución posterior y, por lo tanto, no proporcionan información significativa para la solución del problema. En otras palabras, una menor autocorrelación significa una mayor eficiencia en sus cadenas y mejores estimaciones. Una regla general sería que cuanto menor sea su autocorrelación, menos muestras necesitará para que el método sea efectivo (pero eso podría simplificar demasiado).

— Henry Hammond
fuente

No tengo muchos antecedentes con MCMC, pero su última oración no parece simplificar demasiado. Si observa el efecto de las correlaciones automáticas en las estimaciones de error, cambian el valor de a donde es el tiempo de autocorrelización medido en los mismos observables. Así es como tener solamente 'medición efectiva' en lugar de . ¿Todavía hay alguna simplificación excesiva en esta declaración?

Δ A^{²} = \frac{Var A}{N}

$\Delta A^² = \frac{\text{Var} A}{N}$

Δ A^{²} = \frac{Var A}{N} (1 + 2 τ)

$\Delta A^² = \frac{\text{Var} A}{N}(1+2\tau)$

τ

$\tau$

A

$A$

\frac{N}{1 + 2 τ}

$\frac{N}{1+2\tau}$

N

$N$

— aprendizaje es un desastre

10

Primero, y más obviamente, si la autocorrelación es alta, entonces N muestras no le están dando N piezas de información sobre su distribución, pero menos que eso. El Tamaño de muestra efectivo (ESS) es una medida de la cantidad de información que realmente está obteniendo (y es una función del parámetro de autocorrelación).

De manera similar, la autocorrelación le brinda muestras no representativas 'a corto plazo'. Además, cuanto más autocorrelación haya, más largo será ese 'corto plazo'. Para una autocorrelación muy fuerte, el corto plazo podría ser una buena fracción de sus muestras totales. Los remedios directos habituales son los parámetros de re-parametrización o muestreo que espera que estén intercorrelacionados en bloques en lugar de por separado, ya que de lo contrario generarán autocorrelación en la cadena. Las personas a menudo también se 'flaquean', aunque hay una discusión sobre cuán útil es esto para resolver el problema subyacente, por ejemplo, aquí . Kass 1997 es una discusión informal de los problemas, aunque probablemente haya algo más nuevo que otros puedan recomendar.

En resumen, una cadena fuertemente autocorrelacionada tarda más en llegar desde sus condiciones iniciales a la distribución objetivo que desea, mientras que es menos informativa y tarda más en explorar esa distribución cuando llega allí.

— conjugadoprior
fuente