Número de muestras de Monte Carlo de la cadena Markov

10

Existe mucha literatura sobre el diagnóstico de convergencia de la cadena de Markov Monte Carlo (MCMC), incluido el diagnóstico más popular de Gelman-Rubin. Sin embargo, todos estos evalúan la convergencia de la cadena de Markov y, por lo tanto, abordan la cuestión del quemado.

Una vez que he descubierto el proceso de quemado, ¿cómo debo decidir cuántas muestras de MCMC son suficientes para continuar con mi proceso de estimación? La mayor parte de los documentos utilizando MCMC mención que se quedaron la cadena de Markov para algunos iteraciones, pero no dicen nada acerca de por qué / cómo eligieron ese número, . $n$ $n$

Además, un tamaño de muestra deseado no puede ser la respuesta para todos los muestreadores, ya que la correlación en la cadena de Markov varía mucho de un problema a otro. Entonces, ¿hay alguna regla para averiguar la cantidad de muestras requeridas?

— Greenparker
fuente

5

La cantidad de muestras (post quemado) que necesita depende de lo que esté tratando de hacer con esas muestras y de cómo se mezcle su cadena.

Por lo general, estamos interesados en las expectativas posteriores (o cuantiles) y las aproximamos por promedios de nuestras muestras posteriores, es decir, donde son muestras de su MCMC. Según la Ley de Grandes Números, la estimación de MCMC converge casi seguramente a la expectativa deseada.

mi [h (θ) El | y] \approx \frac{1}{METRO} \sum_{metro = 1}^{METRO} h (θ^{(metro)}) = {mi}_{METRO}

$E[h(\theta)|y] \approx \frac{1}{M} \sum_{m=1}^M h(\theta^{(m)}) = E_M$

θ^{(m)}

$\theta^{(m)}$

Pero para abordar la cuestión de cuántas muestras necesitamos asegurarnos de que estamos lo suficientemente cerca de la expectativa deseada, necesitamos un resultado del Teorema del límite central (CLT), es decir, algo como Con este CLT podríamos hacer declaraciones probabilíticas como "hay un 95% de probabilidad de que está entre ". Los dos problemas aquí son

\frac{{mi}_{METRO} - mi [h (θ) El | y]}{\sqrt{METRO}} \overset{re}{\to} norte (0 0, v_{h}^{2})

$\frac{E_M -E[h(\theta)|y]}{\sqrt{M}} \stackrel{d}{\to} N(0,v_h^2)$

E [h (θ) | y]

$E[h(\theta)|y]$

E_{M} \pm 1.96 v_{h}

$E_M \pm 1.96 v_h$

¿Aplica el CLT?
¿Cómo podemos estimar ? $v_h^2$

Tenemos algunos resultados sobre cuándo se aplica el CLT, por ejemplo, cadenas de estado discete, cadenas reversibles, cadenas geométricamente ergódicas. Ver Robert y Casella (2ª ed.) Sección 6.7.2 para algunos resultados en esta dirección. Lamentablemente, la gran mayoría de las cadenas de Markov que existen no tienen pruebas de que exista CLT.

Si existe un CLT, aún necesitamos estimar la varianza en el CLT. Una forma de estimar esta variación consiste en dividir la cadena en bloques, ver Gong y Flegal y las referencias allí. El método se ha implementado en el paquete R mcmcsecon las funciones mcsey mcse.qpara estimar la varianza de las expectativas y cuantiles.

— jaradniemi
fuente

Esto suena razonable, y estoy familiarizado con la literatura aquí. ¿Con qué frecuencia se usa este argumento en la práctica?

— Greenparker

3

John Kruschke en Doing Bayesian Data Analysis recomienda que para los parámetros de interés, las cadenas MCMC se deben ejecutar hasta que su tamaño de muestra efectivo sea de al menos 10,000. Aunque no se presentan simulaciones, creo que su justificación es que ESS> 10,000 asegura estimaciones numéricamente estables. Sin embargo, he visto que Andrew Gelman y otros desarrolladores de Stan recomiendan menos (por ejemplo, 2000 - 3000 está bien; desafortunadamente no hay un enlace exacto, pero vea las discusiones sobre el grupo de usuarios de Stan Google). Además, para modelos complejos, ¡ejecutar cadenas lo suficientemente largas para un ESS> 10,000 puede ser arduo!

— usuario3237820
fuente

Gracias. ¿Puedes enviarme a donde dice eso en su material? Tomará mucho tiempo hojear la página web. Además, mi respuesta [aquí] habla sobre la determinación del límite inferior para ESS.

— Greenparker

Lo siento, me di cuenta de que no puse el enlace. Aqui esta.

— Greenparker

1

Lo siento, debería haber sido más específico. Kruschke lo menciona brevemente en su publicación de blog aquí haciendobayesiandataanalysis.blogspot.co.uk y está en el Capítulo 7 de su libro, 'Markov Chain Monte Carlo', página 184 de la segunda edición: books.google.co.uk/… .

— user3237820

1

Este es uno de los grandes inconvenientes de las simulaciones de MCMC, ya que no hay una estimación general y a priori del número de muestras. Creo que una buena literatura aquí es "Algunas cosas que hemos aprendido (sobre MCMC)" de Persi Diaconis que trata con muchas sutilezas de simulaciones de MCMC que podrían indicar que no hay una respuesta fácil a esta pregunta.

En general, hacer buenas estimaciones sobre cuánto tiempo dura la cadena requiere una buena comprensión del tiempo de mezcla de la cadena de Markov, que depende en gran medida de las propiedades del gráfico subyacente. Existen muchos métodos de "quemado libre" para limitar el tiempo de mezcla desde arriba, pero todos estos métodos tienen en común que necesitan una comprensión más profunda de la cadena de Markov subyacente y las constantes involucradas son típicamente difíciles de calcular . Véase, por ejemplo, "Conductancia y mezcla rápida de las cadenas de Markov" de King, "Acoplamiento de ruta: una técnica para probar la mezcla rápida en las cadenas de Markov" de Bubley et al., O "Desigualdades de Nash para cadenas finas de Markov" de Diaconis et al.

— Tobias Windisch
fuente

Convenido. Pero en la práctica, el tiempo de mezcla de los muestreadores no siempre se estudia con tanto detalle para abordar esta cuestión. Además, estudiar el tiempo de mezcla requiere una considerable experiencia en la teoría de la cadena de Markov, algo con lo que la mayoría de los usuarios finales de MCMC podrían no estar familiarizados. ¿Ni siquiera hay heurísticas por ahí (como los diagnósticos)?

— Greenparker

Lo único que se me ocurre es estimar numéricamente el segundo valor propio más grande de la matriz de transición y derivar un límite en el tiempo de mezcla a partir de eso. Puede echar un vistazo a la tesis doctoral de Kranthi Kumar Gade.

— Tobias Windisch el

¿Qué sucede si estoy trabajando con una cadena de Markov de espacio de estado general, no con un espacio de estado finito? Supongo que eso no es posible entonces, pero lo veremos.

— Greenparker

Tienes razón. Su método solo funciona para espacios de estado finito y cadenas de Markov de tiempo discreto.

— Tobias Windisch