Para obtener esto y simplificar las cosas, siempre pienso primero en un solo parámetro con distribución uniforme (a largo plazo) a priori, de modo que en este caso, la estimación MAP del parámetro es la misma que la MLE . Sin embargo, suponga que su función de probabilidad es lo suficientemente complicada como para tener varios máximos locales.
Lo que MCMC hace en este ejemplo en 1-D es explorar la curva posterior hasta que encuentre valores de probabilidad máxima. Si la varianza es demasiado corta, seguramente se quedará atascado en los máximos locales, porque siempre estará muestreando valores cerca de él: el algoritmo MCMC "pensará" que está atascado en la distribución objetivo. Sin embargo, si la varianza es demasiado grande, una vez que se quede atascado en un máximo local, rechazará más o menos los valores hasta que encuentre otras regiones de máxima probabilidad. Si propones el valor en el MAPA (o una región similar de probabilidad máxima local que sea mayor que las demás), con una gran variación terminarás rechazando casi cualquier otro valor: la diferencia entre esta región y las otras será muy grande
Por supuesto, todo lo anterior afectará la tasa de convergencia y no la convergencia "per-se" de sus cadenas. Recuerde que sea cual sea la variación, siempre que la probabilidad de seleccionar el valor de esta región máxima global sea positiva, su cadena convergerá.
Sin embargo, para evitar este problema, lo que se puede hacer es proponer diferentes variaciones en un período de quemado para cada parámetro y apuntar a ciertas tasas de aceptación que puedan satisfacer sus necesidades (digamos , ver Gelman, Roberts y Gilks, 1995 y Gelman, Gilks & Roberts, 1997 para obtener más información sobre el tema de seleccionar una "buena" tasa de aceptación que, por supuesto, dependerá de la forma de su distribución posterior). Por supuesto, en este caso la cadena no es markoviana, por lo que NO tiene que usarlos para inferencia: solo los usa para ajustar la varianza.0.44