Estoy tratando de entender el funcionamiento interno de Hamiltonian Monte Carlo (HMC), pero no puedo entender completamente la parte cuando reemplazamos la integración determinista del tiempo con una propuesta de Metrópolis Hasting. Estoy leyendo el impresionante documento introductorio Una Introducción Conceptual al Hamiltoniano Monte Carlo de Michael Betancourt, por lo que seguiré la misma notación que se utiliza en el mismo.
Antecedentes
El objetivo general de Markov Chain Monte Carlo (MCMC) es aproximar la distribución de una variable objetivo .
La idea de HMC es introducir una variable auxiliar de "impulso" , junto con la variable original que se modela como la "posición". El par posición-momento forma un espacio de fase extendido y puede ser descrito por la dinámica hamiltoniana. La distribución conjunta se puede escribir en términos de descomposición microcanónica:
,
donde representa los parámetros en un determinado nivel de energía , también conocido como un conjunto típico . Vea la Fig. 21 y la Fig. 22 del documento para ilustración.
El procedimiento original de HMC consta de los siguientes dos pasos alternativos:
Un paso estocástico que realiza una transición aleatoria entre los niveles de energía, y
Un paso determinista que realiza la integración en el tiempo (generalmente implementado a través de la integración numérica de salto) a lo largo de un nivel de energía dado.
En el documento, se argumenta que leapfrog (o integrador simpléctico) tiene pequeños errores que introducirán un sesgo numérico. Entonces, en lugar de tratarlo como un paso determinista, deberíamos convertirlo en una propuesta de Metropolis-Hasting (MH) para hacer que este paso sea estocástico, y el procedimiento resultante producirá muestras exactas de la distribución.
La propuesta de MH realizará pasos de las operaciones de salto y luego cambiará el impulso. La propuesta será aceptada con la siguiente probabilidad de aceptación:
Preguntas
Mis preguntas son:
1) ¿Por qué esta modificación de convertir la integración determinista del tiempo en propuesta de MH cancela el sesgo numérico para que las muestras generadas sigan exactamente la distribución objetivo?
2) Desde el punto de vista de la física, la energía se conserva en un nivel de energía dado. Es por eso que podemos usar las ecuaciones de Hamilton:
.
En este sentido, la energía debe ser constante en todas partes en el conjunto típico, por lo tanto, debe ser igual a . ¿Por qué hay una diferencia en la energía que nos permite construir la probabilidad de aceptación?