Estoy tratando de implementar HMC con una matriz de masa no diagonal, pero algunas de las terminologías me hacen tropezar.
De acuerdo con BDA3 y la revisión de Neal, el término de energía cinética (que supongo que siempre se usa por conveniencia) es
Esto también se reconoce como una normal multivariada con media cero y matriz de covarianza . BDA3 (pg 301) dice
Para mantenerlo simple, comúnmente usamos una matriz de masa diagonal, M. Si es así, los componentes de φ son independientes, con φj ∼ N (0, Mjj) para cada dimensión j = 1,. . . d. Puede ser útil para M escalar aproximadamente con la matriz de covarianza inversa de la distribución posterior, (var (θ | y)) ^ - 1.
(Estoy leyendo N (0, M)) como una normal multivariada con media cero y covarianza M.)
La parte que me hace tropezar es donde dice que "puede ser útil para escalar aproximadamente con la matriz de covarianza inversa de la distribución posterior ... ".
Y luego, justo antes de eso, la muestra de impulso que comienza los pasos de salto () se extrae de una matriz multivariada normal con covarianza.
Entonces, ¿cuál es? Para construir una buena M para HMC, ¿calculo la matriz de covarianza o precisión de la parte posterior? Aunquees la matriz de covarianza de la energía cinética, usando unQue es una estimación de la matriz de precisión de la posterior dará un algoritmo más eficiente?
Pregunta secundaria: ¿cuál es la intuición que podría guiarme aquí?
¿Desea utilizar una matriz de precisión para que el impulso empuje ortogonalmente al potencial / posterior para mejorar la mezcla?
O ¿desea que el impulso empuje hacia la parte de masa de alta probabilidad de la parte posterior (porque de ahí es de donde desea extraer la mayoría de las muestras).
ps La razón por la que no estoy usando la matriz de identidad para es porque para mi problema puedo obtener una estimación decente de la matriz de covarianza de mi bastante alta dimensión (~ 1000) posterior de antemano.