Esta es una pregunta recurrente (vea esta publicación , esta publicación y esta publicación ), pero tengo un giro diferente.
Supongamos que tengo un montón de muestras de una muestra genérica de MCMC. Para cada muestra , conozco el valor del log de verosimilitud y del log anterior . Si ayuda, también sé el valor de la probabilidad de registro por punto de datos, (esta información ayuda con ciertos métodos, como WAIC y PSIS-LOO).
Quiero obtener una estimación (cruda) de la probabilidad marginal, solo con las muestras que tengo, y posiblemente algunas otras evaluaciones de función (pero sin volver a ejecutar un MCMC ad hoc ).
En primer lugar, despejemos la tabla. Todos sabemos que el estimador armónico es el peor estimador de la historia . Vamonos. Si está haciendo un muestreo de Gibbs con anteriores y posteriores en forma cerrada, puede usar el método de Chib ; pero no estoy seguro de cómo generalizar fuera de esos casos. También hay métodos que requieren que modifique el procedimiento de muestreo (como a través de posteriores templados ), pero no estoy interesado en eso aquí.
El enfoque en el que estoy pensando consiste en aproximar la distribución subyacente con una forma paramétrica (o no paramétrica) , y luego descubrir la constante de normalización como un problema de optimización 1-D (es decir, la que minimiza algún error entre y , evaluada sobre las muestras). En el caso más simple, supongamos que la parte posterior es aproximadamente multivariada normal, puedo ajustar como normal multivariante y obtener algo similar a una aproximación de Laplace (es posible que desee utilizar algunas evaluaciones de funciones adicionales para refinar la posición del modo). Sin embargo, podría usar como una familia más flexible, como una mezcla variacional de distribuciones multivariadas .
Aprecio que este método solo funciona si es una aproximación razonable a , pero ¿hay alguna razón o una advertencia de por qué sería muy imprudente hacerlo? ¿Alguna lectura que recomendarías?
El enfoque totalmente no paramétrico utiliza alguna familia no paramétrica, como un proceso gaussiano (GP), para aproximar (o alguna otra transformación no lineal de la misma, como la raíz cuadrada), y bayesiana cuadratura para integrarse implícitamente sobre el objetivo subyacente (ver aquí y aquí ). Este parece ser un enfoque alternativo interesante, pero análogo en espíritu (también, tenga en cuenta que los médicos de familia serían difíciles de manejar en mi caso).