El muestreo desde una posterior (densidad) incorrecta no tiene sentido desde un punto de vista probabilístico / teórico. La razón de esto es que la función f no tiene una integral finita sobre el espacio del parámetro y, en consecuencia, no puede vincularse a un modelo de probabilidad ( medida finita) ( Ω , σ , P ) (espacio, álgebra sigma, medida de probabilidad )ff(Ω,σ,P)
Si tiene un modelo con una versión anterior incorrecta que conduce a una parte posterior incorrecta, en muchos casos aún puede tomar muestras de ella utilizando MCMC, por ejemplo Metropolis-Hastings, y las "muestras posteriores" pueden parecer razonables. Esto parece intrigante y paradójico a primera vista. Sin embargo, la razón de esto es que los métodos MCMC están restringidos a limitaciones numéricas de las computadoras en la práctica y, por lo tanto, todos los soportes están limitados (¡y discretos!) Para una computadora. Luego, bajo esas restricciones (delimitación y discreción), la parte posterior es realmente adecuada en la mayoría de los casos.
Hay una gran referencia de Hobert y Casella que presenta un ejemplo (de una naturaleza ligeramente diferente) en el que se puede construir una muestra de Gibbs para una posterior, las muestras posteriores se ven perfectamente razonables, ¡pero la posterior es incorrecta!
http://www.jstor.org/stable/2291572
Un ejemplo similar ha aparecido recientemente aquí . De hecho, Hobert y Casella advierten al lector que los métodos MCMC no pueden usarse para detectar la incorrección de la parte posterior y que esto debe verificarse por separado antes de implementar cualquier método MCMC. En resumen:
- Algunos muestreadores MCMC, como Metropolis-Hastings, pueden (pero no deberían) usarse para muestrear desde un posterior incorrecto ya que la computadora limita y decrementa el espacio de parámetros. Solo si tiene muestras enormes , puede observar algunas cosas extrañas. Lo bien que puede detectar estos problemas también depende de la distribución "instrumental" empleada en su muestra. El último punto requiere una discusión más extensa, por lo que prefiero dejarlo aquí.
- (Hobert y Casella). El hecho de que pueda construir una muestra de Gibbs (modelo condicional) para un modelo con un previo incorrecto no implica que el posterior (modelo de unión) sea apropiado.
- Una interpretación probabilística formal de las muestras posteriores requiere la propiedad de la posterior. Los resultados y las pruebas de convergencia se establecen solo para distribuciones / medidas de probabilidad adecuadas.
PD (un poco de lengua en la mejilla): no siempre creas lo que la gente hace en Machine Learning. Como dijo el profesor Brian Ripley: "el aprendizaje automático es estadística menos cualquier comprobación de modelos y suposiciones".