En primer lugar, permítanme señalar [algo pedante] que
Hay varios tipos diferentes de algoritmos MCMC: Metropolis-Hastings, Gibbs, muestreo de importancia / rechazo (relacionado).
FωFFF
En segundo lugar, la pregunta.
¿Por qué alguien iría con el muestreo de Gibbs en lugar de Metropolis-Hastings? Sospecho que hay casos en que la inferencia es más manejable con el muestreo de Gibbs que con Metropolis-Hastings
no tiene una respuesta en el sentido de que una muestra de Metropolis-Hastings puede ser casi cualquier cosa, incluida una muestra de Gibbs. Respondí en términos bastante detallados a una pregunta anterior y similar. Pero permítanme agregar algunos puntos redundantes aquí:
La razón principal por la que se introdujo el muestreo de Gibbs fue para romper la maldición de la dimensionalidad (que afecta tanto al rechazo como al muestreo de importancia) al producir una secuencia de simulaciones de baja dimensión que aún convergen en el objetivo correcto. Aunque la dimensión del objetivo impacta la velocidad de convergencia. Los muestreadores de Metropolis-Hastings están diseñados para crear una cadena de Markov (como el muestreo de Gibbs) basándose en una propuesta (como el muestreo de importancia y rechazo) al corregir la densidad incorrecta a través de un paso de aceptación-rechazo. Pero un punto importante es que no se oponen: a saber, el muestreo de Gibbs puede requerir pasos de Metropolis-Hastings cuando se enfrenta a objetivos condicionales complejos de baja dimensión, mientras que las propuestas de Metropolis-Hastings pueden basarse en aproximaciones a condicionales completos (Gibbs). En una definición formal, El muestreo de Gibbs es un caso especial del algoritmo Metropolis-Hasting con una probabilidad de aceptación de uno. (Por cierto, me opongo al uso deinferencia en esa cita, ya que la reservaría para fines estadísticos , mientras que esos muestreadores son dispositivos numéricos ).
Por lo general, el muestreo de Gibbs [entendido como ejecutar una secuencia de simulaciones condicionales de baja dimensión] se favorece en entornos donde la descomposición en tales condicionales es fácil de implementar y rápida de ejecutar. En entornos donde tales descomposiciones inducen la multimodalidad y, por lo tanto, una dificultad para moverse entre modos (vienen a la mente modelos variables latentes como los modelos de mezcla), el uso de una propuesta más global en un algoritmo de Metrópolis Hasting puede producir una mayor eficiencia. Pero el inconveniente es elegir la distribución de la propuesta en el algoritmo Metropolis-Hasting.