¿Por qué se necesita MCMC al estimar un parámetro usando MAP?

Dada la fórmula para la estimación MAP de un parámetro ¿Por qué se necesita un enfoque MCMC (o similar), ¿no podría simplemente tomar la derivada, establecerla en cero y luego resolver el parámetro?

bayesian estimation mcmc

— Dänu
fuente

Gran pregunta!

Respuestas:

Si sabe de qué familia es su posterior y si encontrar la derivada de esa distribución es analíticamente factible, eso es correcto.

Sin embargo, cuando usa MCMC, es probable que no se encuentre en ese tipo de situación. MCMC está hecho para situaciones en las que no tiene una noción analítica clara de cómo se ve su posterior.

— Christoph Hanck
fuente

Creo que esto es un poco engañoso: MCMC generalmente no se usa para encontrar el estimador MAP (fuera de casos especiales como un algoritmo MCEM).

— Cliff AB

No estoy en desacuerdo con usted en principio. Pero, MCMC puede ser y se usa para simular la distribución posterior . Y una vez que haya hecho eso, puede encontrar el modo de esa distribución, también conocido como MAP. Creo que es lo que el OP tenía en mente, por lo que no estoy muy seguro de por qué mi respuesta sería engañosa.

— Christoph Hanck

Sí, sin embargo, ¿MCMC es el método de elección cuando se trata de MAP si no hay una forma analítica de optimizar el parámetro?

— Dänu

Nunca he oído hablar del uso de MCMC simple para encontrar el modo de la distribución posterior (técnicamente, podría hacerse, pero esto es extremadamente ineficiente). Como típicamente podemos evaluar una función que es proporcional a la distribución posterior, maximizar esto será equivalente a maximizar la distribución posterior. Los optimizadores listos para usar funcionarán tan bien en esto como cualquier problema de probabilidad frecuente (es decir, a veces necesitará especializarlos).

— Cliff AB

@ Dänu Probablemente no quieras usar MCMC (para ser pedante, una cadena de Markov) para encontrar máximos. Un algoritmo de optimización debería funcionar mejor.

— jtobin

La mayoría de los posteriores demuestran ser difíciles de optimizar analíticamente (es decir, tomando un gradiente y configurándolo igual a cero), y deberá recurrir a algún algoritmo de optimización numérica para hacer MAP.

Como comentario: MCMC no está relacionado con MAP.

MAP - para máximo a posteriori - se refiere a encontrar un máximo local de algo proporcional a una densidad posterior y usar los valores de parámetros correspondientes como estimaciones. Se define como

{\hat{θ}}_{M A P} = {argmax}_{θ} p (θ | D)

$\hat{\theta}_{MAP} = \text{argmax}_{\theta} \, p(\theta \, | \, D)$

MCMC se usa típicamente para aproximar las expectativas sobre algo proporcional a una densidad de probabilidad. En el caso de un posterior, eso es

{\hat{θ}}_{M C M C} = n^{- 1} \sum_{i = 1}^{n} θ_{i}^{0} \approx \int_{Θ} θ p (θ | D) d θ

$\hat{\theta}_{MCMC} = n^{-1} \sum_{i=1}^{n} \theta^{0}_{i} \approx \int_{\Theta}\theta \, p(\theta \, | \, D)d\theta$

$\{\theta^{0}_{i}\}^{n}_{i=1}$ $\hat{\theta}_{MAP} \neq \hat{\theta}_{MCMC}$

El quid es que MAP implica la optimización , mientras que MCMC se basa en el muestreo .

— jtobin
fuente

Usted afirma que los posteriores demuestran ser difíciles de optimizar analíticamente, como es el caso en MAP. Entonces, ¿es posible MAP solo si la parte posterior se puede optimizar analíticamente y si este no es el caso, uno tiene que recurrir (por ejemplo) a un enfoque MCMC?

— Dänu

No, en lugar de venir con la solución analítica, uno puede usar un algoritmo iterativo para encontrar la solución (es decir, si el registro posterior es cóncavo, puede usar el Método de Newton, por ejemplo).

— Cliff AB

MAP se refiere a encontrar valores de parámetros que (localmente) maximicen un posterior. No importa cómo se obtienen esos valores de parámetros: resolución de máximos analíticamente, uso de una rutina numérica, diferenciación automática, etc.

— jtobin