Relación entre Bayes variacional y EM

Leí en alguna parte que el método Variational Bayes es una generalización del algoritmo EM. De hecho, las partes iterativas de los algoritmos son muy similares. Para probar si el algoritmo EM es una versión especial de Variational Bayes, probé lo siguiente:

$Y$ son datos, $X$ es la colección de variables latentes y $\Theta$ son los parámetros. En Variational Bayes podemos hacer una aproximación tal que $P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)$ . Donde $Q$ s son distribuciones más simples y manejables.
Dado que el algoritmo EM encuentra una estimación puntual MAP, pensé que Bayes Variacionales puede converger a EM si uso una función Delta tal que: $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ . $\Theta_1$ es la primera estimación de los parámetros, como se suele hacer en EM.
Cuando se da, que minimiza el KL divergencia se encuentra por la fórmula $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ $Q^1_X(X)$ La fórmula anterior se simplifica a, este paso resulta ser el ¡equivalente al paso Expectativa del algoritmo EM!
$Q_{X}^{1} (X) = \frac{\exp (E_{δ_{Θ^{1}}} [\ln P (X, Y, Θ)])}{\int \exp (E_{δ_{Θ^{1}}} [\ln P (X, Y, Θ)]) d X}$ $Q^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}$ $Q^1_X(X)=P(X|\Theta^1,Y)$

Pero no puedo derivar el paso de Maximización como la continuación de esto. En el siguiente paso necesitamos calcular y de acuerdo con la regla de iteración de Bayes Variacional esto es: $Q^2_\Theta(\Theta)$

Q_{Θ}^{2} (Θ) = \frac{\exp (E_{P (X | Θ^{1}, Y)} [\ln P (X, Y, Θ)])}{\int \exp (E_{P (X | Θ^{1}, Y)} [\ln P (X, Y, Θ)]) d Θ}

$Q^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta}$

¿Los algoritmos VB y EM están realmente conectados de esta manera? ¿Cómo podemos derivar EM como un caso especial de Bayes Variacionales? ¿Es cierto mi enfoque?

bayesian expectation-maximization variational-bayes

— Ufuk Can Bicici
fuente

¿Dónde leíste que el algoritmo EM encuentra una estimación MAP? La relación entre inferencia variacional y EM se aclarará una vez que comprenda la opinión de EM presentada en este documento por Neal & Hinton (1998) . Vea también mi respuesta aquí .

— Lucas

P (X | Θ^{t}, Y)

$P(X|\Theta^t,Y)$

Θ^{t}

$\Theta^t$

Θ^{t + 1} = a r g m a x_{Θ} < \ln P (X, Y, Θ) >_{P (X | Θ^{t}, Y)}

$\Theta^{t+1} = arg max_{\Theta} <\ln P(X,Y,\Theta)>_{P(X|\Theta^t,Y)}$

Disculpas, no leí tu pregunta con suficiente atención. Creo que su paso de maximización para calcular

Q_{Θ}^{2}

$Q_\Theta^2$

Q_{Θ}^{2}

$Q_\Theta^2$

Θ^{2}

$\Theta^2$

Q_{Θ}^{2} (Θ) = δ_{Θ^{2}} (Θ)

$Q_\Theta^2(\Theta) = \delta_{\Theta^2}(\Theta)$

En la página 21 de la presentación encontré cs.cmu.edu/~tom/10-702/Zoubin-702.pdf, se mostró una comparación de EM y VB, de manera similar al usar la función Dirac. Pero cómo se reduce VB a EM no se da.

— Ufuk Can Bicici

Tu enfoque es correcto. EM es equivalente a VB bajo la restricción de que el posterior aproximado para $\Theta$ $\Theta^*$

Q_{Θ} (Θ) = δ (Θ - Θ^{*})

$Q_\Theta(\Theta) = \delta(\Theta - \Theta^*)$

K L (Q | | P) = \int \int Q_{X} (X) Q_{Θ} (Θ) \ln \frac{Q_{X} (X) Q_{Θ} (Θ)}{P (X, Y, Θ)} d X d Θ = \int Q_{X} (X) \ln \frac{Q_{X} (X) Q_{Θ} (Θ^{*})}{P (X, Y, Θ^{*})} d X

$KL(Q||P)=\int \int Q_X(X) Q_\Theta(\Theta) \ln \frac{Q_X(X) Q_\Theta(\Theta)}{P(X,Y,\Theta)} dX d\Theta \\ = \int Q_X(X) \ln \frac{Q_X(X) Q_\Theta(\Theta^*)}{P(X,Y,\Theta^*)} dX$

Q_{X} (X)

$Q_X(X)$

Θ^{*}

$\Theta^*$

Por supuesto, si realmente evaluaras la divergencia KL, sería infinito. Pero eso no es un problema si considera que la función delta es un límite.

— Tom Minka
fuente

Técnicamente, maximizando

E_{Q_{x}} [\ln P (X, Y, Θ^{*})] = E_{Q_{x}} [\ln P (X, Y | Θ^{*})] + \ln P (Θ^{*})

$\mathbb{E}_{Q_x}[\ln P(X, Y, \Theta^*)] = \mathbb{E}_{Q_x}[\ln P(X, Y | \Theta^*)] + \ln P(\Theta^*)$

Θ^{*}

$\Theta^*$

P (Θ^{*})

$P(\Theta^*)$

— Yibo Yang