El artículo que encontré aclarando con respecto a la maximización de expectativas es Bayesian K-Means como un algoritmo de " maximización -expectativa" (pdf) por Welling y Kurihara.
Supongamos que tenemos un modelo probabilístico con observaciones, variables aleatorias ocultas y un total de parámetros . Se nos da un conjunto de datos y estamos obligados (por poderes superiores) a establecer .x z θ D p ( z , θ | D )p ( x , z, θ )Xzθrep ( z, θ | D )
1. muestreo de Gibbs
Podemos aproximar por muestreo. El muestreo de Gibbs da alternando:p ( z , θ | D )p ( z, θ | D )p ( z, θ | D )
θ ∼ p ( θ | z, D )z∼ p ( zEl | θ,D)
2. Bayes variacionales
En cambio, podemos intentar establecer una distribución y y minimizar la diferencia con la distribución que buscamos después de . La diferencia entre las distribuciones tiene un nombre elegante y conveniente, la divergencia KL. Para minimizar actualizamos:q ( z ) p ( θ , z | D ) K L [ q ( θ ) q ( z ) | El | p ( θ , z | D ) ]q( θ )q( z)p ( θ , zEl | D)KL [q( θ )q(z) | El | p ( θ , zEl | D)]
q( θ ) ∝exp(E[logp ( θ ,z, D ) ]q(z))q(z) ∝exp(E[logp ( θ ,z, D ) ]q( θ ))
3. Expectativa-Maximización
Proponer distribuciones de probabilidad completas para y podría considerarse extremo. ¿Por qué no consideramos una estimación puntual para uno de estos y mantenemos el otro agradable y matizado? En EM, el parámetro se establece como el que no merece una distribución completa, y se establece en su valor MAP (Maximum A Posteriori), .θ θ θ ∗zθθθ∗
θ∗= argmaxθmi[logp ( θ ,z, D ) ]q(z)q(z) = p ( zEl | θ∗, D )
Aquí realidad sería una mejor notación: el operador argmax puede devolver múltiples valores. Pero no peleemos. En comparación con Bayes variacionales, ve que la corrección para by no cambia el resultado, por lo que ya no es necesario.log expθ∗∈ argmaxIniciar sesiónExp
4. Maximización-Expectativa
No hay razón para tratar a como un niño mimado. También podemos usar estimaciones puntuales para nuestras variables ocultas y dar a los parámetros el lujo de una distribución completa.z ∗ θzz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Si nuestras variables ocultas son variables indicadoras, de repente tenemos un método computacionalmente barato para realizar inferencia sobre el número de grupos. En otras palabras: selección de modelo (o detección automática de relevancia o imagina otro nombre elegante).z
5. Modos condicionales iterados
Por supuesto, el elemento secundario de la inferencia aproximada es usar estimaciones puntuales tanto para los parámetros como para las observaciones .zθz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
Para ver cómo se desarrolla Maximización-Expectativa, recomiendo el artículo. En mi opinión, la fuerza de este artículo no es, sin embargo, la aplicación a una alternativa significa, sino esta exposición lúcida y concisa de aproximación.k