¿Por qué la maximización de expectativas es importante para los modelos mixtos?

Hay mucha literatura que enfatiza el método de maximización de expectativas en los modelos de mezcla (mezcla de Gauss, modelo oculto de Markov, etc.).

¿Por qué EM es importante? EM es solo una forma de hacer optimización y no se usa ampliamente como método basado en gradiente (gradiente decente o método newton's / cuasi-newton) u otro método libre de gradiente discutido AQUÍ . Además, EM todavía tiene problemas mínimos locales.

¿Es porque el proceso es intuitivo y puede convertirse fácilmente en código? ¿O qué otras razones?

— Haitao Du
fuente

Respuestas:

En principio, los enfoques de optimización estándar y EM pueden funcionar para ajustar distribuciones de mezclas. Al igual que EM, los solucionadores de optimización convexos convergerán a un óptimo local. Pero, existe una variedad de algoritmos de optimización para buscar mejores soluciones en presencia de múltiples óptimos locales. Hasta donde yo sé, el algoritmo con la mejor velocidad de convergencia dependerá del problema.

Una ventaja de EM es que, naturalmente, produce parámetros válidos para la distribución de la mezcla en cada iteración. Por el contrario, los algoritmos de optimización estándar necesitarían restricciones para imponerse. Por ejemplo, supongamos que está ajustando un modelo de mezcla gaussiana. Un enfoque de programación no lineal estándar requeriría que las matrices de covarianza restrictivas sean semidefinidas positivas y que los pesos de los componentes de la mezcla sean no negativos y sumen uno.

Para lograr un buen rendimiento en problemas de alta dimensión, un solucionador de programación no lineal generalmente necesita explotar el gradiente. Por lo tanto, tendría que derivar el gradiente o calcularlo con diferenciación automática. Los gradientes también son necesarios para las funciones de restricción si no tienen una forma estándar. El método de Newton y los enfoques relacionados (por ejemplo, los métodos de la región de confianza) también necesitan el hessiano. Se podrían usar métodos de diferenciación finita o sin derivados si el gradiente no está disponible, pero el rendimiento tiende a escalar mal a medida que aumenta el número de parámetros. Por el contrario, EM no requiere el gradiente.

EM es conceptualmente intuitivo, lo cual es una gran virtud. Esto a menudo también es válido para los enfoques de optimización estándar. Hay muchos detalles de implementación, pero el concepto general es simple. A menudo es posible utilizar solucionadores de optimización estándar que abstraen estos detalles bajo el capó. En estos casos, un usuario solo tiene que proporcionar la función objetivo, restricciones y gradientes, y tener suficiente conocimiento de trabajo para seleccionar un solucionador que se adapte bien al problema. Sin embargo, se requiere conocimiento especializado si llega al punto en que el usuario tiene que pensar o implementar detalles de bajo nivel del algoritmo de optimización.

Otro beneficio del algoritmo EM es que puede usarse en casos donde faltan algunos valores de datos.

También de interés (incluidos los comentarios):

— usuario20160
fuente

\sum_{i} p_{i} = 1

$\sum_i p_i = 1$

q_{i} \in R

$q_i \in \mathbb{R}$

p_{i} = \frac{\exp (q_{i})}{\sum_{j} \exp (q_{j})}

$p_i = \frac{\exp(q_i)}{\sum_j\exp(q_j)}$

C

$C$

U

$U$

C = U^{T} U

$C = U^T U$

C

$C$

U

$U$

0

$0$

Derecha, derecha, descomposición cholesky. Mucho mejor.

— user20160

+1 gran respuesta! ¿podría explicar más sobre "naturalmente produce parámetros válidos para la distribución de la mezcla en cada iteración"? Para otros métodos, todavía tenemos valores de variables de decisión para cada iteración, ¿verdad?

— Haitao Du

Creo que la respuesta del usuario 2020 proporciona una muy buena explicación, la razón más importante que hace que los métodos basados en gradientes no sean adecuados aquí es la restricción para que las matrices de covarianza sean semidefinidas positivas, y los coeficientes de mezcla sean no negativos y sumen uno.

Solo quiero señalar que si restringimos las matrices de covarianza para que sean diagonales, entonces estas dos restricciones se pueden expresar fácilmente.

Σ = [\begin{matrix} σ_{1}^{2} \\ ⋱ \\ σ_{N}^{2} \end{matrix}]

$\Sigma = \begin{bmatrix} \sigma^2_{1} & & \\ & \ddots & \\ & & \sigma^2_{N} \end{bmatrix}$

ϕ_{k} = e^{p_{k}} / \sum_{K} e^{p_{i}}

$\phi_k=e^{p_k}/\sum_Ke^{p_i}$ entonces se cumplen las dos restricciones y los gradientes se pueden evaluar simplemente por propagación inversa.

Además, esto nos permite optimizar directamente la probabilidad real en lugar del límite inferior variacional (ELBO), eliminando así la necesidad de variables latentes.

Sin embargo, incluso en tales casos, EM a menudo resulta ser un mejor algoritmo que el gradiente decente.

— dontloo
fuente