Respuestas:
Desde:
Xu L y Jordan MI (1996). Sobre las propiedades de convergencia del algoritmo EM para mezclas gaussianas . Cálculo neuronal 2: 129-151.
Abstracto:
Mostramos que el paso EM en el espacio de parámetros se obtiene del gradiente a través de una matriz de proyección P, y proporcionamos una expresión explícita para la matriz.
Página 2
En particular, mostramos que el paso EM puede obtenerse multiplicando previamente el gradiente por una matriz denita positiva. Proporcionamos una expresión explícita para la matriz ...
Página 3
Es decir, el algoritmo EM puede verse como un algoritmo de ascenso de gradiente métrico variable ...
Es decir, el documento proporciona transformaciones explícitas del algoritmo EM en ascenso de gradiente, Newton, cuasi-Newton.
De wikipedia
Existen otros métodos para encontrar estimaciones de máxima verosimilitud, como el descenso de gradiente, el gradiente conjugado o las variaciones del método de Gauss-Newton. A diferencia de EM, tales métodos típicamente requieren la evaluación de la primera y / o segunda derivada de la función de probabilidad.
No, no son equivalentes. En particular, la convergencia EM es mucho más lenta.
Si está interesado en un punto de vista de optimización en EM, en este documento verá que el algoritmo EM es un caso especial de una clase más amplia de algoritmos (algoritmos de punto proximal).