¿Por qué debería uno usar EM vs. decir, Pendiente de gradiente con MLE?

Matemáticamente, a menudo se ve que las expresiones y algoritmos para la Maximización de Expectativas (EM) son a menudo más simples para modelos mixtos, sin embargo, parece que casi todo (si no todo) que se puede resolver con EM también se puede resolver con MLE (por, digamos, el método de Newton-Raphson, para expresiones que no están cerradas).

Sin embargo, en la literatura, parece que muchos favorecen la EM sobre otros métodos (incluida la minimización de la LL por, digamos, el descenso del gradiente); ¿Es por su simplicidad en estos modelos? ¿O es por otras razones?

mixed-model maximum-likelihood expectation-maximization

— Guillermo Angeris
fuente

Creo que hay algunos cables cruzados aquí. El MLE, como se menciona en la literatura estadística, es la estimación de máxima verosimilitud. Este es un estimador . El algoritmo EM es, como su nombre lo indica, un algoritmo que a menudo se usa para calcular el MLE. Estas son manzanas y naranjas.

Cuando el MLE no está en forma cerrada, un algoritmo de uso común para encontrar esto es el algoritmo de Newton-Raphson, que puede ser a lo que se refiere cuando dice "también se puede resolver con MLE". En muchos problemas, este algoritmo funciona muy bien; para problemas de "vainilla", generalmente es difícil de superar.

Sin embargo, hay muchos problemas donde falla, como los modelos mixtos. Mi experiencia con varios problemas computacionales ha sido que, si bien el algoritmo EM no siempre es la opción más rápida, a menudo es la más fácil por una variedad de razones. Muchas veces con modelos novedosos, el primer algoritmo utilizado para encontrar el MLE será un algoritmo EM. Luego, varios años después, los investigadores pueden encontrar que un algoritmo significativamente más complicado es significativamente más rápido. Pero estos algoritmos no son trivales.

Además, especulo que gran parte de la popularidad del algoritmo EM es su sabor estadístico, lo que ayuda a los estadísticos a sentirse diferenciados de los analistas numéricos.

— Acantilado
fuente

"... ayudando a los estadísticos a sentirse diferenciados de los analistas numéricos" --- Definitivamente guardaré esta línea para su uso posterior.

— Guillermo Angeris

Además (acabo de actualizar la pregunta, porque era mi intención original incluir esto también), pero ¿por qué deberíamos usar EM en lugar de un algoritmo como Gradient Descent? ¿Cuál es la preferencia de uno a otro? ¿Velocidad de convergencia, tal vez?

— Guillermo Angeris

En el trabajo que he realizado, la mayor ventaja del algoritmo EM es el hecho de que los valores de los parámetros propuestos son siempre válidos: es decir, masas de probabilidad entre [0,1] que suman 1, que no es necesariamente el caso para descenso de gradiente. Otra ventaja es que no debería tener que calcular la probabilidad de asegurarse de que haya aumentado en cada paso. Esto es un gran problema si la actualización se puede calcular rápidamente, pero la probabilidad no.

— Cliff AB

Otro aspecto muy agradable del algoritmo EM: tiende a ser mucho más estable numéricamente que los métodos basados en gradiente. Mi investigación comenzó con algoritmos EM y me llevó 4 años darme cuenta de lo molesta que podía ser la inestabilidad numérica (es decir, cuando comencé a usar algoritmos que no son EM).

— Cliff AB

interesante. Supongo que esta pregunta surgió nuevamente para mí, pero ¿qué pasa con hacer algo similar a la optimización convexa (en los subdegradados) donde esencialmente realiza el descenso de gradiente y luego solo proyecta en el conjunto factible? Quiero decir, ciertamente suena mucho más difícil que EM, pero ¿cuáles serían otras desventajas?

— Guillermo Angeris