EM, ¿hay una explicación intuitiva?

El procedimiento EM aparece, para los no iniciados, como más o menos magia negra. Estime los parámetros de un HMM (por ejemplo) utilizando datos supervisados. Luego, decodifique los datos sin etiquetar, usando hacia adelante y hacia atrás para 'contar' los eventos como si los datos estuvieran etiquetados, más o menos. ¿Por qué esto mejora el modelo? Sí sé algo sobre las matemáticas, pero sigo deseando algún tipo de imagen mental.

expectation-maximization intuition

— bmargulies
fuente

No estoy seguro, pero creo que es posible interpretarlo como un procedimiento de optimización de descenso de gradiente estocástico.

— Pensaré

Solo para guardar algo de tipeo, llame a los datos observados , los datos faltantes (por ejemplo, los estados ocultos del HMM) y el vector de parámetros que estamos tratando de encontrar (por ejemplo, probabilidades de transición / emisión). $X$ $Z$ $Q$

La explicación intuitiva es que básicamente hacemos trampa, pretendemos por un momento que conocemos para poder encontrar una distribución condicional de Z que a su vez nos permita encontrar el MLE para (ignorando por el momento el hecho de que básicamente estamos haciendo una circular argumento), luego admitir que hicimos trampa, poner nuestro nuevo y mejor valor para , y volver a hacerlo hasta que ya no tengamos que hacer trampa. $Q$ $Q$ $Q$

Algo más técnico, al pretender que conocemos el valor real , podemos pretender que sabemos algo sobre la distribución condicional de , que nos permite mejorar nuestra estimación de , que ahora pretendemos que es el valor real de para poder pretender que sabemos algo sobre la distribución condicional de , que nos permite mejorar nuestra estimación de , que ... y así sucesivamente. $Q$ $Z|\{X,Q\}$ $Q$ $Q$ $Z|\{X,Q\}$ $Q$

Aún más técnicamente, si supiéramos , podríamos maximizar y tener la respuesta correcta. El problema es que no conocemos , y cualquier estimación de debe depender de ello. Pero si queremos encontrar la mejor estimación (o distribución) con , entonces necesitamos saber y . Estamos atrapados en una situación de huevo y gallina si queremos el maximizador único analíticamente. $Z$ $\log(f(Q|X,Z))$ $Z$ $Q$ $Z$ $X$ $Q$

Nuestra "salida" es que, para cualquier estimación de (llámelo ), podemos encontrar la distribución de , y así podemos maximizar nuestra probabilidad de registro conjunta esperada de , con respecto a la distribución condicional de . Esta distribución condicional básicamente nos dice cómo depende del valor actual de dado $Q$ $Q_n$ $Z|\{Q_n,X\}$ $Q|\{X,Z\}$ $Z|\{Q_n,X\}$ $Z$ $Q$ $X$ , y nos permite saber cómo cambiar para aumentar nuestra probabilidad de y al mismo tiempo para un valor particular de (que hemos denominado ). Una vez que hemos elegido un nuevo , tenemos una distribución condicional diferente para y, por lo tanto, tienen que volver a calcular la expectativa. $Q$ $Q$ $Z$ $Q$ $Q_n$ $Q_{n+1}$ $Z|\{Q_{n+1}, X\}$

— Rico
fuente