Entiendo dónde ocurre el paso E en el algoritmo (como se explica en la sección matemática a continuación). En mi opinión, el ingenio clave del algoritmo es el uso de la desigualdad de Jensen para crear un límite inferior a la probabilidad logarítmica. En ese sentido, tomar Expectation
simplemente se hace para reformular la probabilidad logarítmica para encajar en la desigualdad de Jensen (es decir, para la función cóncava).
¿Hay alguna razón por la que se llama el E-step? ¿Hay algún significado para lo que estamos esperando (es decir, ? Siento que me falta algo de intuición detrás de por qué la Expectativa es tan central, en lugar de simplemente ser incidental para el uso de la desigualdad de Jensen.
EDITAR: Un tutorial dice:
El nombre 'E-step' proviene del hecho de que generalmente no es necesario formar la distribución de probabilidad sobre las terminaciones explícitamente, sino que solo necesita calcular estadísticas suficientes 'esperadas' sobre estas terminaciones.
¿Qué significa "uno no necesita formar la distribución de probabilidad sobre terminaciones explícitamente"? ¿Cómo sería esa distribución de probabilidad?
Apéndice: E-step en el algoritmo EM