Importancia de las probabilidades iniciales de transición en un modelo oculto de Markov

11

¿Cuáles son los beneficios de dar ciertos valores iniciales a las probabilidades de transición en un modelo oculto de Markov? Finalmente, el sistema los aprenderá, entonces, ¿cuál es el punto de dar valores distintos de los aleatorios? ¿El algoritmo subyacente hace una diferencia como Baum-Welch?

Si conozco las probabilidades de transición al principio con mucha precisión, y mi propósito principal es predecir las probabilidades de salida del estado oculto a las observaciones, ¿qué me aconsejarías?

machine-learning expectation-maximization hidden-markov-model

— metdos
fuente

7

Baum-Welch es un algoritmo de optimización para calcular el estimador de máxima verosimilitud. Para los modelos ocultos de Markov, la superficie de probabilidad puede ser bastante fea, y ciertamente no es cóncava. Con buenos puntos de partida, el algoritmo puede converger más rápido y hacia el MLE.

Si ya conoce las probabilidades de transición y desea predecir estados ocultos mediante el algoritmo de Viterbi, necesita las probabilidades de transición. Si ya los conoce, no es necesario volver a estimarlos con Baum-Welch. La reestimación es computacionalmente más costosa que la predicción.

— NRH
fuente

3

Algunos de los materiales relativos a las estimaciones iniciales de HMM se dan en

Lawrence R. Rabiner (febrero de 1989). "Un tutorial sobre modelos ocultos de Markov y aplicaciones seleccionadas en reconocimiento de voz". Actas del IEEE 77 (2): 257–286. doi: 10.1109 / 5.18626 (Sección VC)

También puede echar un vistazo al kit de herramientas de modelado probabilístico para Matlab / Octave , especialmente la función hmmFitEm , donde puede proporcionar su propio parámetro inicial del modelo o simplemente usar (opción 'nrandomRestarts'). Mientras usa 'nrandomRestarts', el primer modelo (en el paso de inicio) usa:

Ajuste una mezcla de gaussianos a través de MLE / MAP (usando EM) para datos continuos;
Ajuste una mezcla de productos de distribuciones discretas a través de MLE / MAP (usando EM) para datos discretos;

el segundo, tercer modelos ... (en el paso de inicio) utilizan parámetros inicializados aleatoriamente y como resultado convergen más lentamente con valores de probabilidad de registro en su mayoría más bajos.

— Sergey
fuente