En esta pregunta popular , la respuesta altamente votada hace que MLE y Baum Welch se separen en la adaptación HMM.
Para problemas de entrenamiento podemos usar los siguientes 3 algoritmos: MLE (estimación de máxima verosimilitud), entrenamiento de Viterbi (NO confundir con la decodificación de Viterbi), Baum Welch = algoritmo de avance-retroceso
PERO en Wikipedia , dice
El algoritmo Baum-Welch utiliza el conocido algoritmo EM para encontrar la estimación de máxima probabilidad de los parámetros.
Entonces, ¿cuál es la relación entre MLE y el algoritmo de Baum-Welch?
Mi intento: el objetivo del algoritmo Baum-Welch es maximizar la probabilidad, pero utiliza un algoritmo especializado (EM) para resolver la optimización. Todavía podemos maximizar la probabilidad utilizando otros métodos, como el degradado decente. Es por eso que la respuesta hace que dos algoritmos se separen.
¿Tengo razón y alguien puede ayudarme a aclarar?