¿Cuál es la diferencia entre una red Bayes (dinámica) y un HMM?

He leído que los HMM, los filtros de partículas y los filtros de Kalman son casos especiales de redes dinámicas de Bayes. Sin embargo, solo conozco HMM y no veo la diferencia con las redes dinámicas de Bayes.

¿Podría alguien explicarme?

Sería bueno si su respuesta pudiera ser similar a la siguiente, pero para bayes Networks:

Modelos ocultos de Markov

Un modelo de Markov oculto (HMM) es una tupla de 5 tuplas : $\lambda = (S, O, A, B, \Pi)$

$S \neq \emptyset$ : un conjunto de estados (por ejemplo, "comienzo del fonema", "centro del fonema", "fin del fonema")
$O \neq \emptyset$ : conjunto de posibles observaciones (señales de audio)
$A \in \mathbb{R}^{|S| \times |S|}$ : una matriz estocástica que proporciona probabilidades para pasar del estado al estado . $(a_{ij})$ $i$ $j$
$B \in \mathbb{R}^{|S| \times |O|}$ : una matriz estocástica que proporciona probabilidades para obtener en el estado la observación . $(b_{kl})$ $k$ $l$
$\Pi \in \mathbb{R}^{|S|}$ : distribución inicial para comenzar en uno de los estados.

Por lo general, se muestra como un gráfico dirigido, donde cada nodo corresponde a un estado y las probabilidades de transición se denotan en los bordes. $s \in S$

Los modelos ocultos de Markov se denominan "ocultos" porque el estado actual está oculto. Los algoritmos tienen que adivinarlo a partir de las observaciones y del modelo en sí. Se llaman "Markov", porque para el próximo estado solo importa el estado actual.

Para los HMM, proporciona una topología fija (número de estados, posibles bordes). Luego hay 3 tareas posibles

Evaluación : dado un HMM , qué tan probable es obtener observaciones (algoritmo de reenvío) $\lambda$ $o_1, \dots, o_t$
Decodificación : dado un HMM y una observación , ¿cuál es la secuencia más probable de estados (algoritmo de Viterbi) $\lambda$ $o_1, \dots, o_t$ $s_1, \dots, s_t$
Aprendizaje : aprenda : algoritmo de Baum-Welch , que es un caso especial de maximización de expectativas. $A, B, \Pi$

Redes Bayes

Las redes de Bayes son gráficos acíclicos dirigidos (DAG) . Los nodos representan variables aleatorias . Para cada , hay una distribución de probabilidad que está condicionada por los padres de : $G = (\mathcal{X}, \mathcal{E})$ $X \in \mathcal{X}$ $X$ $X$

PAG (X El | padres (X))

$P(X|\text{parents}(X))$

Parece que hay (por favor aclare) dos tareas:

Inferencia : Dadas algunas variables, obtenga los valores más probables de las otras variables. La inferencia exacta es NP-dura. Aproximadamente, puede usar MCMC.
Aprendizaje : cómo aprende esas distribuciones depende del problema exacto ( fuente ):
- estructura conocida, totalmente observable: estimación de máxima verosimilitud (MLE)
- estructura conocida, parcialmente observable: maximización de expectativas (EM) o Markov Chain Monte Carlo (MCMC)
- estructura desconocida, completamente observable: búsqueda a través del espacio modelo
- estructura desconocida, parcialmente observable: búsqueda EM + a través del espacio modelo

Redes dinámicas de Bayes

Supongo que las redes dinámicas de Bayes (DBN) también son modelos gráficos probabilísticos dirigidos. La variabilidad parece provenir de la red que cambia con el tiempo. Sin embargo, me parece que esto es equivalente a copiar solo la misma red y conectar cada nodo en el tiempo con cada nodo correspondiente en el tiempo . ¿Es ese el caso? $t$ $t+1$

bayesian-networks pgm

— Martin Thoma
fuente

1. También puede aprender la topología de un HMM. 2. Al hacer inferencia con BN, además de pedir estimaciones de máxima verosimilitud, también puede tomar muestras de las distribuciones, estimar las probabilidades o hacer cualquier otra cosa que la teoría de la probabilidad le permita. 3. Un DBN es solo un BN copiado a lo largo del tiempo, con algunos (no necesariamente todos) nodos encadenados del pasado al futuro. En este sentido, un HMM es un DBN simple con solo dos nodos en cada segmento de tiempo y uno de los nodos encadenados con el tiempo.

— KT.

Le pregunté a alguien sobre esto y dijeron: "Los HMM son solo casos especiales de redes dinámicas de Bayes, cada segmento de tiempo contiene una variable latente, dependiente de la anterior para dar una cadena de Markov, y una observación depende de cada variable latente. DBNs puede tener cualquier estructura que evolucione con el tiempo ".

— ashley

De una pregunta similar de validación cruzada se sigue la respuesta de @jerad :

Los HMM no son equivalentes a los DBN, sino que son un caso especial de DBN en los que todo el estado del mundo está representado por una sola variable de estado oculta. Otros modelos dentro del marco DBN generalizan el HMM básico, permitiendo más variables de estado ocultas (vea el segundo documento arriba para las muchas variedades).

Finalmente, no, los DBN no siempre son discretos. Por ejemplo, los modelos lineales de estado gaussiano (filtros de Kalman) pueden concebirse como HMM de valor continuo, a menudo utilizados para rastrear objetos en el espacio.

Recomiendo mirar estos dos excelentes artículos de revisión:

Una introducción a los modelos ocultos de Markov y las redes bayesianas por Zoubin Gharamani

Redes Bayesianas Dinámicas por Kevin Murphy

— xboard
fuente