Diferencia entre los modelos ocultos de Markov y el filtro de partículas (y el filtro de Kalman)

Aquí está mi vieja pregunta

Me gustaría preguntar si alguien sabe la diferencia (si hay alguna diferencia) entre los modelos Hidden Markov (HMM) y el Filtro de partículas (PF), y como consecuencia el Filtro Kalman, o en qué circunstancias usamos qué algoritmo. Soy estudiante y tengo que hacer un proyecto, pero primero tengo que entender algunas cosas.

Entonces, de acuerdo con la bibliografía, ambos son modelos de espacio de estado , que incluyen estados ocultos (o latentes o no observados). Según Wikipedia (Hidden_Markov_model) "en HMM, el espacio de estado de las variables ocultas es discreto, mientras que las observaciones pueden ser discretas (generalmente generadas a partir de una distribución categórica) o continuas (típicamente a partir de una distribución gaussiana). Los modelos ocultos de Markov también se pueden generalizar para permitir espacios de estado continuos. Ejemplos de tales modelos son aquellos en los que el proceso de Markov sobre variables ocultas es un sistema dinámico lineal, con una relación lineal entre variables relacionadas y donde todas las variables ocultas y observadas siguen una distribución gaussiana. En casos simples, como el sistema dinámico lineal que se acaba de mencionar, la inferencia exacta es manejable (en este caso, utilizando el filtro de Kalman); sin embargo, en general, la inferencia exacta en HMM con variables latentes continuas no es factible, y se deben usar métodos aproximados,"

Pero para mí esto es un poco confuso ... En palabras simples, esto significa lo siguiente (basado también en más investigaciones que he hecho):

En HMM, el espacio de estado puede ser discreto o continuo . Además, las observaciones en sí pueden ser discretas o continuas . También HMM es un sistema dinámico lineal y gaussiano o no gaussiano.
En PF, el espacio de estado puede ser discreto o continuo . Además, las observaciones en sí pueden ser discretas o continuas . Pero PF es un sistema dinámico no lineal (¿y no gaussiano?) (¿Es esa su diferencia?).
El filtro de Kalman (también me parece lo mismo que HMM) se está utilizando cuando tenemos un sistema dinámico lineal y gaussiano .

Además, ¿cómo sé qué algoritmo elegir, porque para mí todo esto parece lo mismo ... También encontré un documento (no en inglés) que dice que PF aunque puede tener datos lineales (por ejemplo, datos sin procesar de un sensor-cinect que reconoce un movimiento), el sistema dinámico puede ser no lineal. Puede suceder esto? ¿Es esto correcto? ¿Cómo?

Para el reconocimiento de gestos, los investigadores pueden usar HMM o PF, pero no explican por qué seleccionan cada algoritmo ... ¿Alguien sabe cómo puedo ayudarme a distinguir estos algoritmos, a comprender sus diferencias y a elegir el mejor algoritmo?

Lo siento si mi pregunta es demasiado grande, o algunas partes son ingenuas, pero no encontré en ningún lugar una respuesta convincente y científica. ¡Muchas gracias de antemano por su tiempo!

Aquí está mi NUEVA pregunta (según la ayuda de @ conjugateprior)

Entonces, con más lecturas, me gustaría actualizar algunas de mis partes de mi comentario anterior y asegurarme de que entendí un poco más lo que está sucediendo.

De nuevo en palabras simples, el paraguas son las redes dinámicas bayesianas en las que se incluyen los modelos de HMM y espacio de estado (subclases) ( http://mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf ).
Además, la diferencia inicial entre los 2 modelos es que, en HMM, las variables de estado ocultas son discretas , mientras que las observaciones pueden ser discretas o continuas . En PF, las variables de estado ocultas son continuas (vector de estado oculto de valor real), y las observaciones tienen distribuciones gaussianas .
Además, según @conjugateprior, cada modelo tiene las 3 tareas siguientes: filtrado, suavizado y predicción. En el filtrado, el modelo HMM usa para variables de estado ocultas discretas el método Algoritmo directo, el espacio de estado usa para variables continuas y el sistema dinámico lineal, el Filtro de Kalman, etc.
Sin embargo, HMM también se puede generalizar para permitir espacios de estado continuos .
Con estas extensiones de HMM, los 2 modelos parecen ser conceptualmente idénticos (como también se menciona en Hidden Markov Model vs Markov Transition Model vs State-Space Model ...? ).

Creo que estoy usando un poco más precisa la terminología, pero aún así todo está borroso para mí. ¿Alguien puede explicarme cuál es la diferencia entre HMM y el modelo de espacio de estado ?

Porque realmente no puedo encontrar una respuesta que se ajuste a mis necesidades.

¡Gracias una vez más!

— usuario5584748
fuente

Si la biblioteca de su escuela tiene este libro: crcpress.com/Time-Series-Modeling-Computation-and-Inference/…, lo echaré un vistazo. Hace un buen trabajo al explicar los tres temas que, podría mencionar, son tres temas muy distintos.

Acabo de comprobar que la biblioteca no tiene este libro, desafortunadamente ... así que si pudiera enviarme las partes que cree que responden a mi pregunta o me ayudan a distinguir estos temas, ¡sería genial! :)

— user5584748

Será útil distinguir el modelo de la inferencia que desea hacer con él, porque ahora la terminología estándar combina los dos.

El modelo es la parte en la que especifica la naturaleza de: el espacio oculto (discreto o continuo), la dinámica de estado oculto (lineal o no lineal), la naturaleza de las observaciones (típicamente condicionalmente multinomial o normal) y el modelo de medición que conecta El estado oculto a las observaciones. Los modelos HMM y de espacio de estado son dos de estos conjuntos de especificaciones de modelo.

$t$ $t$

En situaciones donde el estado es continuo, la dinámica de estado y la medición lineal y todo el ruido es Normal, un filtro de Kalman hará ese trabajo de manera eficiente. Su análogo cuando el estado es discreto es el algoritmo de avance. En el caso de que no haya Normalidad y / o no linealidad, recurrimos a filtros aproximados. Hay aproximaciones deterministas, por ejemplo, filtros de Kalman extendidos o sin perfume, y hay aproximaciones estocásticas, la más conocida de las cuales es el filtro de partículas.

El sentimiento general parece ser que en presencia de una no linealidad inevitable en el estado o partes de medición o no normalidad en las observaciones (las situaciones problemáticas comunes), uno intenta salirse con la aproximación más barata posible. Entonces, EKF luego UKF luego PF.

La literatura sobre el filtro Kalman sin perfume generalmente tiene algunas comparaciones de situaciones en las que podría funcionar mejor que la linealización tradicional del filtro Kalman extendido.

El filtro de partículas tiene una generalidad casi completa, cualquier no linealidad, cualquier distribución, pero en mi experiencia ha requerido un ajuste bastante cuidadoso y, en general, es mucho más difícil de manejar que los demás. Sin embargo, en muchas situaciones, es la única opción.

En cuanto a la lectura adicional: me gustan los cap. 4-7 de Filtrado y suavizado bayesiano de Särkkä, aunque es bastante conciso. El autor tiene una copia en línea disponible para uso personal. De lo contrario, la mayoría de los libros de series de tiempo espacial del estado cubrirán este material. Para el filtrado de partículas, hay un Doucet et al. volumen sobre el tema, pero supongo que es bastante viejo ahora. Quizás otros señalen una referencia más nueva.

— conjugadoprior
fuente

Ante todo muchas gracias por tu respuesta. Compruebe que edité la pregunta anterior para ser más coherente y precisa con la terminología. También reformulo toda mi pregunta.

— user5584748

En su reescritura no es del todo cierto que "en PF las variables de estado ocultas son continuas (vector de estado oculto de valor real), y las observaciones tienen distribuciones gaussianas". PF es un filtro. El modelo para el que es un filtro debe tener un espacio de estado continuo (con alguna estructura de Markovian u otra), pero no tiene restricciones: distribuciones, dinámicas y procesos de medición.

— conjugateprior

Podría, por ejemplo, usar un PF para filtrar un modelo de espacio de estado Gaussiano lineal ordinario. Funcionaría bien. Simplemente no tiene que hacerlo ya que el filtro de Kalman es exacto.

— conjugateprior

"¿Cuál es la diferencia entre HMM y el modelo de espacio de estado?" Básicamente: por convención, los HMM tienen un estado discreto. También por convención, los 'modelos de espacio de estado' denotan cosas con estado continuo.

— conjugateprior

Muchas gracias! Entonces, esta diferencia se produce por convención (y según la bibliografía). Pero, en general, podemos elegir el modelo que queramos. ¿Es eso correcto? El modelo que elegiré depende de si tendré mejores resultados.

— user5584748