¿Por qué la probabilidad en el filtro de Kalman se calcula utilizando resultados de filtro en lugar de resultados más suaves?


11

Estoy usando el filtro de Kalman de una manera muy estándar. El sistema está representado por la ecuación de estado xt+1=Fxt+vt+1 y la ecuación de observación yt=Hxt+Azt+wt .

Los libros de texto enseñan que después de aplicar el filtro de Kalman y conseguir las "previsiones de un solo paso-a x^t|t1 (o "estimación filtrada"), deberíamos usarlos para calcular la función de probabilidad:

fyt|It1,zt(yt|It1,zt)=det[2π(HPt|t1H+R)]12exp{12(ytHx^t|t1Azt)(HPt|t1H+R)1(ytHx^t|t1Azt)}

Mi pregunta es: ¿Por qué se calcula la función de probabilidad utilizando la "estimación filtrada" x^t|t1 y no la "estimación suavizada" x^t|T ? ¿No es x^t|T una mejor estimación del vector de estado?


Edité el título para ser más informativo.
Juho Kokkala

Respuestas:


5

Para responder a su pregunta: puede usar la densidad de suavizado. Pero no tienes que hacerlo. La respuesta de Jarle Tufto tiene la descomposición que estás usando. Pero hay otros.

Usando las recursiones de Kalman

Aquí está evaluando la probabilidad como

f(y1,,yn)=f(y1)i=2nf(yi|y1,,yi1).

Sin embargo, las medias y las variaciones no siempre definen completamente las distribuciones de probabilidad en general. La siguiente es la descomposición que está utilizando para pasar de filtrar distribuciones a probabilidades condicionales :f(xi1|y1,,yi1)f(yi|y1,,yi1)

(1)f(yi|y1,,yi1)=f(yi|xi)f(xi|xi1)f(xi1|y1,,yi1)dxidxi1.

Aquí es la densidad de transición de estado ... parte del modelo, y es la densidad de observación ... parte del modelo nuevamente. En su pregunta, escriba estos como y respectivamente. Es lo mismo.f(xi|xi1)f(yi|xi)xt+1=Fxt+vt+1yt=Hxt+Azt+wt

Cuando obtiene la distribución de predicción de estado de un paso adelante, se calcula . Cuando te integras de nuevo, obtienes (1) completamente. Escribe esa densidad completamente en su pregunta, y es lo mismo.f(xi|xi1)f(xi1|y1,,yi1)dxi1

Aquí solo está usando descomposiciones de distribuciones de probabilidad y suposiciones sobre el modelo. Este cálculo de probabilidad es un cálculo exacto. No hay nada discrecional que pueda usar para hacer esto mejor o peor.

Usando el algoritmo EM

Que yo sepa, no hay otra forma de evaluar la probabilidad directamente en este tipo de modelo de espacio de estado. Sin embargo, aún puede hacer una estimación de máxima probabilidad evaluando una función diferente: puede usar el algoritmo EM. En el paso Expectativa (E-Step) calcularías Aquí

f(x1,,xn|y1,yn)logf(y1,,yn,x1,,xn)dx1:n=Esmooth[logf(y1,,yn,x1,,xn)].
f(y1,,yn,x1,,xn)es la probabilidad de "datos completos", y está tomando la expectativa del registro de eso con respecto a la densidad de suavizado de juntas. Lo que sucede a menudo es que, debido a que está tomando el registro de esta probabilidad de datos completa, los términos se dividen en sumas, y debido a la linealidad del operador de expectativa, está tomando expectativas con respecto a las distribuciones de suavizado marginales (las mencionas en tu pregunta).

Otras cosas

He leído en algunos lugares que el EM es una forma "más estable" de maximizar la probabilidad, pero nunca he visto este punto argumentado bien, ni he visto esta palabra "estable" definida, pero tampoco he Realmente examiné esto más a fondo. Ninguno de estos algoritmos puede sortear la terrible experiencia máxima local / global. Yo personalmente tiendo a usar el Kalman más a menudo solo por costumbre.

Es cierto que las estimaciones uniformes del estado tienen una varianza menor que el filtrado, por lo que creo que tiene razón para tener alguna intuición al respecto, pero en realidad no está utilizando los estados. La probabilidad de que intentes maximizar no es una función de los estados.


¿Qué tan diferentes son KF y EM? Terminan haciendo lo mismo de maneras vagamente similares.
Mitch

1
@Mitch eso es probablemente algo que merece más que un comentario. Dependerá de qué optimizador de uso general use con el KF y qué tipo de EM use. No voy a estar muy seguro sin investigarlo.
Taylor

7

En general, según la regla del producto, la probabilidad exacta se puede escribir A partir del supuesto del modelo de espacio de estados, se deduce que el vector de expectativa y la matriz de varianza de cada condicional en observaciones pasadas se pueden expresar como y

f(y1,,yn)=f(y1)i=2nf(yi|y1,,yi1).
yi
E(yi|y1,,yi1)=E(Hxt+Azt+wt|y1,,yi1)=HE(xt|y1,,yi1)+Azt+Ewt=Hx^t|t1+Azt,
Var(yi|y1,,yi1)=Var(Hxt+Azt+wt|y1,,yi1)=HVar(xt|y1,,yi1)H+Varwt=HPt|t1H+R.
Por lo tanto, esto le brinda la probabilidad exacta sin calcular las estimaciones suavizadas.

Si bien, por supuesto, podría usar las estimaciones suavizadas que, de hecho, son mejores estimaciones de los estados desconocidos, esto no le daría la función de probabilidad. En efecto, estaría utilizando el valor observado de para estimar su propio valor esperado, por lo que parece probable que esto conduzca a un sesgo en las estimaciones resultantes. yi


0

Creo que una mejor respuesta a "por qué" no se usa la distribución de suavizado (típicamente) es la eficiencia. En principio, es sencillo calcular la probabilidad marginal (suavizado) en un sentido de dejar uno afuera de la siguiente manera. Eliminar la observación j, ejecutar el Kalman más suave en los datos restantes. Luego evalúe la probabilidad de lo invisible y (j). Repita esto para todo j. Resuma las probabilidades de registro. Las versiones más rápidas de esto funcionan con bloques (aleatorios) de muestras retenidas (como k-fold CV). Tenga en cuenta que este esquema requiere una implementación más general del filtro / suavizador Kalman que puede omitir arbitrariamente las actualizaciones de medición donde sea necesario. La pasada hacia atrás / suavizado no accede a las mediciones (algoritmo RTS de todos modos) y permanece igual.

Si la serie temporal es "lo suficientemente larga", es probable que haya pocos beneficios útiles al hacerlo, ya que la probabilidad de filtrado "quema" su transitorio inicial. Pero si el conjunto de datos es corto, la probabilidad de suavizado más costosa puede valer la pena. Un retraso más suave podría ser una solución intermedia.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.