Para responder a su pregunta: puede usar la densidad de suavizado. Pero no tienes que hacerlo. La respuesta de Jarle Tufto tiene la descomposición que estás usando. Pero hay otros.
Usando las recursiones de Kalman
Aquí está evaluando la probabilidad como
f(y1,…,yn)=f(y1)∏i=2nf(yi|y1,…,yi−1).
Sin embargo, las medias y las variaciones no siempre definen completamente las distribuciones de probabilidad en general. La siguiente es la descomposición que está utilizando para pasar de filtrar distribuciones a probabilidades condicionales :f(xi−1|y1,…,yi−1)f(yi|y1,…,yi−1)
f(yi|y1,…,yi−1)=∬f(yi|xi)f(xi|xi−1)f(xi−1|y1,…,yi−1)dxidxi−1.(1)
Aquí es la densidad de transición de estado ... parte del modelo, y es la densidad de observación ... parte del modelo nuevamente. En su pregunta, escriba estos como y respectivamente. Es lo mismo.f(xi|xi−1)f(yi|xi)xt+1=Fxt+vt+1yt=Hxt+Azt+wt
Cuando obtiene la distribución de predicción de estado de un paso adelante, se calcula . Cuando te integras de nuevo, obtienes (1) completamente. Escribe esa densidad completamente en su pregunta, y es lo mismo.∫f(xi|xi−1)f(xi−1|y1,…,yi−1)dxi−1
Aquí solo está usando descomposiciones de distribuciones de probabilidad y suposiciones sobre el modelo. Este cálculo de probabilidad es un cálculo exacto. No hay nada discrecional que pueda usar para hacer esto mejor o peor.
Usando el algoritmo EM
Que yo sepa, no hay otra forma de evaluar la probabilidad directamente en este tipo de modelo de espacio de estado. Sin embargo, aún puede hacer una estimación de máxima probabilidad evaluando una función diferente: puede usar el algoritmo EM. En el paso Expectativa (E-Step) calcularías
Aquí
∫f(x1,…,xn|y1,…yn)logf(y1,…,yn,x1,…,xn)dx1:n=Esmooth[logf(y1,…,yn,x1,…,xn)].
f(y1,…,yn,x1,…,xn)es la probabilidad de "datos completos", y está tomando la expectativa del registro de eso con respecto a la densidad de suavizado de juntas. Lo que sucede a menudo es que, debido a que está tomando el registro de esta probabilidad de datos completa, los términos se dividen en sumas, y debido a la linealidad del operador de expectativa, está tomando expectativas con respecto a las distribuciones de suavizado marginales (las mencionas en tu pregunta).
Otras cosas
He leído en algunos lugares que el EM es una forma "más estable" de maximizar la probabilidad, pero nunca he visto este punto argumentado bien, ni he visto esta palabra "estable" definida, pero tampoco he Realmente examiné esto más a fondo. Ninguno de estos algoritmos puede sortear la terrible experiencia máxima local / global. Yo personalmente tiendo a usar el Kalman más a menudo solo por costumbre.
Es cierto que las estimaciones uniformes del estado tienen una varianza menor que el filtrado, por lo que creo que tiene razón para tener alguna intuición al respecto, pero en realidad no está utilizando los estados. La probabilidad de que intentes maximizar no es una función de los estados.