¿Cuáles son las desventajas de los modelos de espacio de estado y Kalman Filter para el modelado de series temporales?


53

Dadas todas las buenas propiedades de los modelos de espacio de estado y KF, me pregunto: ¿cuáles son las desventajas del modelado de espacio de estado y el uso del filtro de Kalman (o EKF, UKF o filtro de partículas) para la estimación? Supongamos, por ejemplo, metodologías convencionales como ARIMA, VAR o métodos ad-hoc / heurísticos.

¿Son difíciles de calibrar? ¿Son complicados y difíciles de ver cómo un cambio en la estructura de un modelo afectará las predicciones?

O, dicho de otra manera, ¿cuáles son las ventajas de ARIMA, VAR convencional sobre los modelos de espacio de estado?

Solo puedo pensar en las ventajas de un modelo de espacio de estado:

  1. Maneja fácilmente las interrupciones estructurales, los cambios, los parámetros que varían en el tiempo de algunos modelos estáticos; solo haga que esos parámetros sean estados dinámicos de un modelo de espacio de estado y el modelo se ajustará automáticamente a cualquier cambio en los parámetros;
  2. Maneja los datos faltantes de forma muy natural, solo realice el paso de transición de KF y no el paso de actualización;
  3. Permite cambiar los parámetros sobre la marcha de un modelo de espacio de estado en sí mismo (covarianzas de ruidos y matrices de transición / observación), por lo que si su observación actual proviene de una fuente un poco diferente que otras, puede incorporarla fácilmente en la estimación sin hacer algo especial;
  4. El uso de las propiedades anteriores permite manejar fácilmente los datos con espacios irregulares: cambiar un modelo cada vez según el intervalo entre observaciones o usar el intervalo regular y tratar los intervalos sin observaciones como datos faltantes;
  5. Permite utilizar datos de diferentes fuentes simultáneamente en el mismo modelo para estimar una cantidad subyacente;
  6. Permite construir un modelo a partir de varios componentes dinámicos no observables interpretables y estimarlos;
  7. Cualquier modelo ARIMA puede representarse en forma de espacio de estado, pero solo los modelos simples de espacio de estado pueden representarse exactamente en forma de ARIMA.

1
Algunas ventajas adicionales, como se señaló en su primer punto, pueden incorporar fácilmente cambios de nivel múltiples y valores atípicos. En mi experiencia, las rupturas estructurales pueden identificarse fácilmente con el espacio de estado que ARIMA. También puede incorporar fácilmente efectos no lineales de variables exógenas. No requiere que los datos de la serie temporal sean estacionarios, lo cual es un gran +.
pronosticador

2
Bueno, tomaré modelos de espacio estatal sobre ARIMA en cualquier momento. Se me ocurren dos desventajas (más o menos): a) el modelo de espacio de estado correspondiente de un modelo ARIMA tiene muchos ceros innecesarios en las matrices de diseño. Se puede argumentar que ARIMA es más compacto. b) existen modelos no lineales / no gaussianos que rara vez tienen formas analíticas que a veces se pueden describir en forma similar a ARIMA, pero serán difíciles en el espacio de estado tradicional.
Cagdas Ozgenc

2
@Kochede Durbin y Koopman tampoco parecen pensar en muchas desventajas: mencionaron dos en la parte inferior de la página 52 en su fantástico libro de texto . Y diría que estas desventajas ya no son necesariamente ciertas.

2
Unas cuantas preguntas . ¿Identifica claramente los cambios de tendencia en el tiempo e informa los puntos en el tiempo donde cambia la tendencia? ¿Distingue entre cambios de parámetros y cambios de varianza de error e informa sobre esto? ¿Detecta e informa sobre efectos específicos de adelanto y retraso en torno a predictores especificados por el usuario? ¿Se puede especificar el número mínimo de valores en un grupo antes de que se declare un cambio de nivel / tendencia de hora local? ¿Distingue entre la necesidad de transformaciones de potencia y los puntos deterministas en el tiempo donde cambia la varianza del error? Los modelos ARMAX hablan de todas estas consideraciones.
IrishStat

1
Para completar, una desventaja en algunas circunstancias es que tienes que explicarlas. Eso depende de tu audiencia. Estoy feliz si alguien quiere descartar esto como algo que es, o debería ser, irrelevante para elegir una técnica.
Nick Cox

Respuestas:


25

Aquí hay una lista preliminar de desventajas que pude extraer de sus comentarios. ¡Las críticas y adiciones son bienvenidas!

En general, en comparación con ARIMA, los modelos de espacio de estado le permiten modelar procesos más complejos, tener una estructura interpretable y manejar fácilmente las irregularidades de los datos; pero por esto paga con una mayor complejidad de un modelo, una calibración más difícil y menos conocimiento de la comunidad.

  1. ARIMA es un aproximador universal: no le importa cuál es el verdadero modelo detrás de sus datos y utiliza herramientas de diagnóstico y ajuste universales de ARIMA para aproximar este modelo. Es como un ajuste de curva polinomial: no le importa cuál es la función verdadera, siempre puede aproximarla con un polinomio de algún grado.
  2. Modelos de espacio de estado, naturalmente, requieren que se rebaja alguna modelo razonable para su proceso (lo cual es bueno - que utiliza su conocimiento previo de su proceso para mejorar las estimaciones). Por supuesto, si no tiene idea de su proceso, siempre puede usar algún modelo universal de espacio de estado también, por ejemplo, representar ARIMA en una forma de espacio de estado. Pero entonces ARIMA en su forma original tiene una formulación más parsimoniosa, sin introducir estados ocultos innecesarios.
  3. Debido a que existe una gran variedad de formulaciones de modelos de espacio de estado (mucho más rica que la clase de modelos ARIMA), el comportamiento de todos estos modelos potenciales no está bien estudiado y si el modelo que formuló es complicado, es difícil decir cómo se comportará bajo diferentes circunstancias Por supuesto, si su modelo de espacio de estado es simple o está compuesto de componentes interpretables, no existe tal problema. Pero ARIMA es siempre el mismo ARIMA bien estudiado, por lo que debería ser más fácil anticipar su comportamiento incluso si lo usa para aproximar algún proceso complejo.
  4. Debido a que el espacio de estado le permite modelar directa y exactamente modelos complejos / no lineales, entonces para estos modelos complejos / no lineales puede tener problemas con la estabilidad del filtrado / predicción (divergencia EKF / UKF, degradación del filtro de partículas). También puede tener problemas para calibrar los parámetros del modelo complicado: es un problema de optimización computacionalmente difícil. ARIMA es simple, tiene menos parámetros (1 fuente de ruido en lugar de 2 fuentes de ruido, sin variables ocultas), por lo que su calibración es más simple.
  5. Para el espacio de estado hay menos conocimiento comunitario y software en la comunidad estadística que para ARIMA.

1
¿Conoce alguna aplicación industrial / de ejemplo en tiempo real en la que un filtro de Kalman funcione mejor que un promedio móvil simple o una suavización exp en la predicción de una serie de tiempo, siempre que no exista un modelo subyacente claro (por lo tanto, excluya los modelos derivados de las leyes de la física)? ? En la mayoría de los trabajos, el desempeño es muy similar (y los trabajos académicos tienen un sesgo de desempeño positivo para modelos nuevos, originales y complejos). En la mayoría de los casos no se tiene conocimiento de un modelo lineal adecuado estado del sistema y covarianzas, etc, necesarios para especificar un filtro Klaman ...
Mannaggia

Esto es verdad. Todavía tengo un ejemplo en mi práctica. Cuando tiene algún modelo de propósito general (como la regresión lineal), puede hacer que sus parámetros sean estados de Kalman Filter y estimarlos dinámicamente. Por supuesto, también puede volver a ajustar su modelo en cada paso de tiempo, pero esto es mucho más costoso desde el punto de vista computacional que una sola actualización de KF. Si en realidad los parámetros varían con el tiempo o si su modelo no coincide exactamente con el proceso real, esto puede ayudarlo a adaptarse mejor a su modelo y mejorar su rendimiento.
Kochede

1
No puedo encontrar ninguna referencia para que ARIMA sea un aproximador universal universal que no sea su publicación. ¿Podrías señalarme uno?
Skander H.

2
@Alex Esto se desprende del teorema de descomposición de Wold, por ejemplo, vea aquí phdeconomics.sssup.it/documents/Lesson11.pdf
Kochede

1
¿Puedo decir que el modelo de espacio de estado tiene una forma más general y ARIMA solo cubre un subconjunto?
Vickyyy

3

Gracias @IrishStat por varias preguntas muy buenas en los comentarios, la respuesta a tus preguntas es demasiado larga para publicarla como comentario, así que la publico como respuesta (desafortunadamente, no a la pregunta original del tema).

Las preguntas fueron: " ¿Identifica claramente los cambios de tendencia en el tiempo e informa los puntos en el tiempo en que cambia la tendencia? ¿Distingue entre cambios de parámetros y cambios de varianza de error e informa sobre esto? ¿Detecta e informa sobre los efectos específicos de adelanto y retraso alrededor del usuario? predictores especificados? ¿Se puede especificar el número mínimo de valores en un grupo antes de que se declare un cambio de nivel / tendencia de hora local? ¿Distingue entre la necesidad de transformaciones de potencia y los puntos deterministas en el tiempo donde cambia la varianza del error? "

  1. Identifique los cambios de tendencia: sí, lo más natural es que puede hacer que la pendiente de tendencia sea una de las variables de estado y KF calculará continuamente la pendiente actual. Luego puede decidir qué cambio de pendiente es lo suficientemente grande para usted. Alternativamente, si la pendiente no varía en el tiempo en su modelo de espacio de estado, puede probar los residuos durante el filtrado de una manera estándar para ver cuándo hay alguna ruptura de su modelo.
  2. Distinga entre cambios de parámetros y cambios de varianza de error: sí, la varianza puede ser uno de los parámetros (estados), entonces qué parámetro probablemente haya cambiado depende de la probabilidad de su modelo y de cómo han cambiado particularmente los datos.
  3. Detecte relaciones de plomo / retraso: no estoy seguro de esto, ciertamente puede incluir cualquier vars rezagado en un modelo de espacio de estado; para la selección de retrasos, puede probar los residuos de modelos con diferentes retrasos incluidos o, en un caso simple, simplemente usar un correlograma cruzado antes de formular un modelo.
  4. Especifique el número de umbral de observaciones para decidir el cambio de tendencia: sí, como en 1) porque el filtrado se realiza de forma recursiva, no solo puede cambiar el cambio de pendiente del umbral que es lo suficientemente grande para usted, sino también el número de observaciones para la confianza. Pero mejor: KF produce no solo una estimación de la pendiente, sino también bandas de confianza para esta estimación, por lo que puede decidir que la pendiente cambió significativamente cuando su límite de confianza pasó algún umbral.
  5. Distinga entre la necesidad de una transformación de potencia y la necesidad de una mayor varianza; no estoy seguro de entender lo correcto, pero creo que puede probar los residuos durante el filtrado para ver si aún son normales con una varianza mayor o si tienen alguna distorsión, por lo que debe cambiar tu modelo Mejor: puede convertirlo en un estado de cambio binario de su modelo, luego KF lo estimará automáticamente en función de la probabilidad. En este caso, el modelo no será lineal, por lo que necesitará UKF para realizar el filtrado.

1

El filtro de Kalman es el estimador cuadrático lineal óptimo cuando la dinámica de estado y los errores de medición siguen los supuestos supuestos lineales de Gauss ( http://wp.me/p491t5-PS ). Entonces, mientras conozca sus modelos de dinámica y medición y sigan los supuestos lineales de Gauss, no hay mejor estimador en la clase de estimadores cuadráticos lineales. Sin embargo, los razonadores más comunes para las aplicaciones de filtro de Kalman "fallidas" son:

  1. Conocimiento impreciso / incorrecto de la dinámica del estado y los modelos de medición.

  2. Inicialización inexacta del filtro (que proporciona una estimación del estado inicial y una covarianza que es inconsistente con el estado real del sistema). Esto se supera fácilmente utilizando un procedimiento de inicialización de mínimos cuadrados ponderados (WLS).

  3. Incorporación de medidas que son "valores atípicos" estadísticos con respecto al modelo de dinámica del sistema. Esto puede hacer que la ganancia de Kalman tenga elementos negativos, lo que puede conducir a una matriz de covarianza semi-definida no positiva después de la actualización. Esto puede evitarse utilizando algoritmos de "activación", como la activación elipsoidal, para validar la medición antes de actualizar el filtro de Kalman con esa medición.

Estos son algunos de los errores / problemas más comunes que he visto trabajando con el filtro de Kalman. De lo contrario, si los supuestos de sus modelos son válidos, el filtro de Kalman es un estimador óptimo.


1

Puede consultar el excelente libro de predicción bayesiana y modelos dinámicos (Harrison y West, 1997). Los autores muestran que casi todos los modelos tradicionales de series temporales son casos particulares del modelo dinámico general. También enfatizan las ventajas. Quizás una de las principales ventajas es la facilidad con la que puede integrar muchos modelos de espacio de estado simplemente aumentando el vector de estado. Puede, por ejemplo, integrar sin problemas regresores, factores estacionales y un componente autorregresivo en un solo modelo.


Hola, ¿puedes dar más detalles sobre "Puedes, por ejemplo, integrar sin problemas regresores, factores estacionales y un componente autorregresivo en un solo modelo"? Corríjame si me equivoco, ¿eso significa que para ARIMA necesita que las series temporales sean estacionarias, pero para el modelo de espacio de estado solo necesita ajustar el número de variables de estado?
Vickyyy

@Vickyyy A diferencia de ARIMA, los modelos de espacio de estado no asumen estacionariedad. Puede agregarle muchos componentes y representarlos en un solo vector de estado.
Anselmo

1

Añadiría que si usa directamente una función de espacio de estado, probablemente tendrá que comprender las diversas matrices que componen un modelo y cómo interactúan y funcionan. Es mucho más como definir un programa que definir un modelo ARIMA. Si está trabajando con un modelo dinámico de espacio de estado, se vuelve aún más complicado.

Si usa un paquete de software que tiene una función de espacio de estado realmente agradable, es posible que pueda evitar algo de esto, pero la gran mayoría de tales funciones en los paquetes R requieren que salte a los detalles en algún momento.

En mi opinión, se parece mucho a las estadísticas bayesianas en general, cuya maquinaria requiere más comprensión, cuidado y alimentación que las funciones más frecuentes.

En ambos casos, vale la pena los detalles / conocimientos adicionales, pero podría ser una barrera para la adopción.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.