Buenas prácticas al hacer pronósticos de series de tiempo

He estado trabajando durante meses en el pronóstico de carga a corto plazo y el uso de datos climáticos / climáticos para mejorar la precisión. Tengo experiencia en informática y por esta razón estoy tratando de no cometer grandes errores y comparaciones injustas al trabajar con herramientas estadísticas como los modelos ARIMA. Me gustaría saber tu opinión sobre un par de cosas:

Estoy utilizando los modelos (S) ARIMA y (S) ARIMAX para investigar el efecto de los datos meteorológicos en el pronóstico, ¿cree que sería necesario utilizar también métodos de suavizado exponencial?
Con una serie temporal de 300 muestras diarias, comienzo desde las primeras dos semanas y realizo un pronóstico con 5 días de anticipación utilizando modelos construidos con la función auto.arima R (paquete de pronóstico). Luego, agrego otra muestra a mi conjunto de datos y calibro nuevamente los modelos y realizo otro pronóstico de 5 días y así sucesivamente hasta el final de los datos disponibles. ¿Crees que esta forma de operar es correcta?

Gracias por sus sugerencias, aunque el objetivo de nuestro trabajo es un artículo de revista de ingeniería, me gustaría hacer un trabajo lo más riguroso posible desde un punto de vista estadístico.

time-series forecasting arima

— Matteo De Felice
fuente

Esta pregunta parece estar estrechamente relacionada: stats.stackexchange.com/questions/16915/…

— whuber

Aquí hay una vieja respuesta stats.stackexchange.com/questions/6513/…

— bill_080

Creo que también valdría la pena explorar modelos de suavizado exponencial. Los modelos de suavizado exponencial son una clase de modelos fundamentalmente diferentes de los modelos ARIMA, y pueden producir resultados diferentes en sus datos.
Esto suena como un enfoque válido y es muy similar al método de validación cruzada de series temporales propuesto por Rob Hyndman .

Agregaría el error de validación cruzada de cada pronóstico (suavizado exponencial, ARIMA, ARMAX) y luego usaría el error general para comparar los 3 métodos.

Es posible que también desee considerar una "búsqueda de cuadrícula" para los parámetros de ARIMA, en lugar de usar auto.arima. En una búsqueda de cuadrícula, exploraría cada parámetro posible para un modelo de arima y luego seleccionaría los "mejores" utilizando la precisión del pronóstico.

— Zach
fuente

Gracias por la respuesta, estoy usando auto.arima con la búsqueda STEPWISE deshabilitada y creo que de esta manera explorará todos los parámetros entre el rango min-max (todavía no he leído el documento de Hyndman y Kandahar 2008)

— Matteo De Felice

@Matteo De Felice: la cuestión es que está optimizando esos parámetros basados en AIC. Estaba sugiriendo que podría valer la pena optimizar esos parámetros por su rendimiento fuera de la muestra, que podría evaluar mediante validación cruzada. Además, si desea comparar otros modelos (como ETS), necesitará una métrica de rendimiento fuera de la muestra, ya que no puede comparar AIC entre diferentes tipos de modelos (como auto.arima y ets).

— Zach

en este momento realicé una búsqueda en la cuadrícula (usando auto.arima con stepwise = FALSE) y luego probé los modelos más frecuentes para evaluar sus rendimientos.

— Matteo De Felice

@Matteo De Felice: Si tiene problemas para implementar la validación cruzada de series temporales, esta publicación de blog podría ayudar: robjhyndman.com/researchtips/tscvexample

— Zach

Cabe señalar que los modelos ARIMA y ETS no son fundamentalmente diferentes. De hecho, los modelos de suavizado exponencial lineal son casos especiales de los modelos ARIMA. Ver aquí: otexts.org/fpp/8/10 .

— Verruga