AIC se recomienda con frecuencia como criterio para comparar modelos para pronósticos de series de tiempo. Vea, por ejemplo, esto en el contexto de los modelos de regresión dinámica :
El AIC se puede calcular para el modelo final, y este valor se puede usar para determinar los mejores predictores. Es decir, el procedimiento debe repetirse para todos los subconjuntos de predictores a considerar, y el modelo con el valor AICc más bajo seleccionado.
¿Por qué no comparar los modelos en función de su rendimiento fuera de muestra? (por ejemplo, elija el modelo con el SSE más bajo en el pronóstico fuera de muestra). He estado leyendo varios libros de texto y sitios web sobre pronósticos de series de tiempo y no he encontrado esta discusión. Lo más cerca que llegué fue esta entrada de blog sobre los hechos y las falacias de la AIC :
El AIC no es realmente una medida "en muestra". Sí, se calcula utilizando los datos de entrenamiento. Pero asintóticamente, minimizar el AIC es equivalente a minimizar el MSE de validación cruzada de dejar uno fuera para datos de sección transversal, y equivalente a minimizar el MSE de pronóstico de un solo paso fuera de la muestra para modelos de series de tiempo. Esta propiedad es lo que lo convierte en un criterio tan atractivo para usar en la selección de modelos para pronósticos.
En un ejemplo que he estado trabajando (sin embargo, no pude publicar las parcelas aquí; necesito más reputación en este sitio), probé ambos enfoques y la mayoría de las veces AIC y SSE fuera de la muestra no producen lo mismo resultado. El procedimiento que utilicé fue el siguiente:
- Dividí los datos en muestras de entrenamiento y prueba (en un punto arbitrario; una pregunta sobre esto a continuación)
- Estimé modelos competidores (ARIMA con regresores externos, cambiando los parámetros ARIMA y los regresores) usando la muestra de entrenamiento (primeros 230 períodos; todos los modelos tienen el mismo número de observaciones, por lo que AIC es comparable).
- Luego, pronostiqué la serie para los mismos períodos que la muestra de prueba (períodos 231-260).
- Para cada modelo, SSE simple como donde es el valor observado de la serie (muestra de prueba) y es el valor pronosticado por el modelo.
- Comparé el modelo indicado por AIC (calculado usando datos de entrenamiento) con el modelo con el SSE fuera de muestra más bajo. La mayoría de las veces los modelos seleccionados son diferentes (y al menos visualmente, los seleccionados por SSE funcionan mejor).
Si alguien pudiera explicarme lo que está sucediendo detrás de esto, estaría muy agradecido. Claramente no soy un experto en esto. Solo estoy tratando de enseñarme un poco, así que discúlpeme si pasé por alto algo importante en los libros de texto que he estado leyendo.
Finalmente, una pregunta sobre la división de los datos en muestras de entrenamiento y prueba para series de tiempo. Me parece que hay algo fundamentalmente diferente que usar el mismo procedimiento para datos de sección transversal. Para datos de sección transversal, puede tomar dos muestras aleatorias de todo su conjunto de datos. Para series temporales esto no tiene mucho sentido. Por lo tanto, debe tomar un punto arbitrario para dividir la serie en muestras de entrenamiento y prueba. La cuestión es que, por lo general, el mejor modelo es diferente para cada punto arbitrario. Quizás es por eso que este enfoque no parece ser utilizado con frecuencia. ¿Es esta la razón por la cual se prefiere AIC para la selección del modelo? (Dado que "asintóticamente, minimizar el AIC es ... equivalente a minimizar el MSE de pronóstico de un paso fuera de la muestra para modelos de series de tiempo").