Estoy interesado en la selección de modelos en una configuración de series de tiempo. Para concreción, supongamos que quiero seleccionar un modelo ARMA de un grupo de modelos ARMA con diferentes órdenes de retraso. La intención final es pronosticar .
La selección del modelo puede hacerse por
- validación cruzada,
- uso de criterios de información (AIC, BIC),
entre otros métodos
Rob J. Hyndman proporciona una forma de hacer validación cruzada para series de tiempo . Para muestras relativamente pequeñas, el tamaño de muestra utilizado en la validación cruzada puede ser cualitativamente diferente del tamaño de muestra original. Por ejemplo, si el tamaño de la muestra original es de 200 observaciones, se podría pensar en comenzar la validación cruzada tomando las primeras 101 observaciones y expandiendo la ventana a 102, 103, ..., 200 observaciones para obtener 100 resultados de validación cruzada. Claramente, un modelo razonablemente parsimonioso para 200 observaciones puede ser demasiado grande para 100 observaciones y, por lo tanto, su error de validación será grande. Por lo tanto, es probable que la validación cruzada favorezca sistemáticamente modelos demasiado parsimoniosos. Este es un efecto indeseable debido a la falta de coincidencia en los tamaños de muestra .
Una alternativa a la validación cruzada es utilizar criterios de información para la selección del modelo. Como me preocupan los pronósticos, usaría AIC. A pesar de que AIC es asintóticamente equivalente a minimizar el MSE de pronóstico de un solo paso fuera de la muestra para modelos de series de tiempo (según esta publicación de Rob J. Hyndman), dudo que esto sea relevante aquí ya que la muestra los tamaños que me importan no son tan grandes ...
Pregunta: ¿ debería elegir AIC en lugar de la validación cruzada de series temporales para muestras pequeñas / medianas?
Algunas preguntas relacionadas se pueden encontrar aquí , aquí y aquí .