Varios modelos ARIMA se ajustan bien a los datos. ¿Cómo determinar el orden? Enfoque correcto?

Tengo dos series de tiempo (parámetros de un modelo para hombres y mujeres) y mi objetivo es identificar un modelo ARIMA apropiado para hacer pronósticos. Mi serie de tiempo se ve así:

ingrese la descripción de la imagen aquí

El gráfico y el ACF muestran no estacionario (los picos del ACF se cortan muy lentamente). Por lo tanto, uso la diferenciación y obtengo:

ingrese la descripción de la imagen aquí

Este gráfico indica que la serie ahora podría ser estacionaria y la aplicación de la prueba kpss y la prueba adf respaldan esta hipótesis.

Comenzando con la serie Hombre, hacemos las siguientes observaciones:

Las autocorrelaciones empíricas en los Lags 1,4,5,26 y 27 son significativamente diferentes de cero.
El ACF se corta (?), Pero estoy preocupado por los picos relativamente grandes en los rezagos 26 y 27.
Solo las autocorrelaciones parciales empíricas en los Lags 1 y 2 son significativamente diferentes de cero.

Solo por estas observaciones, si tuviera que elegir un modelo AR o MA puro para la serie de tiempo diferenciada, tendería a elegir un modelo AR (2) argumentando que:

No tenemos autocorrelaciones parciales significativas para el retraso mayor de 2
El ACF se corta, excepto para la región alrededor del retraso 27. (¿Son estos pocos valores atípicos solos un indicador de que un modelo ARMA mixto sería apropiado?)

o un modelo MA (1) argumentando que:

El PACF claramente corta
Tenemos para retrasos mayores 1 solo 4 picos que exceden el valor crítico en magnitud. Esto es "solo" uno más que los 3 picos (95% de 60) que se les permitiría estar fuera del área punteada.

No hay características de un modelo ARIMA (1,1,1) y elegir órdenes de p y q de un modelo ARIMA por ACF y PACF para p + q> 2 es difícil.

El uso de auto.arima () con el criterio AIC (¿Debo usar AIC o AICC?) Da:

ARIMA (2,1,1) con Deriva; AIC = 280.2783
ARIMA (0,1,1) con Deriva; AIC = 280.2784
ARIMA (2,1,0) con Deriva; AIC = 281.437

Los tres modelos considerados muestran residuos de ruido blanco:

ingrese la descripción de la imagen aquí

Mis preguntas resumidas son:

¿Todavía puede describir el ACF de la serie temporal como un corte a pesar de los picos alrededor del retraso 26?
¿Son estos valores atípicos un indicador de que un modelo ARMA mixto podría ser más apropiado?
¿Qué criterio de información debo elegir? AIC? AICC?
Todos los residuos de los tres modelos con el AIC más alto muestran un comportamiento de ruido blanco, pero la diferencia en el AIC es muy pequeña. ¿Debo usar el que tenga la menor cantidad de parámetros, es decir, un ARIMA (0,1,1)?
¿Es mi argumentación en general plausible?
¿Son sus posibilidades adicionales para determinar qué modelo podría ser mejor o debería, por ejemplo, los dos con el AIC más alto y realizar backtests para probar la plausibilidad de los pronósticos?

EDITAR: Aquí están mis datos:

-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370  0.5826312749  0.3869227286  0.6268379174  0.7439125292 0.7641139207  0.7613140511  3.0143912244 -0.7339255839  2.0109976796 0.8282394650 -2.5668367983  5.9826406394  1.9569198553  2.3860893476 2.0883339390  1.9761894580  2.2601997245  2.2464027995  2.5131158613 3.4564765529  4.2307335557  4.0298688374  3.7626317439  3.1026407174 2.1690168737  1.5617407254  2.6790460788  0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523  0.5152074134  0.2362626753 -2.9978337017  1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990

— Stats_L
fuente

1) ¿Puede describir el ACF de la serie temporal como un corte a pesar de los picos alrededor del retraso 26?

26 y 27 me sugieren que los datos son semanalmente algún tipo de ciclo anual de orden 26 o 52

¿Son estos valores atípicos un indicador de que un modelo ARMA mixto podría ser más apropiado?

Si hay valores atípicos en la serie observada, el modelo ARIMA se convierte en un modelo de función de transferencia con entradas ficticias.

Los valores atípicos en acf / pacf generalmente no son interpretables. Rathe utiliza el acf / paf de un modelo tentativo sugerido por el acf / pacf abd dominante y luego ITERATE a un modelo más complejo.

¿Qué criterio de información debo elegir? AIC? AICC? Todos los residuos de los tres modelos con el AIC más alto muestran un comportamiento de ruido blanco, pero la diferencia en el AIC es muy pequeña. ¿Debo usar el que tenga la menor cantidad de parámetros, es decir, un ARIMA (0,1,1)?

Ninguno, ya que se basa en un conjunto de prueba de modelos asumidos.

¿Es mi argumentación en general plausible? Pregunta vaga ... incluso una respuesta más vaga.

¿Son sus posibilidades adicionales para determinar qué modelo podría ser mejor o debería, por ejemplo, los dos con el AIC más alto y realizar backtests para probar la plausibilidad de los pronósticos?

Simplemente ITERATE (¡lentamente!) A modelos más / menos complicados que incorporen tanto la estructura autorregresiva como la estructura determinística. Ver http://www.autobox.com/cms/index.php/blog/entry/build-or-make-your-own-arima-forecasting-mode para un diagrama de flujo lógico

EDITAR DESPUÉS DEL RECIBO DE DATOS:

Su comentario me engañó, usó la palabra retraso de 26 y entendí incorrectamente que estaba hablando sobre el acf pero estaba hablando sobre el punto de tiempo 26. Un conjunto de datos puede ser no estacionario de varias maneras. Si la media cambia, el remedio para esta no estacionariedad es el de-significado. En su caso, la no estacionariedad es causada por dos tendencias separadas y distintas y un aumento significativo en la varianza del error. Ambos hallazgos son fácilmente compatibles con el ojo. ingrese la descripción de la imagen aquí

Sus datos no tienen estacionariedad, pero el remedio para la no estacionariedad de sus datos en la media no es la diferencia sino la tendencia, ya que se encuentran dos tendencias (1-29 y 30-65) a través de la detección de intervención. Además, su varianza de error es no estacionaria y aumenta significativamente en el período 28 encontrado a través de la prueba de Tsay para la varianza de error no constante. Consulte esta referencia para ambos procedimientos http://www.unc.edu/~jbhill/tsay.pdf . Después de ajustar las dos tendencias y el cambio de varianza de error y algunos pulsos, se encontró que un modelo AR (1) simple era adecuado. Aquí está el gráfico de Actual / Fit / Forecast. La ecuación ingrese la descripción de la imagen aquí está aquí con los resultados de la estimación aquí . La prueba de cambio de varianza está aquí y la gráfica de los residuos del modelo está aquí. Usé AUTOBOX, un software que he ayudado a desarrollar para separar automáticamente la señal del ruido. Su conjunto de datos es el "chico del cartel" de por qué el modelado ARIMA simple no se usa ampliamente porque los métodos simples no funcionan en problemas complejos. Tenga en cuenta que el cambio en la varianza del error no se puede vincular al nivel de la serie de observaciones, por lo que las transformaciones de potencia, como los registros, no son relevantes, aunque los documentos publicados presentan modelos que utilizan esa estructura. Vea Log o transformación de raíz cuadrada para ARIMA para una discusión sobre cuándo tomar transformaciones de poder.

ingrese la descripción de la imagen aquí

— IrishStat
fuente

Muchas gracias por los útiles comentarios. Desafortunadamente, la serie temporal representa parámetros estimados de un modelo (mortalidad) para un rango de años. Por lo tanto, no creo que incluir componentes estacionales pueda resolver este problema. En cuanto a su punto de partida a partir de un modelo tentativo simple y luego iterarlo a un modelo más complejo: mirando el ACF y el PACF de los residuos del ARIMA (0,1,1), muestran un comportamiento WN. ¿Qué tipo de patrón extraño que resaltaría la necesidad de un modelo más complejo? Por cierto, acabo de agregar mis datos.

— Stats_L

Muchas gracias por su esfuerzo y comentarios. Curiosamente, los parámetros representan un efecto de cohorte de los modelos de mortalidad, que comúnmente se han modelado como un modelo simple ARIMA (p, d, q) en la literatura, ver por ejemplo pensions-institute.org/workingpapers/wp0801.pdf

— Stats_L

La palabra clave aquí es "simple". Los actuarios, aunque matemáticos talentosos, no son necesariamente lo último en análisis de series de tiempo. Un buen análisis presenta pruebas de significación y suficiencia que muestran pruebas de supuestos. Puede pasar estos resultados a los autores y obtener sus comentarios o al menos crédito por expandir su conciencia.

— IrishStat

Esto explicaría por qué la elección de un determinado modelo ARIMA (p, d, q) a menudo se basa solo en los valores de AIC (o al menos no se mencionan ni describen en detalle más exámenes). Si encuentra tiempo en los próximos días, me interesaría mucho su opinión sobre mi segunda serie de tiempo que tengo que pronosticar y si una caminata aleatoria con deriva podría ser apropiada. Se puede encontrar aquí: stats.stackexchange.com/questions/161571/…

— Stats_L