Series temporales multivariantes en R. Cómo encontrar correlaciones rezagadas y construir modelos para pronósticos

Soy nuevo en la página y bastante nuevo en estadísticas y R. Estoy trabajando en un proyecto para la universidad con el objetivo de encontrar la correlación entre la lluvia y el nivel de flujo de agua en los ríos. Una vez que se prueba la correlación, quiero pronosticarla / predecirla.

Los datos que tengo un conjunto de datos de varios años (tomados cada 5 minutos) para un río en particular que contiene:

Precipitaciones en milímetros
Flujo del río en metros cúbicos por segundo.

Este río no tiene nieve, por lo que el modelo se basa solo en la lluvia y el tiempo. Ocasionalmente hay temperaturas de congelación, pero estoy pensando en eliminar esos períodos de los datos tan atípicos como esa situación está fuera del alcance de mi proyecto.

Ejemplos Aquí tiene un par de parcelas de datos de muestra de la lluvia y el aumento del agua unas horas más tarde.

Ejemplo más grande unos días

Ejemplo más corto solo un período de lluvia

La línea roja es el flujo del río. La naranja es la lluvia. Puedes ver que siempre llueve antes de que suba el agua en el río. Hay una lluvia que comienza nuevamente al final de la serie temporal, pero afectará el flujo del río más adelante.

La correlación está ahí. Esto es lo que he hecho en R para probar la correlación usando ccf en R:

la correlación cruzada
la variable principal
el retraso

Esta es mi línea R utilizada para el segundo ejemplo (un período de lluvia):

ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain")

resultado de ccf para el pequeño ejemplo 2

Mi interpretación es:

que la lluvia conduce (ocurre primero),
$\approx 450$
$\approx 450$ $\approx 800$ ccf

Estoy en lo cierto?

Sobre la serie de tiempo . Esta serie de tiempo no tiene periodicidad o estacionalidad. La lluvia puede llegar en cualquier momento y causar un efecto. Se reduce en verano, pero aún sucede, es un área con mucha lluvia durante todo el año.

Modelo y previsión. No sé cómo crear un modelo para poder hacer un pronóstico que me diga cuánto aumentará el volumen de un río después de un período de lluvia. He estado probando algunos arima, auto arimapero no he tenido mucho éxito. ¿Debo usar Arima, varsu otro modelo multivariado diferente? Cualquier enlace a un ejemplo sería de gran ayuda.

Por favor, avíseme si conoce la mejor manera de crear esta predicción, qué modelo debo usar. Hay algunas otras cosas que estoy considerando hacer, pero las saqué de esta explicación por simplicidad. Puedo compartir algunos datos si es necesario.

— Fernando Ayuso
fuente

que busca el análisis de la intervención (subgrupo se llama "estudio de eventos" en los estudios sociales)

— Konstantinos

Debe usar sus comportamientos ACF y PACF para ayudarlo a determinar qué modelo se adapta mejor a sus datos (por ejemplo, la existencia de una disminución lenta en el gráfico ACF indica que podría ser necesaria la diferenciación para estabilizar la serie. Su gráfico ACF obviamente muestra que algún tipo se necesita una transformación. La fluctuación tiene que ser menos variada y dentro de las líneas azules si usa la transformación correcta (serie estacionaria). Una vez que haya hecho estacionaria su serie, piense qué modelo AR, MA, ARMA o ARIMA es apropiado. En mi proyecto hice lo siguiente para ayudar en la selección del modelo:

El gráfico ACF muestra un valor relativamente grande en el retraso 2 ( vea dónde está en su gráfico ). Aparte de eso, se vuelve esencialmente cero en rezagos mayores que dos. Esto sugiere que un modelo MA (2) puede ajustarse a los datos y luego al observar el gráfico PACF notamos de inmediato que la correlación es cero casi en todos los rezagos. Esto puede sugerir que el modelo no tiene ninguna parte AR ( ajuste esto a su gráfica)) Por lo tanto, uno de nuestros modelos candidatos podría ser un ARIMA (p, d, q) con parámetros p = 0, d = 1 y q = 1 o 2. También probé algunos pedidos superiores de MA y consideré alguna posibilidad de tener una parte de AR en el modelo para comparar los resultados de AIC, AICc y BIC y decidir sobre el modelo final. El siguiente paso deberá ejecutar algunas pruebas de diagnóstico para asegurarse de que ha elegido el modelo correcto y no hay un patrón en sus residuos (ACF y PACF para residuos, valor p para estadística Ljung-Box, histyograma para residuos y QQ plot). ¡Espero eso ayude!

— soshelp
fuente