¿Cómo comparar estadísticamente dos series de tiempo?

44

Tengo dos series de tiempo, que se muestran en la trama a continuación:

Diagrama de series de tiempo

El gráfico muestra el detalle completo de ambas series de tiempo, pero puedo reducirlo fácilmente a las observaciones coincidentes si es necesario.

Mi pregunta es: ¿Qué métodos estadísticos puedo usar para evaluar las diferencias entre las series de tiempo?

Sé que esta es una pregunta bastante amplia y vaga, pero parece que no puedo encontrar mucho material introductorio sobre esto en ningún lado. Como puedo ver, hay dos cosas distintas para evaluar:

1. ¿Son iguales los valores?

2. ¿Son iguales las tendencias?

¿Qué tipo de pruebas estadísticas sugeriría mirar para evaluar estas preguntas? Para la pregunta 1, obviamente, puedo evaluar los medios de los diferentes conjuntos de datos y buscar diferencias significativas en las distribuciones, pero ¿hay alguna forma de hacerlo que tenga en cuenta la naturaleza de la serie temporal de los datos?

Para la pregunta 2: ¿hay algo como las pruebas de Mann-Kendall que busquen la similitud entre dos tendencias? Podría hacer la prueba de Mann-Kendall para ambos conjuntos de datos y comparar, pero no sé si esa es una forma válida de hacer las cosas, o si hay una mejor manera.

Estoy haciendo todo esto en R, así que si las pruebas que sugieres tienen un paquete R, házmelo saber.

r time-series

— robintw
fuente

99

La trama parece oscurecer lo que puede ser una diferencia crucial entre estas series: se pueden muestrear a diferentes frecuencias. La línea negra (Aeronet) parece muestrearse solo unas 20 veces y la línea roja (Visibilidad) cientos de veces o más. Otro factor crítico puede ser la regularidad del muestreo, o la falta del mismo: los tiempos entre las observaciones de Aeronet parecen variar un poco. En general, ayuda a borrar las líneas de conexión y mostrar solo los puntos correspondientes a los datos reales, para que el espectador pueda determinar estas cosas visualmente.

— whuber

Aquí hay una biblioteca de Python para análisis de series de tiempo desigualmente espaciadas.

— kjetil b halvorsen

28

Como han dicho otros, debe tener una frecuencia común de medición (es decir, el tiempo entre observaciones). Con eso en su lugar, identificaría un modelo común que describiría razonablemente cada serie por separado. Esto podría ser un modelo ARIMA o un modelo de regresión de múltiples tendencias con posibles cambios de nivel o un modelo compuesto que integra tanto memoria (ARIMA) como variables ficticias. Este modelo común podría estimarse globalmente y por separado para cada una de las dos series y luego uno podría construir una prueba F para probar la hipótesis de un conjunto común de parámetros.

— IrishStat
fuente

1

Bueno, realmente no necesitas tener la misma frecuencia para ambas series. Es tan sencillo que hay poco software para otros casos, pero vea traces.readthedocs.io/en/latest . Parece que se publica mucho sobre otros casos en revistas de astronomía y en finanzas y geofísica ... ver referencias en es.wikipedia.org/wiki/Unevenly_spaced_time_series

— kjetil b halvorsen

12

Considere el grangertest()en la biblioteca más pequeña .

Es una prueba para ver si una serie de tiempo es útil para pronosticar otra.

Un par de referencias para comenzar:

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/

https://spia.uga.edu/faculty_pages/monogan/teaching/ts/Kgranger.pdf

http://en.wikipedia.org/wiki/Granger_causality

— fionn
fuente

1

Su tamaño de muestra sería demasiado pequeño con <10 puntos de datos en comparación con la cantidad de parámetros que necesita para ajustar en Granger.

— Jase

1

@fionn, los enlaces en tu respuesta están muertos. ¿Puedes actualizar tu respuesta?

— Davor Josipovic el

0

Acabo de encontrar esto. Su primera respuesta nos traza g los dos conjuntos de la misma escala (en el tiempo) para ver las diferencias visualmente. Has hecho esto y puedes ver fácilmente que hay algunas diferencias evidentes. El siguiente paso es usar un análisis de correlación simple ... y ver qué tan bien están relacionados usando el coeficiente de correlación (r). Si la r es pequeña, su conclusión sería que están débilmente relacionadas y, por lo tanto, no hay comparaciones deseables y un valor mayor si r sugeriría buenas comparaciones entre las dos series. El tercer paso donde hay una buena correlación es probar la significación estadística de la r. Aquí puede utilizar la prueba de Shapiro Welch, que supondría que las dos series se distribuyen normalmente (hipótesis nula) o no (hipótesis alternativa). Hay otras pruebas que puedes hacer, pero déjame esperar que mi respuesta ayude.

— Ricardo
fuente

1

Al comparar series temporales, se trata de autocorrelación y, posiblemente, de modelos de series temporales ajustados. como los modelos ARIMA que pueden ayudar a determinar qué tan similares son. Dos realizaciones del mismo proceso estocástico no necesariamente se ven iguales al trazarlas.

— Michael Chernick

-2

Ajuste una línea recta a ambas señales de series de tiempo usando polyfit. Luego calcule el error cuadrático medio (RMSE) para ambas líneas. El valor obtenido para la línea roja sería bastante menor que el obtenido para la línea gris.

También haga las lecturas en alguna frecuencia común.

— M. Ejaz Ahmed
fuente

2

¡Bienvenido a Cross Validated y gracias por tu primera respuesta! Sin embargo, me preocupa que no esté respondiendo la pregunta directamente: ¿cómo exactamente el enfoque propuesto ayudaría al solicitante a evaluar si los valores y / o tendencias son similares?

— Martin Modrák