Cómo usar la correlación de Pearson correctamente con series de tiempo

Tengo 2 series temporales (ambas suaves) que me gustaría hacer una correlación cruzada para ver qué tan correlacionadas están.

Tengo la intención de utilizar el coeficiente de correlación de Pearson. ¿Es esto apropiado?

Mi segunda pregunta es que puedo elegir probar las 2 series de tiempo tan bien como quiera. es decir, puedo elegir cuántos puntos de datos usaré. ¿Afectará esto el coeficiente de correlación que se emite? ¿Necesito dar cuenta de esto?

Con fines ilustrativos

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

— usuario1551817
fuente

¿Cuál es la naturaleza de las series de tiempo? ¿Son al azar caminar? ¿Estacionario? Serie económica?

— Aksakal

La correlación de Pearson se usa para observar la correlación entre series ... pero al ser series temporales, la correlación se analiza en diferentes rezagos: la función de correlación cruzada .

La correlación cruzada se ve afectada por la dependencia dentro de la serie, por lo que en muchos casos la dependencia dentro de la serie debe eliminarse primero. Entonces, para usar esta correlación, en lugar de suavizar la serie, en realidad es más común (porque es significativo) observar la dependencia entre los residuos, la parte aproximada que queda después de encontrar un modelo adecuado para las variables.

Probablemente quiera comenzar con algunos recursos básicos sobre modelos de series de tiempo antes de profundizar en tratar de averiguar si una correlación de Pearson entre (presumiblemente) series suavizadas no estacionarias es interpretable.

En particular, es probable que desee ver el fenómeno aquí . [En series de tiempo, esto a veces se denomina correlación espuria , aunque el artículo de Wikipedia sobre correlación espuria tiene una visión estrecha sobre el uso del término de una manera que parece excluir este uso del término. Probablemente encontrará más sobre los temas discutidos aquí al buscar regresión espuria en su lugar.]

[Editar - el paisaje de Wikipedia sigue cambiando; el párrafo anterior probablemente debería revisarse para reflejar lo que hay ahora.]

por ejemplo, ver algunas discusiones

http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la cita de apertura de Yule, en un documento presentado en 1925 pero publicado al año siguiente, resume el problema bastante bien)
Christos Agiakloglou y Apostolos Tsimpanos, Correlaciones espurias para procesos AR estacionarios (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (esto muestra que incluso puede obtener el problema entre series estacionarias; de ahí la tendencia a preblanquear)
La referencia clásica de Yule, (1926) [1] mencionada anteriormente.

También puede encontrar útil la discusión aquí , así como la discusión aquí

Usar la correlación de Pearson de manera significativa entre series de tiempo es difícil y a veces sorprendentemente sutil.

Busqué una correlación espuria, pero no me importa si mi serie A es la causa de mi serie B o viceversa. Solo quiero saber si puedes aprender algo sobre la serie A mirando qué está haciendo la serie B (o viceversa). En otras palabras, ¿tienen una correlación?

Tome nota de mi comentario anterior sobre el uso limitado del término correlación espuria en el artículo de Wikipedia.

El punto sobre la correlación espuria es que las series pueden parecer correlacionadas, pero la correlación en sí misma no es significativa. Considere dos personas lanzando dos monedas distintas contando el número de caras hasta ahora menos el número de colas hasta el valor de su serie.

(Entonces, si la persona 1 arroja tiene 3-1 = 2 para el valor en el cuarto paso de tiempo, y su serie va ) $\text{HTHH...}$ $1, 0, 1, 2,...$

Obviamente no hay conexión alguna entre las dos series. ¡Claramente, ninguno puede decirte lo primero sobre el otro!

Pero mira el tipo de correlaciones que obtienes entre pares de monedas:

ingrese la descripción de la imagen aquí

Si no te dijera cuáles fueron, y tomaste un par de esas series por sí mismas, ¿serían correlaciones impresionantes?

Pero no tienen sentido . Completamente espurio. Ninguno de los tres pares está realmente más relacionado positiva o negativamente entre sí que cualquiera de los otros, es solo ruido acumulado . La espuria no se trata solo de predicción, la noción completa de considerar la asociación entre series sin tener en cuenta la dependencia dentro de la serie está fuera de lugar.

Todo lo que tienes aquí es la dependencia dentro de la serie . No hay una relación cruzada entre series real.

Una vez que aborde adecuadamente el problema que hace que estas series sean autodependientes, todas están integradas ( recorridos aleatorios de Bernoulli ), por lo que debe diferenciarlas, la asociación "aparente" desaparece (la mayor correlación cruzada absoluta de las tres series es 0.048).

Lo que eso te dice es la verdad: la asociación aparente es una mera ilusión causada por la dependencia dentro de la serie.

Su pregunta se refería a "cómo usar la correlación de Pearson correctamente con las series de tiempo", por lo tanto, comprenda: si hay dependencia dentro de la serie y no la trata primero, no la usará correctamente.

Además, el suavizado no reducirá el problema de la dependencia serial; todo lo contrario, ¡lo hace aún peor! Aquí están las correlaciones después del suavizado (loess predeterminado suave - de serie vs índice - realizado en R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559

Todos llegaron más lejos de 0. Todavía no son más que ruido sin sentido , aunque ahora es ruido suave y acumulado. (Al suavizar, reducimos la variabilidad en la serie que ponemos en el cálculo de correlación, por lo que puede ser por eso que la correlación aumenta).

[1]: Yule, GU (1926) "¿Por qué a veces obtenemos correlaciones sin sentido entre series temporales?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63

— Glen_b
fuente

Gracias por la gran respuesta. Busqué una correlación espuria, pero no me importa si mi serie A es la causa de mi serie B o viceversa. Solo quiero saber si puedes aprender algo sobre la serie A mirando qué está haciendo la serie B (o viceversa). En otras palabras, ¿tienen una correlación?

— user1551817

Por favor vea mi respuesta actualizada.

— Glen_b

"... entonces necesitas diferenciarlos ..." ¿qué significa exactamente? ¿Quizás diferenciarlos? ..

— Georgios Pligoropoulos

Diferenciación: consulte Wikipedia aquí o esta sección del libro Pronósticos, principios y práctica . En su pregunta subsiguiente, el resto del párrafo que cita es decirlo explícitamente. (No es la única posibilidad, sin embargo, solo describe una cosa razonablemente común que se hace)

— Glen_b

He localizado lo que parece ser otra versión del artículo, y

— he

Para completar la respuesta de Glen_b y su ejemplo en caminatas aleatorias, si realmente desea utilizar la correlación de Pearson en este tipo de series de tiempo , primero debe diferenciarlas, luego el coeficiente de correlación en los incrementos ( ) que son (en el caso de caminatas aleatorias) independientes e idénticamente distribuidos. Le sugiero que use la correlación de Spearman o la de Kendall, ya que son más robustas que el coeficiente de Pearson. Pearson mide la dependencia lineal, mientras que las medidas de Spearman y Kendall son invariables por transformaciones monótonas de sus variables. $(S_t)_{1 \leq t \leq T}$ $X_t = S_t - S_{t-1}$

Además, imagine que dos series de tiempo son fuertemente dependientes, digamos que se mueven juntas y bajan juntas, pero una que experimenta variaciones a veces fuertes y la otra que tiene variaciones leves, su correlación de Pearson será bastante baja a diferencia de las de Spearman y Kendall (que son mejores estimaciones de dependencia entre sus series de tiempo).

Para un tratamiento exhaustivo de esto y una mejor comprensión de la dependencia, puede consultar la teoría de la cópula y una aplicación para series temporales .

— mic
fuente

Los datos de series de tiempo generalmente dependen del tiempo. La correlación de Pearson, sin embargo, es apropiada para datos independientes. Este problema es similar a la llamada regresión espuria. Es probable que el coeficiente sea muy significativo, pero esto solo proviene de la tendencia temporal de los datos que afecta a ambas series. Recomiendo modelar los datos y luego tratar de ver si el modelado produce resultados similares para ambas series. Sin embargo, el uso del coeficiente de correlación de Pearson probablemente dará resultados engañosos para la interpretación de la estructura de dependencia.

— chico al azar
fuente