La correlación de Pearson se usa para observar la correlación entre series ... pero al ser series temporales, la correlación se analiza en diferentes rezagos: la función de correlación cruzada .
La correlación cruzada se ve afectada por la dependencia dentro de la serie, por lo que en muchos casos la dependencia dentro de la serie debe eliminarse primero. Entonces, para usar esta correlación, en lugar de suavizar la serie, en realidad es más común (porque es significativo) observar la dependencia entre los residuos, la parte aproximada que queda después de encontrar un modelo adecuado para las variables.
Probablemente quiera comenzar con algunos recursos básicos sobre modelos de series de tiempo antes de profundizar en tratar de averiguar si una correlación de Pearson entre (presumiblemente) series suavizadas no estacionarias es interpretable.
En particular, es probable que desee ver el fenómeno aquí . [En series de tiempo, esto a veces se denomina correlación espuria , aunque el artículo de Wikipedia sobre correlación espuria tiene una visión estrecha sobre el uso del término de una manera que parece excluir este uso del término. Probablemente encontrará más sobre los temas discutidos aquí al buscar regresión espuria en su lugar.]
[Editar - el paisaje de Wikipedia sigue cambiando; el párrafo anterior probablemente debería revisarse para reflejar lo que hay ahora.]
por ejemplo, ver algunas discusiones
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la cita de apertura de Yule, en un documento presentado en 1925 pero publicado al año siguiente, resume el problema bastante bien)
Christos Agiakloglou y Apostolos Tsimpanos, Correlaciones espurias para procesos AR estacionarios (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (esto muestra que incluso puede obtener el problema entre series estacionarias; de ahí la tendencia a preblanquear)
La referencia clásica de Yule, (1926) [1] mencionada anteriormente.
También puede encontrar útil la discusión aquí , así como la discusión aquí
-
Usar la correlación de Pearson de manera significativa entre series de tiempo es difícil y a veces sorprendentemente sutil.
Busqué una correlación espuria, pero no me importa si mi serie A es la causa de mi serie B o viceversa. Solo quiero saber si puedes aprender algo sobre la serie A mirando qué está haciendo la serie B (o viceversa). En otras palabras, ¿tienen una correlación?
Tome nota de mi comentario anterior sobre el uso limitado del término correlación espuria en el artículo de Wikipedia.
El punto sobre la correlación espuria es que las series pueden parecer correlacionadas, pero la correlación en sí misma no es significativa. Considere dos personas lanzando dos monedas distintas contando el número de caras hasta ahora menos el número de colas hasta el valor de su serie.
(Entonces, si la persona 1 arroja tiene 3-1 = 2 para el valor en el cuarto paso de tiempo, y su serie va )HTHH...1,0,1,2,...
Obviamente no hay conexión alguna entre las dos series. ¡Claramente, ninguno puede decirte lo primero sobre el otro!
Pero mira el tipo de correlaciones que obtienes entre pares de monedas:
Si no te dijera cuáles fueron, y tomaste un par de esas series por sí mismas, ¿serían correlaciones impresionantes?
Pero no tienen sentido . Completamente espurio. Ninguno de los tres pares está realmente más relacionado positiva o negativamente entre sí que cualquiera de los otros, es solo ruido acumulado . La espuria no se trata solo de predicción, la noción completa de considerar la asociación entre series sin tener en cuenta la dependencia dentro de la serie está fuera de lugar.
Todo lo que tienes aquí es la dependencia dentro de la serie . No hay una relación cruzada entre series real.
Una vez que aborde adecuadamente el problema que hace que estas series sean autodependientes, todas están integradas ( recorridos aleatorios de Bernoulli ), por lo que debe diferenciarlas, la asociación "aparente" desaparece (la mayor correlación cruzada absoluta de las tres series es 0.048).
Lo que eso te dice es la verdad: la asociación aparente es una mera ilusión causada por la dependencia dentro de la serie.
Su pregunta se refería a "cómo usar la correlación de Pearson correctamente con las series de tiempo", por lo tanto, comprenda: si hay dependencia dentro de la serie y no la trata primero, no la usará correctamente.
Además, el suavizado no reducirá el problema de la dependencia serial; todo lo contrario, ¡lo hace aún peor! Aquí están las correlaciones después del suavizado (loess predeterminado suave - de serie vs índice - realizado en R):
coin1 coin2
coin2 0.9696378
coin3 -0.8829326 -0.7733559
Todos llegaron más lejos de 0. Todavía no son más que ruido sin sentido , aunque ahora es ruido suave y acumulado. (Al suavizar, reducimos la variabilidad en la serie que ponemos en el cálculo de correlación, por lo que puede ser por eso que la correlación aumenta).
[1]: Yule, GU (1926) "¿Por qué a veces obtenemos correlaciones sin sentido entre series temporales?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63