La versión simple es que cualquiera de las dos variables que tienden a cambiar en una dirección con el tiempo parecerá estar correlacionada, ya sea que haya alguna conexión entre ellas o no. Considere las siguientes variables:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
es solo una función del tiempo, como lo es y 1 . y 2 es una función tanto del tiempo como de x . El punto es reconocer del código que realmente existe una relación entre x e y 2 , y que no existe una relación entre x e y 1 . Ahora mira la siguiente figura, las tres líneas se ven terriblemente similares, ¿no?Xy1y2XXy2Xy1

R2Xy1R2Xy2Xy1Xy2Entonces, ¿cómo diferenciamos lo real de la mera apariencia? Ahí es donde entra la diferencia. Para cualquiera de las dos variables, dado que ambas tienden a aumentar con el tiempo, eso no es muy informativo, pero dado que una aumenta en una cantidad específica, ¿eso nos dice cuánto aumenta la otra? La diferencia nos permite responder esa pregunta. Tenga en cuenta las siguientes dos figuras, diagramas de dispersión que hice después de diferenciar las tres variables.


Xy2R2= .43Xy1R2= .07R2
Algunos otros puntos: en las figuras, señalo que estos son cambios simultáneos. No hay nada de malo en eso, y se deduce de la forma en que configuré el problema, pero generalmente la gente está interesada en los efectos en algún retraso. (Es decir, el cambio en una cosa en un momento dado conduce a un cambio en otra cosa más adelante). En segundo lugar, menciona tomar el registro de una de sus series. Tomar el registro simplemente cambia sus datos de niveles a tasas. Y, por lo tanto, cuando diferencia, está observando cambios en las tasas en lugar de cambios en los niveles. Eso es muy común, pero no incluí ese elemento en mi demostración; es ortogonal a los problemas que discutí. Por último, quiero reconocer que los datos de series temporales a menudo son más complicados de lo que permite mi demostración.