¿Por qué este conjunto de datos no tiene covarianza?


8

Entiendo cómo funciona la covarianza es que los datos que están correlacionados deberían tener una covarianza algo alta. Me he encontrado con una situación en la que mis datos parecen correlacionados (como se muestra en el diagrama de dispersión) pero la covarianza es casi cero. ¿Cómo puede la covarianza de los datos ser cero si están correlacionados?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

ingrese la descripción de la imagen aquí


44
Pista: ¿Qué sucede cuando miras la correlación? ¿Cuál es la diferencia entre covarianza y correlación?
aleshing

2
Si está midiendo números que parecen pequeños o muy juntos en una escala particular, las diferencias entre ellos también parecerán pequeñas, y los productos de las diferencias parecerán aún más pequeños. Intente multiplicar todos sus datos por y luego rehacer los cálculos; la covarianza debería ser veces mayor10001000000
Henry

Respuestas:


14

La magnitud de la covarianza depende de la magnitud de los datos y de qué tan cerca están dispersos esos puntos de datos alrededor de la media de esos datos. Es fácil de ver cuando miras la fórmula:

CovX,y=(Xyo-X¯)(yyo-y¯)norte-1

En su caso, la desviación de los datos x1y x2apunta a la media de x1y x2son:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

Ahora, si multiplica esos dos vectores entre sí, obviamente obtendrá números bastante pequeños:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

Ahora toma la suma y divide por y tienes la covarianza:norte-1

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

Esa es la razón por la cual la magnitud de la covarianza no dice mucho sobre la fuerza de cómo x1y x2co-variar. Al estandarizar (o normalizar) la covarianza, es decir, dividirla por el producto de la desviación estándar de x1y x2(muy similar a la covarianza, es decir 2.609127e-05),

r=CovX,ysXsy=(X1-X¯)(yyo-y¯)(norte-1)sXsy

obtienes el coeficiente de correlación alto, de , que confirma lo que puedes ver en tu gráfica.r=0,99


7

Hablemos de lo que se puede ver de un vistazo rápido a la trama y algunas comprobaciones de razonabilidad (este es el tipo de cosas que uno puede hacer de manera normal cuando mira los datos, simplemente estar armado con algunos hechos básicos):

nortenorte-1

10-4 4

En consecuencia, los valores observados de las variaciones en su salida tienen sentido; Ambos son menos que eso, pero más de una décima parte.

14 4

0,02(0,02)2/ /4 4=10-4 4

De ese análisis muy tosco, nada parece sorprendente.


0,0230,0158.6×10-5 5

2.9×10-5 5

2.9×10-5 52.6×10-5 5

(¡No es tan malo para un cálculo rápido al comienzo del sobre que comienza con rangos de dos cifras significativas!)

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.