¿Por qué el coeficiente de correlación entre las variables aleatorias X y XY tiende a ser 0.7


49

Tomado de Estadísticas prácticas para la investigación médica donde Douglas Altman escribe en la página 285:

... para cualesquiera dos cantidades, X e Y, X se correlacionará con XY. De hecho, incluso si X e Y son muestras de números aleatorios, esperaríamos que la correlación de X e XY sea 0.7

Intenté esto en R y parece ser el caso:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

¿Porqué es eso? ¿Cuál es la teoría detrás de esto?


¿Para qué parte quieres una explicación? ¿Desea la ecuación simplificada para la correlación que resulta debido a la correlación conocida entre x e y, y la covarianza entre x y xy? ¿O simplemente quieres saber por qué hay alguna covarianza aquí?
John

¿Es esto cierto para cualquier e Y ? Supongamos que X y Z no están correlacionados y dejar que Y = X - Z . Entonces sospechoso X no se correlaciona con X - Y . XYXZY=XZXXY
Henry

Respuestas:


69

Si e Y son variables aleatorias no correlacionadas con igual varianza σ 2 , entonces tenemos esa var ( X - Y )XYσ2 En consecuencia,ρX,X-Y=cov(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
Entonces, cuando encuentre n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
la correlación muestral dexyx-ypara un conjunto de datos grande{(xi,yi):1in
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy extraído de una población con estas propiedades, que incluye "números aleatorios" como un caso especial, el resultado tiende a estar cerca del valor de correlación de población 1{(xi,yi):1in}120.7071

¿Podría explicar un poco más cómocov(X,X)-cov(X,Y)=s^2
Nostock

55
cov (X, X) es otro nombre para var (X). cov (X, Y) = 0 ya que se supone que X e Y no están correlacionados (por lo tanto, covarianza = 0).
Dilip Sarwate

58

Una explicación geométrica-estadística.

n 2 XYXY

XYr=0

XY

XYX+Y

XYX+Y2σ2XXYX+Y0.707...

ingrese la descripción de la imagen aquí


44
Un gran +1 para compartir este enfoque.
whuber

(+1) ¡Esa es una forma muy clara de presentar esto!
Matt Krause

Ahh ... fotos! (+1) Bien hecho. :-)
cardenal

11

Creo que aquí también hay una intuición simple basada en la simetría. Como X e Y tienen las mismas distribuciones y tienen una covarianza de 0, la relación de X ± Y con X debería "explicar" la mitad de la variación en X ± Y; la otra mitad debería explicarse por Y. Entonces, R 2 debería ser 1/2, lo que significa que R es 1 / √2 ≈ 0.707.


r2=12r1/21/2

No, eso realmente no es más estándar. (Si necesita evidencia, busque la respuesta principal. Las 38 personas que ya votaron por ella no objetaron con la misma notación).
denn333

r2=1/2r=1/2

3

Aquí hay una manera simple de pensar por qué hay una correlación aquí.

Imagine lo que sucede cuando resta dos distribuciones. Si el valor de x es bajo, entonces, en promedio, x - yserá un valor más bajo que si el valor de x es alto. A medida que x aumenta, entonces x - yaumenta, en promedio, y por lo tanto, una correlación positiva.


44
No creo que su afirmación sea siempre cierta "Siempre habrá una correlación entre dos distribuciones aleatorias cuando haya una relación matemática". por ejemplo x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat

44
@curious_cat: O, tal vez para ser aún más evocador, descartar por ycompleto. :-)
cardenal
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.