La covarianza de dos variables se calculó en -150. ¿Qué dicen las estadísticas sobre la relación entre dos variables?
La covarianza de dos variables se calculó en -150. ¿Qué dicen las estadísticas sobre la relación entre dos variables?
Respuestas:
Para agregar a la respuesta de Łukasz Deryło : como él escribe, una covarianza de -150 implica una relación negativa. Si esta es una relación fuerte o débil depende de las variaciones de las variables. A continuación, trazo ejemplos para una relación fuerte (cada variable separada tiene una varianza de 200, por lo que la covarianza es grande, en términos absolutos, en comparación con la varianza), y para una relación débil (cada varianza es 2000, por lo que la covarianza es pequeña , en términos absolutos, en comparación con la varianza).
variance <- 200
:variance <- 2000
:library(MASS)
nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship
opar <- par(mfrow=c(2,2))
for ( ii in 1:4 ) {
while ( TRUE ) {
dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
}
plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
}
par(opar)
Como señala Whuber, la covarianza en sí misma no nos dice mucho sobre un conjunto de datos. Para ilustrar, tomaré el cuarteto de Anscombe y lo modificaré ligeramente. Observe cómo los diagramas de dispersión muy diferentes pueden tener la misma covarianza (redondeada) de -150:
anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)
Por último, aquí hay una covarianza de -150 con quizás el más tenue "relación negativa" entre e imaginables:
xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))
Solo te dice que la relación es negativa. Esto significa que los valores bajos de una variable tienden a ocurrir junto con los valores altos de la otra.
Es difícil saber si esta covarianza es grande o pequeña (si su relación es fuerte o débil) porque rangos desde a . Entonces depende de la escala de sus variables.
Para juzgar si esta relación es fuerte o no, debe convertir la covarianza en correlación (dividirla por ) Esto va desde a y se pueden encontrar muchas pautas diferentes para la interpretación en la Web y los libros de texto.
También puede ejecutar la prueba de importancia de la correlación.