¿Cómo explicaría la diferencia entre correlación y covarianza?

109

Siguiendo con esta pregunta, ¿cómo explicaría la covarianza a alguien que solo entiende la media? , que aborda el tema de explicar la covarianza a una persona laica, me planteó una pregunta similar.

¿Cómo se explicaría a un neófito estadístico la diferencia entre covarianza y correlación ? Parece que ambos se refieren al cambio en una variable vinculada a otra variable.

Similar a la pregunta mencionada, sería preferible la falta de fórmulas.

correlation covariance

— pmgjones
fuente

109

El problema con las covarianzas es que son difíciles de comparar: cuando calcula la covarianza de un conjunto de alturas y pesos, como se expresa en (respectivamente) metros y kilogramos, obtendrá una covarianza diferente de cuando lo hace en otras unidades ( ¡lo que ya da un problema a las personas que hacen lo mismo con o sin el sistema métrico!), pero también, será difícil saber si (por ejemplo) la altura y el peso 'covarían más' que, digamos, la longitud de los dedos de los pies y de las manos , simplemente porque la 'escala' sobre la que se calcula la covarianza es diferente.

La solución a esto es 'normalizar' la covarianza: divide la covarianza por algo que represente la diversidad y la escala en ambas covariables, y termine con un valor que seguramente esté entre -1 y 1: la correlación. Independientemente de la unidad en la que se encontraran sus variables originales, siempre obtendrá el mismo resultado, y esto también garantizará que, hasta cierto punto, pueda comparar si dos variables 'se correlacionan' más que otras dos, simplemente comparando su correlación.

Nota: lo anterior supone que el lector ya comprende el concepto de covarianza.

— Nick Sabbe
fuente

2

+1 ¿Querías escribir "correlación" en lugar de "covarianza" en la última oración?

— whuber

¿Estás seguro de que no puedes comparar covarianzas con diferentes unidades? Las unidades pasan por la covarianza multiplicada: si tu X está adentro cmy tu Y está adentro s, entonces tu . Y luego puedes multiplicar por el resultado por el factor de conversión de la unidad. Pruébelo en R:

c o v (X, Y) = z c m \cdot s

$cov(X,Y)=z\ cm\cdot s$ cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)

— naught101

3

@ naught101 Sospecho que el punto es que si te dijera que y nada más, no tendrías idea de si es altamente predictivo de o no, mientras que si yo le dije que tendría algo un poco más interpretable.

Cov (X, Y) = 10^{1} 0

$\mbox{Cov}(X, Y) = 10^10$

X

$X$

Y

$Y$

Cor (X, Y) = .9

$\mbox{Cor}(X, Y) = .9$

— chico

@guy: Eso sería covarianzas sin unidades: PI piensa que lo importante es que no se pueden comparar fácilmente las covarianzas de dos conjuntos de datos que tienen diferentes variaciones. Por ejemplo, si tiene la relación B = 2 * A, y dos conjuntos de datos, {A1, B1} y {A2, B2}, donde A1 tiene una varianza de 0.5 y A2 tiene una varianza de 2, entonces el será mucho más grande que , aunque la relación sea exactamente la misma.

c o v (A 2, B 2)

$cov(A2, B2)$

c o v (A 1, B 1)

$cov(A1, B1)$

— naught101

3

Entonces, en términos simples, colación> covarianza

— Karl Morrison

58

Los requisitos de este tipo de preguntas me parecen un poco extraños. Aquí hay un concepto / fórmula matemática , pero quiero hablar de ello en algún contexto completamente desprovisto de símbolos matemáticos. También creo que debería afirmarse que el álgebra real necesaria para comprender las fórmulas, creo, debería enseñarse a la mayoría de las personas antes de la educación superior (no es necesario comprender el álgebra matricial, solo será suficiente el álgebra simple).

Entonces, al principio, en lugar de ignorar por completo la fórmula y hablar de ella en algunos tipos de analogías mágicas y heurísticas, solo veamos la fórmula e intente explicar los componentes individuales en pequeños pasos. La diferencia en términos de covarianza y correlación, al observar las fórmulas, debería quedar clara. Mientras que hablar en términos de analogías y heurísticas sospecho que oscurecería dos conceptos relativamente simples y sus diferencias en muchas situaciones.

Entonces, comencemos con una fórmula para la covarianza de muestra (estas que acabo de tomar y adoptar de wikipedia);

$\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

Para poner a todos al día, definamos explícitamente todos los elementos y operaciones en la fórmula.

$x_i$ e son medidas de dos atributos separados de la misma observación $y_i$
$\bar{x}$ y son las medias (o promedio) de cada atributo $\bar{y}$
Para , digamos que esto significa que dividimos el resultado final por . $\frac{1}{n-1}$ ${n-1}$
$\sum_{i=1}^{n}$ puede ser un símbolo extraño para algunos, por lo que probablemente sea útil explicar esta operación. Es simplemente la suma de todos los separadas observaciones, y representa el número total de observaciones. $i$ $n$

En este punto, podría presentar un ejemplo simple, para poner una cara a los elementos y operaciones, por así decirlo. Entonces, por ejemplo, hagamos una tabla, donde cada fila corresponde a una observación (y e están etiquetadas apropiadamente). Es probable que estos ejemplos sean más específicos (por ejemplo, digamos que representa la edad representa el peso), pero para nuestra discusión aquí no debería importar. $x$ $y$ $x$ $y$

En este punto, si considera que la operación de suma en la fórmula puede no haberse comprendido completamente, puede introducirla nuevamente en un contexto mucho más simple. Digamos simplemente presente que es lo mismo que decir en este ejemplo; $\sum_{i=1}^{n}(x_i)$

Ahora ese desorden se debe aclarar, y podemos avanzar en la segunda parte de la fórmula, . Ahora, suponiendo que la gente ya sepa lo que significan, y representan, y diría que, siendo hipócritas de mis propios comentarios al principio de la publicación, uno puede referirse a la media en términos de heurística simple (por ejemplo, el medio de la distribución). Uno puede entonces tomar este proceso una operación a la vez. La declaración $(x_i-\bar{x})(y_i-\bar{y})$ $\bar{x}$ $\bar{y}$ $(x_i-\bar{x})$ solo está examinando las desviaciones / distancia entre cada observación, y la media de todas las observaciones para ese atributo particular. Por lo tanto, cuando una observación está más lejos de la media, esta operación tendrá un valor más alto. Luego se puede volver a la tabla de ejemplo dada y simplemente demostrar la operación en el vector de observaciones. $x$

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

La operación es la misma para el vector , pero solo para el refuerzo puede presentar esa operación también. $y$

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Ahora, los términos y no deben ser ambiguos, y podemos pasar a la siguiente operación, multiplicando estos resultados juntos, . Como Gung señala en los comentarios, a esto se le llama frecuentemente el producto cruzado (quizás un ejemplo útil para volver a mencionar si uno estuviera introduciendo álgebra matricial básica para las estadísticas). $(x_i-\bar{x})$ $(y_i-\bar{y})$ $(x_i-\bar{x})\cdot(y_i-\bar{y})$

Tome nota de lo que sucede al multiplicar, si dos observaciones están a una gran distancia por encima de la media, la observación resultante tendrá un valor positivo aún mayor (lo mismo es cierto si ambas observaciones están a una gran distancia por debajo de la media, como multiplicar dos negativos es igual a positivo) También tenga en cuenta que si una observación está muy por encima de la media y la otra está muy por debajo de la media, el valor resultante será grande (en términos absolutos) y negativo (como positivo por negativo es igual a un número negativo). Finalmente, tenga en cuenta que cuando un valor está muy cerca de la media para cualquiera de las observaciones, multiplicar los dos valores dará como resultado un número pequeño. De nuevo, podemos presentar esta operación en una tabla.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Ahora, si hay estadísticos en la sala, deberían estar hirviendo con anticipación en este momento. Podemos ver todos los elementos separados de lo que es una covarianza y cómo se calcula entran en juego. Ahora todo lo que tenemos que hacer es resumir el resultado final en la tabla anterior, dividir por y listo , la covarianza ya no debería ser mística (todo con solo definir un símbolo griego). $n-1$

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

En este punto, es posible que desee reforzar de dónde proviene el 5, pero eso debería ser tan simple como volver a la tabla y contar el número de observaciones (dejemos la diferencia entre la muestra y la población en otro momento).

Ahora, la covarianza en sí misma no nos dice mucho (puede, pero en este punto no es necesario entrar en ningún ejemplo interesante sin recurrir a referencias mágicamente indefinidas a la audiencia). En un buen caso, realmente no necesitará vender por qué debería importarnos cuál es la covarianza, en otras circunstancias, es posible que tenga que esperar que su audiencia sea cautiva y que tome su palabra. Pero, continuando desarrollando la diferencia entre cuál es la covarianza y cuál es la correlación, podemos referirnos nuevamente a la fórmula para la correlación. Para prevenir la fobia a los símbolos griegos, tal vez solo digamos que es el símbolo común utilizado para representar la correlación. $\rho$

$\rho = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$

Nuevamente, para reiterar, el numerador en la fórmula anterior es simplemente la covarianza como acabamos de definir, y el denominador es la raíz cuadrada del producto de la varianza de cada serie individual. Si necesita definir la varianza en sí, podría decir que la varianza es lo mismo que la covarianza de una serie consigo misma (es decir, ). Y se aplican los mismos conceptos que introdujo con la covarianza (es decir, si una serie tiene muchos valores muy lejos de su media, tendrá una alta varianza). Quizás tenga en cuenta aquí que una serie no puede tener una varianza negativa también (lo que lógicamente debería seguir a las matemáticas presentadas anteriormente). $Cov(x,x) = Var(x)$

Entonces, los únicos componentes nuevos que hemos introducido están en el denominador, . Entonces estamos dividiendo la covarianza que acabamos de calcular por el producto de las varianzas de cada serie. Uno podría entrar en el tratamiento acerca de por qué dividir por siempre dará como resultado un valor entre -1 y 1, pero sospecho que la desigualdad Cauchy-Schwarz debería quedar fuera de la agenda para esta discusión Entonces, nuevamente, soy un hipócrita y recurro a algunos, créame , pero en este punto podemos presentar todas las razones por las que usamos el coeficiente de correlación. Luego, se pueden relacionar estas lecciones de matemáticas con las heurísticas que se han dado en las otras declaraciones, como la respuesta de Peter Flom $Var(x)Var(y)$ $\sqrt{Var(x)Var(y)}$ a una de las otras preguntas. Si bien esto fue criticado por introducir el concepto en términos de declaraciones causales, esa lección también debería estar en la agenda en algún momento.

Entiendo que en algunas circunstancias este nivel de tratamiento no sería apropiado. El senado necesita el resumen ejecutivo . En ese caso, puede referirse a la heurística simple que la gente ha estado usando en otros ejemplos, pero Roma no se construyó en un día. Y para el Senado que solicita el resumen ejecutivo, si tiene tan poco tiempo, tal vez debería tomar mi palabra y prescindir de las formalidades de analogías y viñetas.

— Andy W
fuente

44

Estoy completamente de acuerdo con la idea de que la pregunta está de alguna manera fuera del propósito de este foro. La definición de covarianza como es la más clara explicación que se puede proponer. Solo usa la noción de expectativa. Evitar la fórmula conduce a versiones necesariamente incompletas y potencialmente engañosas. Y esto no puede proporcionar al lector el hombre para calcular la covarianza / correlación en una nueva situación. No es la mejor manera de combatir la innumeración.

cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\text{cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$

— Xi'an

14

+1, esto es bastante bueno. Sin embargo, no sería tan crítico con las introducciones conceptuales. He trabajado con personas con suficiente ansiedad matemática que es probable que mostrar una fórmula los pierda. Por lo general, los pongo al día con la intuición primero, y luego camino a través de las matemáticas de manera simple y exhaustiva (como lo hace aquí) después . De esa manera, solo están aprendiendo cómo las matemáticas representan lo que ya saben, y si abandonan mentalmente, aún aprenden las grandes ideas. Como punto tangencial, trabajo a través de las matemáticas en Excel, lo cual me parece muy bueno para esto.

— gung

2

Un par de trampas (lo siento): en su ecuación superior, divide por , pero luego (correctamente) discute dividir por en el punto de viñeta asociado; Podría notar que se llama "producto cruzado"; Como ha estado hablando sobre la covarianza de muestra , cuando llegue a la correlación, podría omitir las cosas sobre y simplemente usar ; Por último, la correlación se calcula a partir de la covarianza al escalarla en relación con las SD , no las variaciones, ver aquí , por ejemplo.

N

$N$

N - 1

$N-1$

(x_{i} - \bar{x}) (y_{i} - \bar{y})

$(x_i-\bar{x})(y_i-\bar{y})$

ρ

$\rho$

r

$r$

— Gung

Gracias @gung, cambié el error tipográfico en la primera fórmula y luego, por la correlación, tomé la raíz cuadrada de las variaciones multiplicadas (en lugar de definir la desviación estándar). Al usar rho versus otro símbolo, no me siento demasiado fuerte de ninguna manera. Si estuviera enseñando y tuviera un libro de texto, probablemente me gustaría conformarme con el texto. ¡Ojalá un símbolo griego más no cause caos!

— Andy W

1

Si pudiera votar tu respuesta 100 veces, lo haría. ¡Qué explicación tan lúcida!

— Julian A.

10

La correlación (r) es la covarianza (cov) de sus variables (x & y) dividida por (o ajustada por, en otras palabras) cada una de sus desviaciones estándar ( ). $\sqrt{Var[x]Var[y]}$

Es decir, la correlación es simplemente una representación de covarianza, por lo que el resultado debe situarse entre -1 (perfectamente correlacionado inversamente) y +1 (perfectamente correlacionado positivamente), observando que un valor cercano a cero significa que dos variables no están correlacionadas.

La covarianza no tiene límites y carece de contexto cuando se compara con otras covarianzas. Al normalizar / ajustar / estandarizar las covarianzas en una correlación, los conjuntos de datos se pueden comparar más fácilmente.

Como puede imaginar, hay diferentes formas en que una estadística (como la covarianza) puede normalizarse / estandarizarse. La fórmula matemática para la relación entre correlación y covarianza simplemente refleja el uso de los estadísticos de la convención (es decir, el ajuste de acuerdo con sus desviaciones estándar):

r = \frac{c o v (x, y)}{\sqrt{V a r [x] V a r [y]}}

$r = \frac{cov(x,y)}{\sqrt{Var[x]Var[y]}}$

— D Dawg
fuente

5

Si está familiarizado con la idea de centrar y estandarizar, x-xbar es centrar x en su significado. Lo mismo se aplica a y. Entonces la covarianza simplemente centra los datos. Sin embargo, la correlación no solo centra los datos, sino que también se escala utilizando la desviación estándar (estandarizar). La multiplicación y la suma es el producto de punto de los dos vectores y dice cuán paralelos se comparan estos dos vectores (la proyección de un vector sobre el otro). La división de (n-1) o tomar el valor esperado es escalar para el número de observaciones. Pensamientos?

— usuario31180
fuente

3

Por lo que he entendido. La correlación es una versión "normalizada" de la covarianza.

— Karl Morrison
fuente

2

Como muchas publicaciones atestiguan , "normalizar" tiene muchos significados diferentes. Cual estas usando?

— whuber

-3

La correlación se escala para estar entre -1 y +1 dependiendo de si hay correlación positiva o negativa, y no tiene dimensión. Sin embargo, la covarianza varía de cero, en el caso de dos variables independientes, a Var (X), en el caso en que los dos conjuntos de datos son iguales. Las unidades de COV (X, Y) son las unidades de X multiplicadas por las unidades de Y.

— Nagaraj
fuente

66

La covarianza puede ser negativa, por lo que no está limitada a 0. Tampoco está claro para mí lo que quieres decir con tu última oración, ¿quieres The units of COV(X,Y) are the units of X times the units of Y.explicarlo?

— Andy W

@AndyW, ¿las unidades no están claras en la definición? . El operador de expectativa es solo un promedio ponderado de los valores de X / Y, y las unidades pasan.

Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

$\operatorname{Cov}(X,Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}$

— naught101

1

@ naught101, ¿pasan las unidades? Mi comentario inicial a Nagaraj fue pedir mayor claridad, ya que declaraciones ambiguas como la que citaría afirmar no son útiles para nadie. Entonces, ¿por qué no podemos interpretar la covarianza como "las unidades de x multiplicadas por las unidades de y", porque eso no es lo que es? Una declaración potencialmente más correcta (para la covarianza muestral) sería que es el " promedio de los productos de las desviaciones medias ". cont ...

— Andy W

1

Ahora, las desviaciones medias ciertamente no son las mismas que las unidades originales, y la estadística resultante para la covarianza no depende simplemente de la media y la varianza de los atributos originales. La covarianza, en sí misma, no te dice nada sin conocer la varianza de los atributos originales.

— Andy W