Intuición sobre la definición de la covarianza.


11

Intenté comprender mejor la covarianza de dos variables aleatorias y entender cómo la primera persona que lo pensó llegó a la definición que se usa habitualmente en estadística. Fui a Wikipedia para entenderlo mejor. Según el artículo, parece que una buena medida o cantidad candidata para Cov(X,Y) debería tener las siguientes propiedades:

  1. Debería tener un signo positivo cuando dos variables aleatorias son similares (es decir, cuando una aumenta, la otra aumenta y cuando una disminuye, la otra también).
  2. También queremos que tenga un signo negativo cuando dos variables aleatorias son opuestamente similares (es decir, cuando una aumenta, la otra variable aleatoria tiende a disminuir)
  3. Por último, queremos que esta cantidad de covarianza sea cero (¿o extremadamente pequeña probablemente?) Cuando las dos variables son independientes entre sí (es decir, no varían conjuntamente entre sí).

De las propiedades anteriores, queremos definir Cov(X,Y) . Mi primera pregunta es, no es del todo obvio para mí por qué Cov(X,Y)=E[(XE[X])(YE[Y])]satisface esas propiedades. De las propiedades que tenemos, hubiera esperado que una ecuación similar a una "derivada" fuera el candidato ideal. Por ejemplo, algo más parecido a "si el cambio en X es positivo, entonces el cambio en Y también debería ser positivo". Además, ¿por qué tomar la diferencia del significado es lo "correcto"?

Una pregunta más tangencial, pero aún interesante, ¿existe una definición diferente que podría haber satisfecho esas propiedades y aún así hubiera sido significativa y útil? Lo pregunto porque parece que nadie se pregunta por qué estamos usando esta definición en primer lugar (parece que es "siempre ha sido así", lo que en mi opinión es una razón terrible y dificulta la investigación científica y curiosidad matemática y pensamiento). ¿Es la definición aceptada la "mejor" definición que podríamos tener?


Estos son mis pensamientos sobre por qué la definición aceptada tiene sentido (solo será un argumento intuitivo):

Sea alguna diferencia de la variable X (es decir, cambió de algún valor a otro valor en algún momento). Del mismo modo para definir Δ Y .ΔXΔY

Para una instancia en el tiempo, podemos calcular si están relacionados o no haciendo:

syosolnorte(ΔXΔY)

¡Esto es algo bueno! Para una instancia en el tiempo, satisface las propiedades que queremos. Si ambos aumentan juntos, entonces la mayoría de las veces, la cantidad anterior debe ser positiva (y de manera similar cuando son opuestamente similares, será negativa, porque los 's tendrán signos opuestos).remiltuna

Pero eso solo nos da la cantidad que queremos para una instancia en el tiempo, y dado que son rv, podríamos sobreajustar si decidimos basar la relación de dos variables en base a solo 1 observación. Entonces, ¿por qué no tomar la expectativa de esto para ver el producto "promedio" de las diferencias.

syosolnorte(mi[ΔXΔY])

¡Cuál debería capturar en promedio cuál es la relación promedio como se definió anteriormente! Pero el único problema que tiene esta explicación es, ¿de qué medimos esta diferencia? Lo que parece abordarse midiendo esta diferencia de la media (que por alguna razón es lo correcto).

Supongo que el problema principal que tengo con la definición es tomar la diferencia de la media . Parece que todavía no puedo justificar eso.


La interpretación del signo puede dejarse para una pregunta diferente, ya que parece ser un tema más complicado.


2
El punto de partida puede ser el concepto o la intuición del producto cruzado (la covarianza es solo la extensión del mismo). Si tenemos dos series de números X e Y de la misma longitud, y definimos el producto cruzado sumado como Suma (Xi * Yi), entonces se maximiza si ambas series se ordenaron en el mismo orden, y se minimiza si uno Las series se ordenaron de forma ascendente y las otras de forma descendente.
ttnphns

La diferencia con la media no es la cuestión fundamental. Lo que importa es la magnitud, la diferencia con el origen; Por alguna razón, es natural y conveniente poner el origen en la media.
ttnphns

@ttnphns ¿Estás diciendo que si covarían juntos, entonces la covarianza debería "maximizarse" y si covarían en sentido opuesto deberían ser lo más negativos posible? (es decir, minimizado) ¿Por qué no se define como la expectativa del producto cruzado?
Charlie Parker

La covarianza es natural para variables sin origen inherente. Luego calculamos la media como el origen (la media tiene buenas propiedades que no se relacionan con el tema de la asociación, por lo que generalmente se elige). Si el origen es inherente y es significativo, es razonable apegarse a él, entonces la "covarianza" (co-arrebato) no será simétrica, pero ¿a quién le importa?
ttnphns

1
Esta respuesta proporciona una muy buena pieza de intuición relacionada con la covarianza.
Glen_b: reinstala a Monica

Respuestas:


10

Imagina que comenzamos con una pila vacía de números. Luego comenzamos a dibujar pares partir de su distribución conjunta. Puede suceder una de cuatro cosas:(X,Y)

  1. Si tanto X como Y son más grandes que sus promedios respectivos, decimos que el par es similar y, por lo tanto, colocamos un número positivo en la pila.
  2. Si tanto X como Y son más pequeños, entonces sus promedios respectivos decimos que el par es similar y ponemos un número positivo en la pila.
  3. Si X es más grande que su promedio e Y es más pequeño que su promedio, decimos que el par es diferente y pone un número negativo en la pila.
  4. Si X es más pequeño que su promedio e Y es más grande que su promedio, decimos que el par es diferente y pone un número negativo en la pila.

Luego, para obtener una medida general de la (dis-) similitud de X e Y, sumamos todos los valores de los números en la pila. Una suma positiva sugiere que las variables se mueven en la misma dirección al mismo tiempo. Una suma negativa sugiere que las variables se mueven en direcciones opuestas la mayoría de las veces. Una suma cero sugiere que conocer la dirección de una variable no le dice mucho sobre la dirección de la otra.

Es importante pensar en 'más grande que el promedio' en lugar de solo 'grande' (o 'positivo') porque cualquiera de las dos variables no negativas se consideraría similar (por ejemplo, el tamaño del próximo accidente automovilístico en el M42 y el número de boletos comprados en la estación de tren de Paddington mañana).

La fórmula de covarianza es una formalización de este proceso:

Cov(X,Y)=mi[(X-mi[X])(Y-mi[Y])]

Usando la distribución de probabilidad en lugar de la simulación de Monte Carlo y especificando el tamaño del número que ponemos en la pila.


Wow, esta es una muy buena respuesta. Solo una última cosa, ¿te importaría agregar más detalles sobre la justificación de por qué tiene que ser la diferencia de la media ? ¿Por qué no algún otro valor? ¿Por qué tiene sentido? Creo que eso es lo principal que me está atascando sobre internalizar completamente esta definición. Gracias por cierto!
Charlie Parker

Gracias. Supongamos que hay dos grandes camiones en dos países diferentes. Ahora los grandes camiones tienden a transportar grandes cargas. Si agregamos un número positivo a la pila cada vez que cada camión transportaba una gran carga, terminaríamos teniendo que decir que el comportamiento de los dos camiones fue muy similar. Pero en realidad el tamaño de la carga transportada por un camión no está relacionado con el tamaño de la carga transportada por el otro en ningún momento en particular. Resulta que ambos son grandes camiones. Por lo tanto, nuestra medida de similitud no sería útil. Es por eso que tenemos que pensar en 'más grande que el promedio'.
conjeturas

Lo siento, es un poco tarde, pero decidí revisar este tema y todavía tengo una pregunta sobre por qué es la diferencia con la media. ¿Es importante la diferencia de sus respectivos medios porque cada variable aleatoria X e Y puede provenir de diferentes escalas? es decir, tener una idea de lo que es "grande", es diferente dependiendo de qué escala base sean. Entonces, para superar este problema de escala, ¿lo comparamos con sus respectivos medios?
Charlie Parker

1

Aquí está mi manera intuitiva de mirarlo sin ecuaciones.

  1. Es una generalización de la varianza a dimensiones superiores. La motivación probablemente vino de tratar de describir cómo se comportan los datos. Para el primer orden, tenemos su ubicación: la media. En el segundo orden, tenemos la dispersión: la covarianza.

    Supongo que el problema principal que tengo con la definición es tomar la diferencia de la media. Parece que todavía no puedo justificar eso.

    La dispersión se evalúa en relación con el centro de la distribución. La definición más básica de la varianza es la "desviación media de la media". por lo tanto, debe restar la media también en el caso de la covarianza.

  2. Otra motivación principal que viene a la mente es la necesidad de definir una forma de medir la distancia entre variables aleatorias. La distancia de Mahalanobis y la covarianza van de la mano: dada una distribución gaussiana y otras dos muestras que tienen una distancia euclidiana igual a la media de distribución. Si le preguntara cuál de las muestras es más probable que sea un valor atípico que no se extrajo de la distribución gaussiana, la distancia euclidiana no funcionará. La distancia de Mahalanobis tiene una diferencia notable única de la distancia euclidiana: tiene en cuenta la dispersión (covarianza) de la distribución. Esto le permite generalizar la distancia a variables aleatorias.


1
  1. Por último, queremos que esta cantidad de covarianza sea cero (¿o extremadamente pequeña probablemente?) Cuando las dos variables son independientes entre sí (es decir, no varían conjuntamente entre sí).

(12)XYmi[XY]mi[XY]=14 4X^=1000XY^=1000Ymi[X^Y^]=250,000(X,Y)=mi[(X-mi[X])(Y-mi[Y])]

  1. También queremos que tenga un signo negativo cuando dos variables aleatorias son opuestamente similares (es decir, cuando una aumenta, la otra variable aleatoria tiende a disminuir)

XY=1-Xmi[XY]=0 0(X,Y)=mi[(X-mi[X])(Y-mi[Y])]

  1. Debe (sic) tener un signo positivo cuando dos variables aleatorias son similares (es decir, cuando una aumenta, la otra aumenta y cuando una disminuye, la otra también).

XY=X-1mi[XY](X,Y)=mi[(X-mi[X])(Y-mi[Y])] le da un valor positivo tal como lo desea.

X=Y


1

Me preguntaba sobre la misma pregunta, y la intuición dada por las conjeturas me ayudó. Para visualizar la intuición, tomé dos vectores normales al azar, x e y, tracé el diagrama de dispersión y coloreé cada punto por el producto de sus desviaciones de sus respectivas medias (azul para valores positivos, rojo para negativos).

Como queda claro en la gráfica, el producto es más positivo en los cuadrantes superior derecho e inferior izquierdo, mientras que es más negativo en los cuadrantes inferior derecho e superior izquierdo. El efecto de sumar los productos daría como resultado 0, ya que los puntos azules cancelan los rojos.

Pero puede ver que si eliminamos los puntos rojos, los datos restantes exhiben una relación positiva entre sí, lo que se valida mediante la suma positiva de productos (es decir, la suma de los puntos azules).

ingrese la descripción de la imagen aquí


0

en el espacio vectorial de variables aleatorias es razonable definir el cuadrado de distancia entre dos variables aleatorias x e y con E {(xy) ^ 2} ahora con respecto a esta definición de producto de punto de distancia o la relación de variables aleatorias será E {xy}, que es muy similar a la definición de covarianza, excepto los términos -E {x} y -E {y} que son para el tipo de normalización.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.