A veces podemos "aumentar el conocimiento" con un enfoque inusual o diferente. Me gustaría que esta respuesta sea accesible para los niños de kindergarten y que también se divierta, para que todos saquen sus crayones
Dados los datos emparejados , dibuje su diagrama de dispersión. (Los estudiantes más jóvenes pueden necesitar un maestro para producir esto para ellos. :-) Cada par de puntos , en esa gráfica determina un rectángulo: es el rectángulo más pequeño, cuyos lados son paralelos al ejes, que contienen esos puntos. Por lo tanto, los puntos están en las esquinas superior derecha e inferior izquierda (una relación "positiva") o están en las esquinas superior izquierda e inferior derecha (una relación "negativa").( x , y)( xyo, yyo)( xj, yj)
Dibuja todos los rectángulos posibles. Colóquelos de manera transparente, haciendo que los rectángulos positivos sean rojos (digamos) y los rectángulos negativos "anti-rojos" (azul). De esta manera, donde los rectángulos se superponen, sus colores se mejoran cuando son iguales (azul y azul o rojo y rojo) o se cancelan cuando son diferentes.
( En esta ilustración de un rectángulo positivo (rojo) y negativo (azul), la superposición debe ser blanca; desafortunadamente, este software no tiene un verdadero color "anti-rojo". La superposición es gris, por lo que oscurecerá el trama, pero en general la cantidad neta de rojo es correcta ) .
Ahora estamos listos para la explicación de la covarianza.
La covarianza es la cantidad neta de rojo en el gráfico (tratando el azul como valores negativos).
Aquí hay algunos ejemplos con 32 puntos binormales extraídos de distribuciones con las covarianzas dadas, ordenadas de más negativas (más azules) a las más positivas (más rojas).
Se dibujan en ejes comunes para hacerlos comparables. Los rectángulos están ligeramente delineados para ayudarte a verlos. Esta es una versión actualizada (2019) del original: utiliza un software que cancela adecuadamente los colores rojo y cian en rectángulos superpuestos.
Vamos a deducir algunas propiedades de covarianza. La comprensión de estas propiedades será accesible para cualquiera que haya dibujado algunos de los rectángulos. :-)
Bilinealidad. Debido a que la cantidad de rojo depende del tamaño de la gráfica, la covarianza es directamente proporcional a la escala en el eje xy a la escala en el eje y.
Correlación. La covarianza aumenta a medida que los puntos se aproximan a una línea inclinada hacia arriba y disminuye a medida que los puntos se aproximan a una línea inclinada hacia abajo. Esto se debe a que en el primer caso la mayoría de los rectángulos son positivos y en el último caso, la mayoría son negativos.
Relación con asociaciones lineales. Debido a que las asociaciones no lineales pueden crear mezclas de rectángulos positivos y negativos, conducen a covarianzas impredecibles (y no muy útiles). Las asociaciones lineales se pueden interpretar completamente mediante las dos caracterizaciones anteriores.
Sensibilidad a los valores atípicos. Un valor atípico geométrico (un punto alejado de la masa) creará muchos rectángulos grandes en asociación con todos los demás puntos. Solo puede crear una cantidad neta de rojo positivo o negativo en la imagen general.
Por cierto, esta definición de covarianza difiere de la habitual solo por una constante universal de proporcionalidad (independiente del tamaño del conjunto de datos). Los matemáticamente inclinados no tendrán problemas para realizar la demostración algebraica de que la fórmula dada aquí es siempre el doble de la covarianza habitual.