Sinopsis
Cada declaración en la pregunta puede entenderse como una propiedad de elipses. La única propiedad en particular a la distribución normal bivariada que se necesita es el hecho de que en una serie de dos variables La distribución normal de --para la que e no están correlacionadas - la varianza condicional de no depende de . (Esto a su vez es una consecuencia inmediata del hecho de que la falta de correlación implica independencia para las variables normales conjuntas).X Y Y XX,YXYYX
El siguiente análisis muestra con precisión qué propiedad de las elipses está involucrada y deriva todas las ecuaciones de la pregunta utilizando ideas elementales y la aritmética más simple posible, de una manera que se recuerde fácilmente.
Distribuciones simétricas circulares
La distribución de la pregunta es un miembro de la familia de distribuciones normales bivariadas. Todos se derivan de un miembro básico, el estándar bivariado Normal, que describe dos distribuciones normales estándar no correlacionadas (formando sus dos coordenadas).
El lado izquierdo es un gráfico en relieve de la densidad normal bivariada estándar. El lado derecho muestra lo mismo en pseudo-3D, con la parte frontal cortada.
Este es un ejemplo de una distribución simétrica circular : la densidad varía con la distancia desde un punto central pero no con la dirección alejada de ese punto. Por lo tanto, los contornos de su gráfico (a la derecha) son círculos.
Sin embargo, la mayoría de las otras distribuciones normales bivariadas no son circularmente simétricas: sus secciones transversales son elipses. Estas elipses modelan la forma característica de muchas nubes de puntos bivariadas.
Estos son retratos de la distribución normal bivariada con matriz de covarianza Es un modelo para datos con coeficiente de correlación .-2/3Σ=(1−23−231).−2/3
Cómo crear elipses
Una elipse, según su definición más antigua, es una sección cónica, que es un círculo distorsionado por una proyección en otro plano. Al considerar la naturaleza de la proyección, tal como lo hacen los artistas visuales, podemos descomponerla en una secuencia de distorsiones que son fáciles de entender y calcular.
Primero, estira (o, si es necesario, aprieta) el círculo a lo largo de lo que se convertirá en el eje largo de la elipse hasta que tenga la longitud correcta:
Luego, exprima (o estire) esta elipse a lo largo de su eje menor:
Tercero, gírelo alrededor de su centro en su orientación final:
Finalmente, muévalo a la ubicación deseada:
Estas son todas transformaciones afines. (De hecho, los primeros tres son transformaciones lineales ; el cambio final lo hace afín.) Debido a que una composición de transformaciones afines es (por definición) todavía afín, la distorsión neta del círculo a la elipse final es una transformación afín. Pero puede ser algo complicado:
Observe lo que sucedió con los ejes (naturales) de la elipse: después de que fueron creados por el desplazamiento y la compresión, (por supuesto) giraron y cambiaron junto con el eje mismo. Podemos ver fácilmente estos ejes incluso cuando no están dibujados, porque son ejes de simetría de la propia elipse.
Nos gustaría aplicar nuestra comprensión de las elipses para comprender distribuciones simétricas circulares distorsionadas, como la familia normal bivariada. Desafortunadamente, hay un problema con estas distorsiones : no respetan la distinción entre los ejes e . La rotación en el paso 3 arruina eso. Mire las débiles cuadrículas de coordenadas en los fondos: estas muestran lo que le sucede a una cuadrícula (de mallay 1 / 2 xxy1/2en ambas direcciones) cuando está distorsionado. En la primera imagen, el espacio entre las líneas verticales originales (se muestra sólido) se duplica. En la segunda imagen, el espacio entre las líneas horizontales originales (se muestra discontinua) se reduce en un tercio. En la tercera imagen, los espacios de la cuadrícula no cambian, pero todas las líneas se giran. Se desplazan hacia arriba y hacia la derecha en la cuarta imagen. La imagen final, que muestra el resultado neto, muestra esta cuadrícula estirada, exprimida, girada y desplazada. Las líneas continuas originales de coordenada constante ya no son verticales.x
La idea clave, uno podría aventurarse a decir que es el quid de la regresión, es que hay una forma en que el círculo puede distorsionarse en una elipse sin rotar las líneas verticales . Debido a que la rotación fue la culpable, vamos al grano y ¡mostramos cómo crear una elipse girada sin que parezca que gira nada !
Esta es una transformación sesgada. Realmente hace dos cosas a la vez:
Se comprime en la dirección (por una cantidad , por ejemplo). Esto deja solo el eje .λ xyλx
Levanta cualquier punto resultante en una cantidad directamente proporcional a . Al escribir esa constante de proporcionalidad como , esto envía a .x(x,y)xρ(x,y)(x,y+ρx)
El segundo paso eleva el eje a la línea , que se muestra en la figura anterior. Como se muestra en esa figura, quiero trabajar con una transformación de inclinación especial, una que efectivamente gire la elipse en 45 grados y la inscriba en el cuadrado de la unidad. El eje principal de esta elipse es la línea . Es visualmente evidente que . (Los valores negativos de inclinan la elipse hacia la derecha en lugar de hacia la derecha). Esta es la explicación geométrica de "regresión a la media".xy=ρxy=x|ρ|≤1ρ
Elegir un ángulo de 45 grados hace que la elipse sea simétrica alrededor de la diagonal del cuadrado (parte de la línea ). Para descubrir los parámetros de esta transformación sesgada, observe:y=x
El levantamiento por mueve el punto a .ρx(1,0)(1,ρ)
La simetría alrededor de la diagonal principal implica que el punto también se encuentra en la elipse.(ρ,1)
¿Dónde comenzó este punto?
El punto original (superior) en el círculo unitario (que tiene la ecuación implícita ) con la coordenada era .x2+y2=1xρ(ρ,1−ρ2−−−−−√)
Cualquier punto de la forma primero se redujo a y luego se elevó a .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)
La solución única a la ecuación es . Esa es la cantidad en la cual todas las distancias en la dirección vertical deben exprimirse para crear una elipse en un ángulo de 45 grados cuando es torcida verticalmente por .(ρ,λ1−ρ2−−−−−√+ρ2)=(ρ,1)λ=1−ρ2−−−−−√ρ
Para reafirmar estas ideas, aquí hay un cuadro que muestra cómo una distribución simétrica circular se distorsiona en distribuciones con contornos elípticos por medio de estas transformaciones asimétricas. Los paneles muestran valores de iguales a y de izquierda a derecha.ρ0, 3/10, 6/10,9/10,
La figura más a la izquierda muestra un conjunto de puntos de partida alrededor de uno de los contornos circulares, así como parte del eje horizontal. Las figuras posteriores usan flechas para mostrar cómo se mueven esos puntos. La imagen del eje horizontal aparece como un segmento de línea inclinada (con pendiente ). (Los colores representan diferentes cantidades de densidad en las diferentes figuras).ρ
Solicitud
Estamos listos para hacer regresión. Un método estándar, elegante (pero simple) para realizar la regresión es primero expresar las variables originales en nuevas unidades de medida: las centramos en sus medios y usamos sus desviaciones estándar como unidades. Esto mueve el centro de la distribución al origen y hace que todos sus contornos elípticos se inclinen 45 grados (hacia arriba o hacia abajo).
Cuando estos datos estandarizados forman una nube de puntos circular, la regresión es fácil: los medios condicionales a son todos , formando una línea que pasa por el origen. (La simetría circular implica simetría con respecto al eje , lo que muestra que todas las distribuciones condicionales son simétricas, por lo que tienen medios.) Como hemos visto, podemos ver la distribución estandarizada como resultado de esta situación simple básica en dos pasos: primero , todos los valores (estandarizados) se multiplican por para algún valor de ; a continuación, todos los valores con coordenadas están sesgados verticalmente porx0x0y1−ρ2−−−−−√ρxρx. ¿Qué le hicieron estas distorsiones a la línea de regresión (que traza las medias condicionales contra )?x
La reducción de las coordenadas multiplicó todas las desviaciones verticales por una constante. Esto simplemente cambió la escala vertical y dejó todos los medios condicionales inalterados en .y0
La transformación de inclinación vertical agregó a todos los valores condicionales en , agregando así a su media condicional: la curva es la curva de regresión, que resulta ser una línea.ρxxρxy=ρx
De manera similar, podemos verificar que debido a que el eje es el ajuste de mínimos cuadrados a la distribución simétrica circular, el ajuste de mínimos cuadrados a la distribución transformada también es la línea : la línea de mínimos cuadrados coincide con la línea de regresión .xy=ρx
Estos hermosos resultados son una consecuencia del hecho de que la transformación de inclinación vertical no cambia ninguna coordenada .x
Podemos decir más fácilmente:
La primera viñeta (sobre la reducción) muestra que cuando tiene una distribución simétrica circular, la varianza condicional de se multiplica por .Y | X ( √(X,Y)Y|X(1−ρ2−−−−−√)2=1−ρ2
Más en general: la transformación de inclinación vertical reescala cada distribución condicional por y luego la vuelve a centrar por . ρx1−ρ2−−−−−√ρx
Para la distribución normal bivariada estándar, la varianza condicional es una constante (igual a ), independiente de . Inmediatamente concluimos que después de aplicar esta transformación sesgada, la varianza condicional de las desviaciones verticales sigue siendo constante e igual a . Debido a que las distribuciones condicionales de una normal bivariada son en sí mismas normales, ahora que conocemos sus medios y variaciones, tenemos información completa sobre ellas.1x1−ρ2
Finalmente, necesitamos relacionar con la matriz de covarianza original . ρΣ Para esto, recuerde que la definición (más agradable) del coeficiente de correlación entre dos variables estandarizadas e es la expectativa de su producto . (La correlación de e simplemente se declara como la correlación de sus versiones estandarizadas). Por lo tanto, cuando sigue cualquier distribución simétrica circular y aplicamos la transformación sesgada a las variables, podemos escribirXYXYXY(X,Y)
ε=Y−ρX
para las desviaciones verticales de la línea de regresión y observe que debe tener una distribución simétrica alrededor de . ¿Por qué? Debido a que antes se aplicó la transformación de sesgo, tenía una distribución simétrica alrededor de y entonces (a) la apretó y (b) la levantó por . El primero no cambió su simetría mientras que el segundo lo volvió a centrar en , QED. La siguiente figura ilustra esto.ε0Y0ρXρX
Las líneas negras trazan alturas proporcionales a las densidades condicionales en varios valores de regularmente espaciados . La línea blanca gruesa es la línea de regresión, que pasa por el centro de simetría de cada curva condicional. Este gráfico muestra el caso en coordenadas estandarizadas.xρ=−1/2
Por consiguiente
E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.
La igualdad final se debe a dos hechos: (1) porque se ha estandarizado, la expectativa de su cuadrado es su varianza estandarizada, igual a por construcción; y (2) la expectativa de es igual a la expectativa de en virtud de la simetría de . Como el último es el negativo del primero, ambos deben ser iguales a : este término desaparece.1 X εX1XεX(−ε)ε0
Hemos identificado el parámetro de la transformación de inclinación, , como siendo el coeficiente de correlación de y .ρXY
Conclusiones
Al observar que se puede producir cualquier elipse distorsionando un círculo con una transformación de inclinación vertical que preserva la coordenada , hemos llegado a una comprensión de los contornos de cualquier distribución de variables aleatorias que se obtiene de una circular simétrica uno por medio de estiramientos, apretones, rotaciones y turnos (es decir, cualquier transformación afín). Al volver a expresar los resultados en términos de las unidades originales de e equivale a volver a agregar sus medias, y , después de multiplicar por sus desviaciones estándar y sigma_y, encontramos que:x(X,Y)xyμxμyσxσy
La línea de mínimos cuadrados y la curva de regresión pasan por el origen de las variables estandarizadas, que corresponde al "punto de promedios" en las coordenadas originales.(μx,μy)
La curva de regresión, que se define como el lugar geométrico de los medios condicionales, coincide con la línea de mínimos cuadrados.{(x,ρx)},
La pendiente de la línea de regresión en coordenadas estandarizadas es el coeficiente de correlación ; en las unidades originales, por lo tanto, es igual a .ρσyρ/σx
En consecuencia, la ecuación de la línea de regresión es
y=σyρσx(x−μx)+μy.
- La varianza condicional de es veces la varianza condicional de donde tiene una distribución estándar (circularmente simétrica con varianzas unitarias en ambos coordenadas), , e .Y|Xσ2y(1−ρ2)Y′|X′(X′,Y′)X′=(X−μX)/σxY′=(Y−μY)/σY
Ninguno de estos resultados es una propiedad particular de las distribuciones bivariadas normales. Para la familia normal bivariada, la varianza condicional de es constante (e igual a ): este hecho hace que la familia sea particularmente fácil de trabajar. En particular:Y′|X′1
- Porque en la matriz de covarianza los coeficientes son y la varianza condicional de para una distribución normal bivariada esΣσ11=σ2x, σ12=σ21=ρσxσy,σ22=σ2y,Y|X
σ2y(1−ρ2)=σ22(1−(σ12σ11σ22−−−−−√)2)=σ22−σ212σ11.
Notas técnicas
La idea clave puede expresarse en términos de matrices que describen las transformaciones lineales. Todo se reduce a encontrar una "raíz cuadrada" adecuada de la matriz de correlación para la cual es un vector propio. Así:y
(1ρρ1)=AA′
dónde
A=(1ρ01−ρ2−−−−−√).
Una raíz cuadrada mucho mejor conocida es la descrita inicialmente (que implica una rotación en lugar de una transformación sesgada); Es el producido por una descomposición de valores singulares y desempeña un papel destacado en el análisis de componentes principales (PCA):
(1ρρ1)=BB′;
B=Q(ρ+1−−−−√001−ρ−−−−√)Q′
donde es la matriz de rotación para una rotación de grados.Q=⎛⎝12√12√−12√12√⎞⎠45
Por lo tanto, la distinción entre PCA y regresión se reduce a la diferencia entre dos raíces cuadradas especiales de la matriz de correlación.