¿Cuál es la intuición detrás de las distribuciones gaussianas condicionales?


46

Supongamos que . Entonces, la distribución condicional de dado que es multivariada normalmente distribuida con media:XN2(μ,Σ)X1X2=x2

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

y varianza:

Var[P(X1|X2=x2)]=σ11σ122σ22

Tiene sentido que la varianza disminuya ya que tenemos más información. Pero, ¿cuál es la intuición detrás de la fórmula media? ¿Cómo la covarianza entre y factor en la media condicional?X1X2


2
¿Es su pregunta simplemente 'por qué no es la media de la distribución condicional = '? μ1
gung

@gung: Esto es cierto si . Pero, ¿por qué están y ? x2=μ2σ11σ22
eroeijr

3
En unidades naturales ("estandarizadas") escribimos donde . En estos términos, la distribución condicional es Normal con yEl hecho de que se llama "reversión a la media" o "regresión a la media" : existe una extensa literatura técnica y popular sobre esto que data de hace 130 años. Xi=μ1+σiZiσi=σiiE(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).|ρ|1
whuber

2
Digamos, eroeijr, ¿es esta publicación tuya? (Aparte del 'invitado' al principio, hay una clara similitud en los nombres). Si es suyo, debe solicitar fusionar las dos cuentas y obtener esa gran bonificación en los puntos que tendría.
Glen_b

2
Como sugirió @Glen_b, si tiene varias cuentas (no registradas), complete el formulario en stats.stackexchange.com/contact y solicite que se fusionen.
chl

Respuestas:


57

Sinopsis

Cada declaración en la pregunta puede entenderse como una propiedad de elipses. La única propiedad en particular a la distribución normal bivariada que se necesita es el hecho de que en una serie de dos variables La distribución normal de --para la que e no están correlacionadas - la varianza condicional de no depende de . (Esto a su vez es una consecuencia inmediata del hecho de que la falta de correlación implica independencia para las variables normales conjuntas).X Y Y XX,YXYYX

El siguiente análisis muestra con precisión qué propiedad de las elipses está involucrada y deriva todas las ecuaciones de la pregunta utilizando ideas elementales y la aritmética más simple posible, de una manera que se recuerde fácilmente.


Distribuciones simétricas circulares

La distribución de la pregunta es un miembro de la familia de distribuciones normales bivariadas. Todos se derivan de un miembro básico, el estándar bivariado Normal, que describe dos distribuciones normales estándar no correlacionadas (formando sus dos coordenadas).

Figura 1: la distribución normal bivariada estándar

El lado izquierdo es un gráfico en relieve de la densidad normal bivariada estándar. El lado derecho muestra lo mismo en pseudo-3D, con la parte frontal cortada.

Este es un ejemplo de una distribución simétrica circular : la densidad varía con la distancia desde un punto central pero no con la dirección alejada de ese punto. Por lo tanto, los contornos de su gráfico (a la derecha) son círculos.

Sin embargo, la mayoría de las otras distribuciones normales bivariadas no son circularmente simétricas: sus secciones transversales son elipses. Estas elipses modelan la forma característica de muchas nubes de puntos bivariadas.

Figura 2: otra distribución normal bivariada, trazada

Estos son retratos de la distribución normal bivariada con matriz de covarianza Es un modelo para datos con coeficiente de correlación .-2/3Σ=(123231).2/3


Cómo crear elipses

Una elipse, según su definición más antigua, es una sección cónica, que es un círculo distorsionado por una proyección en otro plano. Al considerar la naturaleza de la proyección, tal como lo hacen los artistas visuales, podemos descomponerla en una secuencia de distorsiones que son fáciles de entender y calcular.

Primero, estira (o, si es necesario, aprieta) el círculo a lo largo de lo que se convertirá en el eje largo de la elipse hasta que tenga la longitud correcta:

Paso 1: estirar

Luego, exprima (o estire) esta elipse a lo largo de su eje menor:

Paso 2: exprimir

Tercero, gírelo alrededor de su centro en su orientación final:

Paso 3: rotar

Finalmente, muévalo a la ubicación deseada:

Paso 4: turno

Estas son todas transformaciones afines. (De hecho, los primeros tres son transformaciones lineales ; el cambio final lo hace afín.) Debido a que una composición de transformaciones afines es (por definición) todavía afín, la distorsión neta del círculo a la elipse final es una transformación afín. Pero puede ser algo complicado:

Transformación compuesta

Observe lo que sucedió con los ejes (naturales) de la elipse: después de que fueron creados por el desplazamiento y la compresión, (por supuesto) giraron y cambiaron junto con el eje mismo. Podemos ver fácilmente estos ejes incluso cuando no están dibujados, porque son ejes de simetría de la propia elipse.

Nos gustaría aplicar nuestra comprensión de las elipses para comprender distribuciones simétricas circulares distorsionadas, como la familia normal bivariada. Desafortunadamente, hay un problema con estas distorsiones : no respetan la distinción entre los ejes e . La rotación en el paso 3 arruina eso. Mire las débiles cuadrículas de coordenadas en los fondos: estas muestran lo que le sucede a una cuadrícula (de mallay 1 / 2 xxy1/2en ambas direcciones) cuando está distorsionado. En la primera imagen, el espacio entre las líneas verticales originales (se muestra sólido) se duplica. En la segunda imagen, el espacio entre las líneas horizontales originales (se muestra discontinua) se reduce en un tercio. En la tercera imagen, los espacios de la cuadrícula no cambian, pero todas las líneas se giran. Se desplazan hacia arriba y hacia la derecha en la cuarta imagen. La imagen final, que muestra el resultado neto, muestra esta cuadrícula estirada, exprimida, girada y desplazada. Las líneas continuas originales de coordenada constante ya no son verticales.x

La idea clave, uno podría aventurarse a decir que es el quid de la regresión, es que hay una forma en que el círculo puede distorsionarse en una elipse sin rotar las líneas verticales . Debido a que la rotación fue la culpable, vamos al grano y ¡mostramos cómo crear una elipse girada sin que parezca que gira nada !

Elipse sesgada

Esta es una transformación sesgada. Realmente hace dos cosas a la vez:

  • Se comprime en la dirección (por una cantidad , por ejemplo). Esto deja solo el eje .λ xyλx

  • Levanta cualquier punto resultante en una cantidad directamente proporcional a . Al escribir esa constante de proporcionalidad como , esto envía a .x(x,y)xρ(x,y)(x,y+ρx)

El segundo paso eleva el eje a la línea , que se muestra en la figura anterior. Como se muestra en esa figura, quiero trabajar con una transformación de inclinación especial, una que efectivamente gire la elipse en 45 grados y la inscriba en el cuadrado de la unidad. El eje principal de esta elipse es la línea . Es visualmente evidente que . (Los valores negativos de inclinan la elipse hacia la derecha en lugar de hacia la derecha). Esta es la explicación geométrica de "regresión a la media".xy=ρxy=x|ρ|1ρ

Elegir un ángulo de 45 grados hace que la elipse sea simétrica alrededor de la diagonal del cuadrado (parte de la línea ). Para descubrir los parámetros de esta transformación sesgada, observe:y=x

  • El levantamiento por mueve el punto a .ρx(1,0)(1,ρ)

  • La simetría alrededor de la diagonal principal implica que el punto también se encuentra en la elipse.(ρ,1)

¿Dónde comenzó este punto?

  • El punto original (superior) en el círculo unitario (que tiene la ecuación implícita ) con la coordenada era .x2+y2=1xρ(ρ,1ρ2)

  • Cualquier punto de la forma primero se redujo a y luego se elevó a .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

La solución única a la ecuación es . Esa es la cantidad en la cual todas las distancias en la dirección vertical deben exprimirse para crear una elipse en un ángulo de 45 grados cuando es torcida verticalmente por .(ρ,λ1ρ2+ρ2)=(ρ,1)λ=1ρ2ρ

Para reafirmar estas ideas, aquí hay un cuadro que muestra cómo una distribución simétrica circular se distorsiona en distribuciones con contornos elípticos por medio de estas transformaciones asimétricas. Los paneles muestran valores de iguales a y de izquierda a derecha.ρ0, 3/10, 6/10,9/10,

Cuadro

La figura más a la izquierda muestra un conjunto de puntos de partida alrededor de uno de los contornos circulares, así como parte del eje horizontal. Las figuras posteriores usan flechas para mostrar cómo se mueven esos puntos. La imagen del eje horizontal aparece como un segmento de línea inclinada (con pendiente ). (Los colores representan diferentes cantidades de densidad en las diferentes figuras).ρ


Solicitud

Estamos listos para hacer regresión. Un método estándar, elegante (pero simple) para realizar la regresión es primero expresar las variables originales en nuevas unidades de medida: las centramos en sus medios y usamos sus desviaciones estándar como unidades. Esto mueve el centro de la distribución al origen y hace que todos sus contornos elípticos se inclinen 45 grados (hacia arriba o hacia abajo).

Cuando estos datos estandarizados forman una nube de puntos circular, la regresión es fácil: los medios condicionales a son todos , formando una línea que pasa por el origen. (La simetría circular implica simetría con respecto al eje , lo que muestra que todas las distribuciones condicionales son simétricas, por lo que tienen medios.) Como hemos visto, podemos ver la distribución estandarizada como resultado de esta situación simple básica en dos pasos: primero , todos los valores (estandarizados) se multiplican por para algún valor de ; a continuación, todos los valores con coordenadas están sesgados verticalmente porx0x0y1ρ2ρxρx. ¿Qué le hicieron estas distorsiones a la línea de regresión (que traza las medias condicionales contra )?x

  • La reducción de las coordenadas multiplicó todas las desviaciones verticales por una constante. Esto simplemente cambió la escala vertical y dejó todos los medios condicionales inalterados en .y0

  • La transformación de inclinación vertical agregó a todos los valores condicionales en , agregando así a su media condicional: la curva es la curva de regresión, que resulta ser una línea.ρxxρxy=ρx

De manera similar, podemos verificar que debido a que el eje es el ajuste de mínimos cuadrados a la distribución simétrica circular, el ajuste de mínimos cuadrados a la distribución transformada también es la línea : la línea de mínimos cuadrados coincide con la línea de regresión .xy=ρx

Estos hermosos resultados son una consecuencia del hecho de que la transformación de inclinación vertical no cambia ninguna coordenada .x

Podemos decir más fácilmente:

  • La primera viñeta (sobre la reducción) muestra que cuando tiene una distribución simétrica circular, la varianza condicional de se multiplica por .Y | X ( (X,Y)Y|X(1ρ2)2=1ρ2

  • Más en general: la transformación de inclinación vertical reescala cada distribución condicional por y luego la vuelve a centrar por . ρx1ρ2ρx

Para la distribución normal bivariada estándar, la varianza condicional es una constante (igual a ), independiente de . Inmediatamente concluimos que después de aplicar esta transformación sesgada, la varianza condicional de las desviaciones verticales sigue siendo constante e igual a . Debido a que las distribuciones condicionales de una normal bivariada son en sí mismas normales, ahora que conocemos sus medios y variaciones, tenemos información completa sobre ellas.1x1ρ2

Finalmente, necesitamos relacionar con la matriz de covarianza original . ρΣ Para esto, recuerde que la definición (más agradable) del coeficiente de correlación entre dos variables estandarizadas e es la expectativa de su producto . (La correlación de e simplemente se declara como la correlación de sus versiones estandarizadas). Por lo tanto, cuando sigue cualquier distribución simétrica circular y aplicamos la transformación sesgada a las variables, podemos escribirXYXYXY(X,Y)

ε=YρX

para las desviaciones verticales de la línea de regresión y observe que debe tener una distribución simétrica alrededor de . ¿Por qué? Debido a que antes se aplicó la transformación de sesgo, tenía una distribución simétrica alrededor de y entonces (a) la apretó y (b) la levantó por . El primero no cambió su simetría mientras que el segundo lo volvió a centrar en , QED. La siguiente figura ilustra esto.ε0Y0ρXρX

Gráfico 3D que muestra distribuciones condicionales y la línea de mínimos cuadrados

Las líneas negras trazan alturas proporcionales a las densidades condicionales en varios valores de regularmente espaciados . La línea blanca gruesa es la línea de regresión, que pasa por el centro de simetría de cada curva condicional. Este gráfico muestra el caso en coordenadas estandarizadas.xρ=1/2

Por consiguiente

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

La igualdad final se debe a dos hechos: (1) porque se ha estandarizado, la expectativa de su cuadrado es su varianza estandarizada, igual a por construcción; y (2) la expectativa de es igual a la expectativa de en virtud de la simetría de . Como el último es el negativo del primero, ambos deben ser iguales a : este término desaparece.1 X εX1XεX(ε)ε0

Hemos identificado el parámetro de la transformación de inclinación, , como siendo el coeficiente de correlación de y .ρXY


Conclusiones

Al observar que se puede producir cualquier elipse distorsionando un círculo con una transformación de inclinación vertical que preserva la coordenada , hemos llegado a una comprensión de los contornos de cualquier distribución de variables aleatorias que se obtiene de una circular simétrica uno por medio de estiramientos, apretones, rotaciones y turnos (es decir, cualquier transformación afín). Al volver a expresar los resultados en términos de las unidades originales de e equivale a volver a agregar sus medias, y , después de multiplicar por sus desviaciones estándar y sigma_y, encontramos que:x(X,Y)xyμxμyσxσy

  • La línea de mínimos cuadrados y la curva de regresión pasan por el origen de las variables estandarizadas, que corresponde al "punto de promedios" en las coordenadas originales.(μx,μy)

  • La curva de regresión, que se define como el lugar geométrico de los medios condicionales, coincide con la línea de mínimos cuadrados.{(x,ρx)},

  • La pendiente de la línea de regresión en coordenadas estandarizadas es el coeficiente de correlación ; en las unidades originales, por lo tanto, es igual a .ρσyρ/σx

En consecuencia, la ecuación de la línea de regresión es

y=σyρσx(xμx)+μy.
  • La varianza condicional de es veces la varianza condicional de donde tiene una distribución estándar (circularmente simétrica con varianzas unitarias en ambos coordenadas), , e .Y|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σxY=(YμY)/σY

Ninguno de estos resultados es una propiedad particular de las distribuciones bivariadas normales. Para la familia normal bivariada, la varianza condicional de es constante (e igual a ): este hecho hace que la familia sea particularmente fácil de trabajar. En particular:Y|X1

  • Porque en la matriz de covarianza los coeficientes son y la varianza condicional de para una distribución normal bivariada esΣσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

Notas técnicas

La idea clave puede expresarse en términos de matrices que describen las transformaciones lineales. Todo se reduce a encontrar una "raíz cuadrada" adecuada de la matriz de correlación para la cual es un vector propio. Así:y

(1ρρ1)=AA

dónde

A=(10ρ1ρ2).

Una raíz cuadrada mucho mejor conocida es la descrita inicialmente (que implica una rotación en lugar de una transformación sesgada); Es el producido por una descomposición de valores singulares y desempeña un papel destacado en el análisis de componentes principales (PCA):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

donde es la matriz de rotación para una rotación de grados.Q=(12121212)45

Por lo tanto, la distinción entre PCA y regresión se reduce a la diferencia entre dos raíces cuadradas especiales de la matriz de correlación.


1
Hermosas fotos y excelentes descripciones. Hubo algunas oraciones en la actualización que quedaron incompletas (como si supieras básicamente lo que ibas a decir, pero no te hubieras decidido por la redacción final).
Cardenal

1
@ Cardenal Gracias. Volveré a leer esto y buscaré esas cosas, así como los errores tipográficos inevitables. Eres demasiado amable para señalar otras cosas que seguramente notaste, como algunos vacíos en la exposición. Lo más importante es que en realidad no demostré que estas elipses están en ángulos de 45 grados (equivalentemente, inscrito en el cuadrado de la unidad); Simplemente asumí eso. Todavía estoy buscando una demostración simple. La otra es que uno podría preocuparse de que la transformación asimétrica pueda producir una distribución diferente a la del estiramiento-compresión-rotación-cambio original, pero es fácil demostrar que no lo hace.
Whuber

3
Eso es realmente interesante Gracias por tomarse el tiempo para escribirlo.
Bill

En el primer párrafo de las solicitudes está escrito que: "los centramos en sus medios y usamos sus desviaciones estándar como unidades. Esto mueve el centro de la distribución al origen y hace que todos sus contornos elípticos se inclinen 45 grados", pero no lo hago ¿No comprende cómo centrar las variables en sus medios mueve sus centros al origen y los alinea a 45 grados?
Kaushal28

@whuber cuando comienzas con un círculo unitario (conjunto de muestras estandarizado), dices que la correlación es 0, así que imagino, obtenemos un círculo algo así como . Pero, ¿cómo 0 correlación significa independencia? (porque se obtiene por como vemos. Por lo general, ¿no es cierto, verdad? ¿Incluso las variables dependientes podrían producir 0 correlaciones?f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)
Parthiban Rajendran

21

Esto es esencialmente una regresión lineal (MCO). En ese caso, está encontrando la distribución condicional de dado que . (Estrictamente hablando, la regresión OLS no hace suposiciones sobre la distribución de , mientras que su ejemplo es una normal multivariante, pero ignoraremos estas cosas). Ahora, si la covarianza entre y no es , entonces la media de la la distribución condicional de tiene que cambiar a medida que cambia el valor de donde está 'cortando' la distribución multivariante. Considere la figura a continuación: YX=xiXX1X20X2x1

ingrese la descripción de la imagen aquí

Aquí vemos que las distribuciones marginales son normales, con una correlación positiva entre y . Si observa la distribución condicional de en cualquier punto de , la distribución es una normal univariante. Sin embargo, debido a la correlación positiva (es decir, la covarianza no nula), la media de esas distribuciones condicionales aumenta a medida que se mueve de izquierda a derecha. Por ejemplo, la figura muestra que . X1X2X2X1μX2|X1=25μX2|X1=45

( Para cualquier lector futuro que pueda confundirse con los símbolos, quiero decir que, por ejemplo, es un elemento de la matriz de covarianza . Por lo tanto, es la varianza de , aunque la gente normalmente piense en una varianza como y como una desviación estándarσ22ΣX2σ2σ ) .

Su ecuación para la media está directamente conectada a la ecuación para estimar la pendiente en la regresión OLS (y recuerde que en la regresión es la media condicional): En su ecuación, es la covarianza sobre la varianza; es decir, es la pendiente , igual que arriba. Por lo tanto, su ecuación para la media es solo deslizar su media condicional, , hacia arriba o hacia abajo desde su media incondicional, , en función de qué tan lejos de es y la pendiente de la relación entre y . y^i
σ 12 /σ 22 μX2| X1=xiμX2μX2x2iX1X2

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

¿Qué sucede si condiciona más variables? ¿Simplemente sumarías y restarías términos adicionales de la media y la varianza?

2
@kerkejnrke, si modela la distribución de condicional en algún nivel específico de un conjunto de variables , está haciendo una regresión múltiple . Esto es un poco más complicado, pero finalmente es lo mismo. La media sería: , donde . X y i = X i β = ( X T X ) - 1 X T YYXy^i=Xiβ^β^=(XTX)1XTY
gung - Restablecer Monica

¿Qué usaste para producir el gráfico? Mathematica?
mpiktas

@mpiktas, ¿mi gráfico o el de whuber? Creo que los suyos son Mathematica, pero hice el de arriba con R. (código feo sin embargo ...)
gung - Vuelva a instalar a Monica

1
@mpiktas, no puedo imaginar que mi código se describa como "impresionante" ... Las curvas normales se dibujan con / dnorm(y). Simplemente agrego la salida a 25& 45, y uso como x.
gung - Restablece a Monica

3

La respuesta de Gung es buena (+1). Sin embargo, hay otra forma de verlo. Imagine que la covarianza entre y fuera positiva. ¿Qué significa para ? Bueno, significa que cuando está por encima de la media de , tiende a estar por encima de la media de , y viceversa .X 2 σ 1 , 2 > 0 X 2 X 2 X 1 X 1X1X2σ1,2>0X2X2X1X1

Ahora supongamos que te dije que . Es decir, supongamos que te digo que está por encima de su media. ¿No concluiría que es probable que esté por encima de su media (ya que sabe y sabe lo que significa covarianza)? Entonces, ahora, si toma la media de , sabiendo que está por encima de la media de , obtendrá un número por encima de la media de . Eso es lo que dice la fórmula: Si la covarianza es positiva yX2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2está por encima de su media, entonces . E{X1|X2=x2}>μ1

La expectativa condicional toma la forma anterior para la distribución normal, no para todas las distribuciones. Esto parece un poco extraño dado que el razonamiento en el párrafo anterior parece bastante convincente. Sin embargo, (casi) sin importar las distribuciones de y esta fórmula es correcta: Donde significa el mejor predictor lineal. La distribución normal es especial en que la expectativa condicional y el mejor predictor lineal son lo mismo.X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

No parece haber ningún elemento de este argumento que muestre que el coeficiente de debería ser igual a la relación de las covarianzas . ¿Por qué no el cubo de esa proporción? O su seno? ¿O alguna otra medida de asociación, como la divergencia KL (que tiene poco que ver con la covarianza)? Dichas fórmulas reproducirían cualitativamente el comportamiento que usted describe. Dada tal imprecisión en el razonamiento, no debería sorprendernos que su fórmula se aplique solo a una forma particular de distribución bivariada y no a cualquier distribución. σ 12 / σ 22x2μ2σ12/σ22
whuber

1
@whuber Sí, y es aún peor que eso. No es particularmente difícil preparar un ejemplo con distribuciones no normales donde, por algún valor de , aunque . Las partes de mi discusión "tienden a ser" y "probablemente sean" son fangosas. Quizás uno podría liderar con la fórmula BLP (¿tal vez derivarla?), Pero la pregunta pedía intuición en lugar de prueba. x2>μ2σ 1 , 2 > 0E(X1|X2=x2)<μ1σ1,2>0
Bill

1
"Intuitivo" no implica "no cuantitativo": los dos pueden ir juntos. A menudo es difícil encontrar un argumento intuitivo que dé resultados cuantitativos, pero con frecuencia se puede hacer y el proceso de encontrar dicho argumento siempre es esclarecedor.
whuber

Re el último párrafo: he descubierto que la distribución normal no es tan especial: las familias creadas por transformaciones afines de distribuciones simétricas circulares son las especiales (de las cuales hay muchas).
whuber

@whuber Eso es bastante interesante. ¿Tienes un enlace o cita?
Bill
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.