Intuición (geométrica u otra) de


18

Considere la identidad elemental de la varianza:

Var(X)=E[(XE[X])2]=...=E[X2](E[X])2

Es una simple manipulación algebraica de la definición de un momento central en momentos no centrales.

Permite la manipulación conveniente de en otros contextos. También permite el cálculo de la varianza a través de un solo paso sobre los datos en lugar de dos pases, primero para calcular la media y luego para calcular la varianza.Var(X)

Pero que significa ? Para mí, no existe una intuición geométrica inmediata que relacione la dispersión sobre la media con la dispersión sobre 0. Como es un conjunto en una sola dimensión, ¿cómo ves la dispersión alrededor de una media como la diferencia entre la dispersión alrededor del origen y el cuadrado del ¿media?X

¿Hay alguna buena interpretación de álgebra lineal o interpretación física u otra que pueda dar una idea de esta identidad?


77
Sugerencia: este es el teorema de Pitágoras.
whuber

1
@Matthew Me pregunto qué significa " ". Sospecho que no es una expectativa, sino solo una abreviatura de la media aritmética. De lo contrario, las ecuaciones serían incorrectas (y casi sin sentido, ya que luego equipararían variables aleatorias con números). E
whuber

2
@whuber Dado que los productos internos introducen la idea de distancias y ángulos, y el producto interno del espacio vectorial de variables aleatorias con valores reales se define como (?), me pregunto si podría darse alguna intuición geométrica a través de La desigualdad del triángulo. No tengo idea de cómo proceder, pero me preguntaba si tiene algún sentido. E[XY]
Antoni Parellada

1
@ Antonio La desigualdad del triángulo es demasiado general. Un producto interno es un objeto mucho más especial. Afortunadamente, la intuición geométrica apropiada es precisamente la de la geometría euclidiana. Además, incluso en el caso de las variables aleatorias e , la geometría necesaria puede limitarse al espacio vectorial real bidimensional generado por e : es decir, en el propio plano euclidiano. En el presente caso, no parece ser un RV: es solo un vector. Aquí, el espacio atravesado por y es el plano euclidiano en el que ocurre toda la geometría. Y X Y X n X ( 1 , 1 , , 1 )XYXYXnX(1,1,,1)
whuber

3
Establecer en la respuesta a la que me , y dividir todos los términos por (si lo desea) le dará la solución algebraica completa para la variación: no hay razón para copiarlo nuevamente. Esto se debe a que es la media aritmética de , donde es solo veces la varianza tal como la ha definido aquí, es veces la media aritmética al cuadrado, y es veces la media aritmética de los valores al cuadrado. n β 0y| El | Y - Y | El | 2n| El | Y | El | 2n| El | y| El | 2nβ^1=0nβ^0y||yy^||2n||y^||2n||y||2n
whuber

Respuestas:


21

Ampliando el punto de @ whuber en los comentarios, si y son ortogonales, tiene el Teorema de Pitágoras :ZYZ

Y2+Z2=Y+Z2

Observe que es un producto interno válido y que es la norma inducida por ese producto interno .Y = Y,ZE[YZ]Y=E[Y2]

Deje ser alguna variable aleatoria. Sea , Sea . Si y son ortogonales:Y = E [ X ] Z = X - E [ X ] Y ZXY=E[X]Z=XE[X]YZ

Y2+Z2=Y+Z2mi[mi[X]2]+mi[(X-mi[X])2]=mi[X2]mi[X]2+Vunr[X]=mi[X2]

Y es fácil demostrar que y son ortogonales bajo este producto interno:Z = X - E [ X ]Y=mi[X]Z=X-mi[X]

Y,Z=mi[mi[X](X-mi[X])]=mi[X]2-mi[X]2=0 0

Uno de los catetos del triángulo es , la otra pierna es , y la hipotenusa es . Y el teorema de Pitágoras se puede aplicar porque una variable aleatoria degradada es ortogonal a su media.E [ X ] XX-mi[X]mi[X]X


Comentario técnico:

Y = E [ X ] 1 E [ X ] 1 1 = [ 1 , 1 , 1 , , 1 ] Y X 1Y en este ejemplo realmente debería ser el vector , es decir, el escalar multiplicado por el vector constante (por ejemplo, en el caso de resultados discretos y finitos). es la proyección vectorial de sobre el vector constante .Y=mi[X]1mi[X]11=[1,1,1,...,1]YX1

Ejemplo simple

Considere el caso donde es una variable aleatoria de Bernoulli donde . Tenemos:p = .2Xpag=.2

X=[10 0]PAG=[.2.8]mi[X]=yoPAGyoXyo=.2

Y=mi[X]1=[.2.2]Z=X-mi[X]=[.8-.2]

Y la imagen es: ingrese la descripción de la imagen aquí

La magnitud al cuadrado del vector rojo es la varianza de , la magnitud al cuadrado del vector azul es , y la magnitud al cuadrado del vector amarillo es .E [ X ] 2 E [ X 2 ]Xmi[X]2mi[X2]

RECUERDE, sin embargo, que estas magnitudes, la ortogonalidad, etc., no se producto de punto habitual sino al producto interno . La magnitud del vector amarillo no es 1, es .2.i P i Y i Z iyoYyoZyoyoPAGyoYyoZyo

El vector rojo y el vector azul son perpendiculares debajo del producto interno pero no son perpendiculares en la introducción, sentido de geometría de secundaria. ¡Recuerde que no estamos usando el producto de punto habitual como producto interno!Z = X - E [ X ] i P i Y i Z i i Y i Z iY=mi[X]Z=X-mi[X]yoPAGyoYyoZyoyoYyoZyo


¡Eso es realmente bueno!
Antoni Parellada

1
Buena respuesta (1), pero carece de una figura, y también podría ser un poco confuso para OP porque su Z es su ... X
ameba dice Restablecer Mónica

@MatthewGunn, gran respuesta. Puede consultar mi respuesta a continuación para obtener una representación de la ortogonalidad en el sentido euclidiano.
YBE

Odio ser obtuso, pero tengo problemas para mantener , y la dirección de la lógica recta ('porque' viene en lugares que no tienen sentido para mí). Parece que muchos hechos (bien fundamentados) se expresan al azar. ¿En qué espacio está el producto interno? ¿Por qué 1 ? V a r ( X )ZVar(X)
Mitch

@Mitch El orden lógico es: (1) Observe que un espacio de probabilidad define un espacio vectorial; Podemos tratar las variables aleatorias como vectores. (2) Defina el producto interno de las variables aleatorias y como . En un espacio de producto interno, los vectores y se definen como ortogonales si su producto interno es cero. (3a) Sea una variable aleatoria. (3b) Sea y . (4) Observe que y definidos de esta manera son ortogonales. (5) Dado que yZ E [ Y Z ] Y Z X Y = E [ X ] Z = X - E [ X ] Y Z Y ZYZE[YZ]YZXY=mi[X]Z=X-mi[X]YZYZson ortogonales, se aplica el teorema de Pitágoras (6) Por álgebra simple, el teorema de Pitágoras es equivalente a la identidad.
Matthew Gunn

7

Iré por un enfoque puramente geométrico para un escenario muy específico. Consideremos una variable aleatoria de valor discreto toma valores con probabilidades . Supondremos además que esta variable aleatoria puede representarse en como un vector, . { x 1 , x 2 } ( p 1 , p 2 ) R 2 X = ( x 1 X{X1,X2}(pag1,pag2)R2X=(X1pag1,X2pag2)ingrese la descripción de la imagen aquí

Observe que el cuadrado de longitud de es que es igual a . Por lo tanto, .x 2 1 p 1 + x 2 2 p 2 E [ X 2 ] X = XX12pag1+X22pag2mi[X2]X=mi[X2]

Como , la punta del vector realidad traza una elipse. Esto se vuelve más fácil de ver si uno reparametriza y como y . Por lo tanto, tenemos y .X p 1 p 2 cos 2 ( θ ) sen 2 ( θ ) pag1+pag2=1Xpag1pag2cos2(θ)pecado2(θ)pag1=cos(θ)pag2=pecado(θ)

Una forma de dibujar elipses es a través de un mecanismo llamado Trammel of Archimedes . Como se describe en la wiki: Consiste en dos lanzaderas que están confinadas ("tramelizadas") a canales o rieles perpendiculares, y una barra que está unida a las lanzaderas mediante pivotes en posiciones fijas a lo largo de la barra. A medida que los transbordadores se mueven hacia adelante y hacia atrás, cada uno a lo largo de su canal, el extremo de la barra se mueve en una trayectoria elíptica. Este principio se ilustra en la figura a continuación.

Ahora analicemos geométricamente una instancia de este trasmallo cuando la lanzadera vertical está en y la lanzadera horizontal está en formando un ángulo de . Debido a la construcción, y , (aquí se supone que wlog).B θ | B X | = x 2 | A B | = x 1 - x 2θ x 1x 2UNsiθEl |siXEl |=X2El |UNsiEl |=X1-X2θX1X2

ingrese la descripción de la imagen aquí

Dibujemos una línea desde el origen, , que sea perpendicular a la barra. Uno puede mostrar que . Para esta variable aleatoria específica Por lo tanto, la distancia perpendiculardesde el origen hasta la barra es en realidad igual a la desviación estándar, .| O C | = ( x 1 - x 2 ) sen ( θ ) cos ( θ ) V a r ( X )OCEl |OCEl |=(X1-X2)pecado(θ)cos(θ)| OC| σ

Vunr(X)=(X12pag1+X22pag2)-(X1pag1+X2pag2)2=X12pag1+X22pag2-X12pag12-X22pag22-2X1X2pag1pag2=X12(pag1-pag12)+X22(pag2-pag22)-2X1X2pag1pag2=pag1pag2(X12-2X1X2+X22)=[(X1-X2)pag1pag2]2=El |OCEl |2
El |OCEl |σ

Si calculamos la longitud del segmento de a : X | C X |CX

El |CXEl |=X2+(X1-X2)cos2(θ)=X1cos2(θ)+X2pecado2(θ)=X1pag1+X2pag2=mi[X]

Aplicando el Teorema de Pitágoras en el triángulo OCX, terminamos con

mi[X2]=Vunr(X)+mi[X]2.

Para resumir , para un trasmallo que describe todas las posibles variables aleatorias con valores discretos que toman valores , es la distancia desde el origen hasta la punta del mecanismo y la desviación estándar es la distancia perpendicular a la barra.{X1,X2} σmi[X2]σ

Nota : Tenga en cuenta que cuando es o , es completamente determinista. Cuando es terminamos con una varianza máxima.0 π / 2 X θ π / 4θ0 0π/ /2Xθπ/ /4 4


1
+1 Buena respuesta. ¡Y multiplicar vectores por el cuadrado de las probabilidades es un truco genial / útil para hacer que la noción probabilística habitual de ortogonalidad parezca ortogonal!
Matthew Gunn el

Grandes gráficos Todos los símbolos tienen sentido (el trasmallo describe una elipse y luego se aplica el Thm pitagórico), pero de alguna manera no entiendo intuitivamente cómo da una idea de cómo 'mágicamente' relaciona los momentos (la extensión y el centro.
Mitch

considere el trasmallo como un proceso que define todas las posibles variables aleatorias valoradas . Cuando la barra es horizontal o vertical, tiene un RV determinista. En el medio hay aleatoriedad y resulta que, en mi marco geométrico propuesto, cuán aleatorio se mide exactamente un RV (su estándar) por la distancia de la barra al origen. Puede haber una relación más profunda aquí ya que las curvas elípticas conectan varios objetos en matemáticas, pero no soy matemático, así que realmente no puedo ver esa conexión. (X1,X2)
YBE

3

Puede reorganizar de la siguiente manera:

Vunr(X)=mi[X2]-(mi[X])2mi[X2]=(mi[X])2+Vunr(X)

Luego, interprete lo siguiente: el cuadrado esperado de una variable aleatoria es igual al cuadrado de su media más la desviación al cuadrado esperada de su media.


Oh. Huh Sencillo. Pero los cuadrados todavía parecen poco interpretados. Quiero decir que tiene sentido (más o menos, extremadamente flojo) sin los cuadrados.
Mitch

3
No estoy convencido de esto.
Michael R. Chernick

1
Si se aplica el teorema de Pitágoras, ¿cuál es el triángulo con qué lados y cómo son las dos patas perpendiculares?
Mitch

1

Perdón por no tener la habilidad de elaborar y proporcionar una respuesta adecuada, pero creo que la respuesta se encuentra en el concepto de momentos de la mecánica física clásica, especialmente la conversión entre 0 momentos "crudos" centrados y momentos centrales centrados medios. Tenga en cuenta que la varianza es el momento central de segundo orden de una variable aleatoria.


1

La intuición general es que puede relacionar estos momentos utilizando el Teorema de Pitágoras (PT) en un espacio vectorial adecuadamente definido, al mostrar que dos de los momentos son perpendiculares y el tercero es la hipotenusa. El único álgebra que se necesita es demostrar que las dos patas son ortogonales.

En aras de lo siguiente, supondré que se refería a medias de muestra y variaciones para fines de cálculo en lugar de momentos para distribuciones completas. Es decir:

mi[X]=1norteXyo,metromiunnorte,Fyorst Cminortetrunl sunmetropaglmi metroometrominortetmi[X2]=1norteXyo2,smiConortere sunmetropaglmi metroometrominortet (norteonorte-Cminortetrunl)Vunr(X)=1norte(Xyo-mi[X])2,vunryounnorteCmi,smiConortere Cminortetrunl sunmetropaglmi metroometrominortet

(donde todas las sumas están por encima de elementos).norte

Como referencia, la prueba elemental de es simplemente presionar un símbolo: V a r ( X )Vunr(X)=mi[X2]-mi[X]2

Vunr(X)=1norte(Xyo-mi[X])2=1norte(Xyo2-2mi[X]Xyo+mi[X]2)=1norteXyo2-2nortemi[X]Xyo+1nortemi[X]2=mi[X2]-2mi[X]2+1nortenortemi[X]2=mi[X2]-mi[X]2

Aquí hay poco significado, solo manipulación elemental de álgebra. Uno podría notar que es una constante dentro de la suma, pero eso es todo.mi[X]

Ahora en el espacio vectorial / interpretación geométrica / intuición, lo que mostraremos es la ecuación ligeramente reordenada que corresponde a PT, que

Vunr(X)+mi[X]2=mi[X2]

Considere , la muestra de elementos, como un vector en . Y creemos dos vectores y .XnorteRnortemi[X]1X-mi[X]1

El vector tiene la media de la muestra como cada una de sus coordenadas.mi[X]1

El vector es .X-mi[X]1X1-mi[X],...,Xnorte-mi[X]

Estos dos vectores son perpendiculares porque el producto de los dos vectores resulta ser 0:

mi[X]1(X-mi[X]1)=mi[X](Xyo-mi[X])=(mi[X]Xyo-mi[X]2)=mi[X]Xyo-mi[X]2=nortemi[X]mi[X]-nortemi[X]2=0 0

Entonces, los dos vectores son perpendiculares, lo que significa que son las dos patas de un triángulo rectángulo.

Luego, por PT (que contiene ), la suma de los cuadrados de las longitudes de las dos patas es igual al cuadrado de la hipotenusa.Rnorte

Por el mismo álgebra utilizada en la aburrida prueba algebraica en la parte superior, mostramos que obtenemos que es el cuadrado del vector de hipotenusa:mi[X2]

(X-mi[X])2+mi[X]2=...=mi[X2] donde el cuadrado es el producto de punto (y es realmente y es .mi[X]1(X-mi[X])2Vunr(X)

La parte interesante de esta interpretación es la conversión de una muestra de elementos de una distribución univariada a un espacio vectorial de dimensiones. Esto es similar a muestras bivariadas interpretadas como realmente dos muestras en variables.nortenortenortenorte

En cierto sentido, es suficiente, el triángulo rectángulo de los vectores y aparece como la hipotenusa. Dimos una interpretación (vectores) para estos valores y mostramos que corresponden. Eso es lo suficientemente genial, pero poco esclarecedor, ya sea estadísticamente o geométricamente. Realmente no diría por qué y sería una gran cantidad de maquinaria conceptual adicional para, al final, en su mayoría, reproducir la prueba puramente algebraica que ya teníamos al principio.mi[X2]

Otra parte interesante es que la media y la varianza, aunque miden intuitivamente el centro y se extienden en una dimensión, son ortogonales en dimensiones. ¿Qué significa eso, que son ortogonales? ¡No lo sé! ¿Hay otros momentos que son ortogonales? ¿Existe un sistema de relaciones más amplio que incluya esta ortogonalidad? momentos centrales vs momentos no centrales? ¡No lo sé!norte


También estoy interesado en una interpretación / intuición detrás de la ecuación de compensación de varianza de sesgo superficialmente similar. ¿Alguien tiene pistas allí?
Mitch

Sea la probabilidad de que ocurra el estado . Si entonces , es decir, es simplemente el producto de punto entre e dividido por . Si , lo que usé como producto interno ( ) es básicamente el producto de punto dividido por . Toda esta interpretación pitagórica todavía necesita que uses el producto interno particular (aunque está algebríacamente cerca del clásico producto de punto para una medida de probabilidadpagyoyopagyo=1norteyopagyoXyoYyo=1norteyoXyoYyomi[XY]XYnorteyopagyo=1nortemi[XY]=yopagyoXyoYyonortemi[XY]PAGtal que ). yopagyo=1norte
Matthew Gunn el

Por cierto, el truco que hizo @YBE fue definir nuevos vectores y modo que y . Luego, producto de punto . El producto de punto de y corresponde a (que es lo que usé como producto interno). X^y^X^yo=Xyopagyox y =Σixiy^yo=Xyopagyo x y E[xy]X^y^=yoXyopagyoyyopagyo=yopagyoXyoyyo=mi[Xy]X^y^mi[Xy]
Matthew Gunn el
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.