Ley de la varianza total como teorema de Pitágoras

Suponga que $X$ e $Y$ tienen un segundo momento finito. En el espacio de Hilbert de variables aleatorias con segundo momento finito (con el producto interno de $T_1,T_2$ definido por $E(T_1T_2)$ , $||T||^2=E(T^2)$ ), podemos interpretar $E(Y|X)$ como la proyección de $Y$ en el espacio de las funciones de $X$ .

También sabemos que la Ley de varianza total lee

V a r (Y) = E (V a r (Y | X)) + V a r (E (Y | X))

$Var(Y)=E(Var(Y|X)) + Var(E(Y|X))$

¿Hay alguna manera de interpretar esta ley en términos de la imagen geométrica de arriba? Me han dicho que la ley es la misma que el teorema de Pitágoras para el triángulo rectángulo con lados $Y, E(Y|X), Y-E(Y|X)$ . Entiendo por qué el triángulo está en ángulo recto, pero no cómo el teorema de Pitágoras está capturando la Ley de la varianza total.

variance conditional-expectation

— Renrenthehamster
fuente

Respuestas:

Supongo que se siente cómodo con respecto al triángulo rectángulo en el sentido de que e son variables aleatorias no correlacionadas . Para las variables aleatorias no correlacionadas y , y así si establecemos $E[Y\mid X]$ $Y - E[Y\mid X]$ $A$ $B$

\begin{matrix} (1) & var (A + B) = var (A) + var (B), \end{matrix}

$\operatorname{var}(A+B) = \operatorname{var}(A) + \operatorname{var}(B),\tag{1}$

para que

, obtengamos que

Queda por demostrar que

es lo mismo que

A = Y - E [Y ∣ X]

$A = Y - E[Y\mid X]$

B = E [Y ∣ X]

$B = E[Y\mid X]$

A + B = Y

$A+B = Y$

\begin{matrix} (2) & var (Y) = var (Y - E [Y ∣ X]) + var (E [Y ∣ X]) . \end{matrix}

$\operatorname{var}(Y) = \operatorname{var}(Y-E[Y\mid X]) + \operatorname{var}(E[Y\mid X]).\tag{2}$

var (Y - E [Y ∣ X])

$\operatorname{var}(Y-E[Y\mid X])$

para que podamos volver a declarar

como

E [var (Y ∣ X)]

$E[\operatorname{var}(Y\mid X)]$

(2)

$(2)$

\begin{matrix} (3) & var (Y) = E [var (Y ∣ X)] + var (E [Y ∣ X]) \end{matrix}

$\operatorname{var}(Y) = E[\operatorname{var}(Y\mid X)] + \operatorname{var}(E[Y\mid X])\tag{3}$ cuál es la fórmula de varianza total.

Es bien sabido que el valor esperado de la variable aleatoria es , es decir, . Entonces vemos que $E[Y\mid X]$ $E[Y]$ $E\biggr[E[Y\mid X]\biggr] = E[Y]$ de donde se deduce que , es decir, Deje denotar la variable aleatoria

E [A] = E [Y - E [Y ∣ X]] = E [Y] - E [E [Y ∣ X]] = 0,

$E[A] = E\biggr[Y - E[Y\mid X]\biggr] = E[Y] - E\biggr[E[Y\mid X]\biggr] = 0,$

var (A) = E [A^{2}]

$\operatorname{var}(A) = E[A^2]$

\begin{matrix} (4) & var (Y - E [Y ∣ X]) = E [(Y - E [Y ∣ X])^{2}] . \end{matrix}

$\operatorname{var}(Y-E[Y\mid X]) = E\left[(Y-E[Y\mid X])^2\right].\tag{4}$

C

$C$

para que podamos escribir que

Pero,

donde

(Y - E [Y ∣ X])^{2}

$(Y-E[Y\mid X])^2$

\begin{matrix} (5) & var (Y - E [Y ∣ X]) = E [C] . \end{matrix}

$\operatorname{var}(Y-E[Y\mid X]) = E[C].\tag{5}$

E [C] = E [E [C ∣ X]]

$E[C] = E\biggr[E[C\mid X]\biggr]$

Ahora,dadoque

, la distribución condicional de

tiene una media

y entonces

En otras palabras,

E [C ∣ X] = E [(Y - E [Y ∣ X])^{2} | X] .

$E[C\mid X] = E\biggr[(Y-E[Y\mid X])^2{\bigr\vert} X\biggr].$

X = x

$X = x$

Y

$Y$

E [Y ∣ X = x]

$E[Y\mid X=x]$

E [(Y - E [Y ∣ X = x])^{2} | X = x] = var (Y ∣ X = x) .

$E\biggr[(Y-E[Y\mid X=x])^2{\bigr\vert} X=x\biggr] = \operatorname{var}(Y\mid X = x).$

para que lavariable aleatoria

sea solo

. Por lo tanto,

E [C ∣ X = x] = var (Y ∣ X = x)

$E[C\mid X = x] = \operatorname{var}(Y\mid X = x)$

E [C ∣ X]

$E[C\mid X]$

var (Y ∣ X)

$\operatorname{var}(Y\mid X)$

\begin{matrix} (6) & E [C] = E [E [C ∣ X]] = E [var (Y ∣ X)], \end{matrix}

$E[C] = E\biggr[E[C\mid X]\biggr] = E[\operatorname{var}(Y\mid X)], \tag{6}$ que tras la sustitución en

(5)

$(5)$ muestra que

Esto hace que el lado derecho de

exactamente lo que necesitamos y, por lo tanto, hemos demostrado la fórmula de varianza total

var (Y - E [Y ∣ X]) = E [var (Y ∣ X)] .

$\operatorname{var}(Y-E[Y\mid X]) = E[\operatorname{var}(Y\mid X)].$

(2)

$(2)$

(3)

$(3)$

— Dilip Sarwate
fuente

Y - E (Y | X)

$Y-E(Y|X)$

v a r (Y - E (Y | X)) = E [Y - E (Y | X)]^{2}

$var(Y-E(Y|X))=E[Y-E(Y|X)]^2$

E v a r (Y | X) = E [E ((Y - E (Y | X))^{2} | X)] = E [Y - E (Y | X)]^{2}

$Evar(Y|X)=E[E((Y-E(Y|X))^2|X)]=E[Y-E(Y|X)]^2$

E [(Y - E [Y | X])^{2}]

$E\bigr[(Y-E[Y|X])^2\bigr ]$

Dilip, muchos probabilistas interpretarían correctamente la ecuación de @ mpiktas como está escrita; el conjunto adicional de paréntesis a menudo se elimina. Quizás mis ojos me están engañando, pero creo que su notación es consistente en todo momento. Sin embargo, me complace ayudar a arreglar las cosas, si lo desea. :-)

— cardenal

@cardinal No interpreté mal la escritura de mpiktas, y entendí completamente lo que estaba diciendo. Si bien también estoy acostumbrado a interpretar

E X

$EX$ o

E X

$\mathbb EX$ como el valor esperado de

X

$X$ Siempre tengo mis dudas sobre

E X^{2}

$EX^2$ , especialmente porque PEMDAS no dice nada al respecto. ¿La expectativa tiene prioridad sobre la exponenciación o no? Supongo que estoy acostumbrado al operador de expectativas para aplicar a todo dentro de los corchetes. Por favor, no edite el comentario de m [iktas, pero si desea eliminar todo en este hilo desde "Incidentalmente" en adelante en mi comentario anterior, continúe.

— Dilip Sarwate

Lo siento, @Dilip. Mi intención no era sugerir que no entendías; ¡Sabía que tenías! ¡También estoy de acuerdo en que la notación puede prestarse a ambigüedades y es bueno señalarlas cuando surjan! Lo que quise decir fue que pensé que la segunda ecuación en el comentario (es decir,

v a r \dots

$var\ldots$ ) dejó en claro la convención que se utilizó en adelante. :-)

— cardenal

Declaración:

El teorema de Pitágoras dice, para cualquier elemento $T_1$ y $T_2$ de un espacio interno del producto con normas finitas tales que $\langle T_1,T_2\rangle = 0$ ,

\begin{matrix} (1) & El | El | T_{1} + T_{2} El | {El |}^{2} = El | El | T_{1} El | {El |}^{2} + El | El | T_{2} El | {El |}^{2} . \end{matrix}

$||T_1+T_2||^2 = ||T_1||^2 + ||T_2||^2 \tag{1}.$ O, en otras palabras, para vectores ortogonales, la longitud al cuadrado de la suma es la suma de las longitudes al cuadrado.

Nuestro caso:

En nuestro caso $T_1 = E(Y|X)$ y $T_2 = Y - E[Y|X]$ son variables aleatorias, la norma al cuadrado es $||T_i||^2 = E[T_i^2]$ y el producto interior $\langle T_1,T_2\rangle = E[T_1T_2]$ . Traductorio $(1)$ en lenguaje estadístico nos da:

\begin{matrix} (2) & mi [Y^{2}] = mi [{mi (Y El | X)}^{2}] + mi [(Y - mi [Y El | X])^{2}], \end{matrix}

$E[Y^2] = E[\{E(Y|X)\}^2] + E[(Y - E[Y|X])^2] \tag{2},$ porque

E [T_{1} T_{2}] = Cov (T_{1}, T_{2}) = 0

$E[T_1T_2] = \operatorname{Cov}(T_1,T_2) = 0$ . We can make this look more like your stated Law of Total Variance if we change

(2)

$(2)$ by...

Subtract $(E[Y])^2$ from both sides, making the left hand side $\operatorname{Var}[Y]$ ,
Noting on the right hand side that $E[\{E(Y|X)\}^2] - (E[Y])^2 = \operatorname{Var}(E[Y|X])$ ,
Noting that $E[(Y - E[Y|X])^2] = E[E\{(Y - E[Y|X])^2\}|X] = E[\operatorname{Var}(Y|X)]$ .

For details about these three bullet points see @DilipSarwate's post. He explains this all in much more detail than I do.

— Taylor
fuente