Una generalización de la Ley de Expectativas Iteradas

43

Recientemente me encontré con esta identidad:

E [E (Y | X, Z) | X] = E [Y | X]

$E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right]$

Por supuesto, estoy familiarizado con la versión más simple de esa regla, a saber, que pero no pude encontrar justificación para su generalización $E \left[ E \left(Y|X \right) \right]=E \left(Y\right)$

Estaría agradecido si alguien pudiera señalarme una referencia no tan técnica para ese hecho o, mejor aún, si alguien pudiera presentar una prueba simple de este importante resultado.

self-study conditional-probability conditional-expectation

— JohnK
fuente

2

Si estuviera condicionado a alguna , ¿no quedaría exactamente fuera de la versión más simple?

y

$y$

x

$x$

— Mehrdad

36

TRATAMIENTO INFORMAL

Debemos recordar que la notación donde condicionamos las variables aleatorias es inexacta, aunque económica, como notación. En realidad, condicionamos el álgebra sigma que generan estas variables aleatorias. En otras palabras, significa . Esta observación puede parecer fuera de lugar en un "Tratamiento informal", pero nos recuerda que nuestras entidades de condicionamiento son colecciones de conjuntos (y cuando condicionamos un solo valor, entonces este es un conjunto único). ¿Y qué contienen estos conjuntos? Contienen la información con la que los valores posibles de la variable aleatoria nos proporcionan sobre lo que puede suceder con la realización de . $E[Y\mid X]$ $E[Y\mid \sigma(X)]$ $X$ $Y$
Introducir el concepto de Información, nos permite pensar (y usar) la Ley de Expectativas Iteradas (a veces llamada "Propiedad de la Torre") de una manera muy intuitiva:
el álgebra sigma generado por dos variables aleatorias, es al menos como grande como el generado por una variable aleatoria: en el significado teórico de conjuntos adecuado. Entonces, la información sobre contenida en es al menos tan grande como la información correspondiente en . Ahora, como insinuación de notación, establezca y . Luego se puede escribir el LHS de la ecuación que estamos viendo $\sigma (X) \subseteq \sigma(X,Z)$ $Y$ $\sigma(X,Z)$ $\sigma (X)$
$\sigma (X) \equiv I_x$ $\sigma(X,Z) \equiv I_{xz}$

E [E (Y | I_{x z}) | I_{x}]

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right]$ Describiendo verbalmente la expresión anterior que tenemos: "¿cuál es la expectativa de {el valor esperado de dada la información } propuesta que tenemos información disponible única ?"

Y

$Y$

I_{x z}

$I_{xz}$

I_{x}

$I_x$

¿Podemos de alguna manera "tener en cuenta" ? No, solo sabemos . Pero si usamos lo que tenemos (ya que estamos obligados por la expresión que queremos resolver), entonces esencialmente estamos diciendo cosas sobre bajo el operador de expectativas, es decir, decimos " ", no más - acabamos de agotar nuestra información. $I_{xz}$ $I_x$ $Y$ $E(Y\mid I_x)$

Por lo tanto,

E [E (Y | I_{x z}) | I_{x}] = E (Y | I_{x})

$E \left[ E \left(Y|I_{xz} \right) |I_{x} \right] = E\left(Y|I_{x} \right)$

Si alguien más no lo hace, volveré para el tratamiento formal.

Un (poco más) TRATAMIENTO FORMAL

Veamos cómo dos libros muy importantes de teoría de la probabilidad, Probabilidad y Medida de P. Billingsley (3d ed.-1995) y D. Williams "Probabilidad con Martingales" (1991), tratan la cuestión de probar la "Ley de Expectativas Iteradas":
Billingsley dedica exactamente tres líneas a la prueba. Williams, y cito, dice

"(la Propiedad de la Torre) es prácticamente inmediata desde la definición de expectativa condicional".

Esa es una línea de texto. La prueba de Billingsley no es menos opaca.

Por supuesto, tienen razón: esta propiedad importante y muy intuitiva de la expectativa condicional deriva esencialmente directamente (y casi de inmediato) de su definición: el único problema es que sospecho que esta definición no se enseña, o al menos no se destaca, fuera de la probabilidad o medir círculos teóricos. Pero para mostrar (casi) tres líneas que contiene la Ley de Expectativas Iteradas, necesitamos la definición de expectativa condicional, o más bien, su propiedad definitoria .

Deje un espacio de probabilidad , y una variable aleatoria integrable . Let ser un sub álgebra de , . Entonces existe una función que es medible, es integrable y (esta es la propiedad definitoria) $(\Omega, \mathcal F, \mathbf P)$ $Y$ $\mathcal G$ $\sigma$ $\mathcal F$ $\mathcal G \subseteq \mathcal F$ $W$ $\mathcal G$

E (W \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in G [1]

$E(W\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal G \qquad [1]$

donde es la función de indicador del conjunto . Decimos que es ("una versión de") la expectativa condicional de dada , y escribimos El detalle crítico a tener en cuenta aquí es que la expectativa condicional , tiene el mismo valor esperado como lo hace, no sólo por toda la , pero en cada subconjunto de . $1_{G}$ $G$ $W$ $Y$ $\mathcal G$ $W = E(Y\mid \mathcal G) \;a.s.$
$Y$ $\mathcal G$ $G$ $\mathcal G$

(Intentaré ahora presentar cómo la propiedad de la Torre se deriva de la definición de expectativa condicional).

$W$ es una variable aleatoria medible. Considere a continuación, algunos sub álgebra, por ejemplo . Entonces . Entonces, de manera análoga a la anterior, tenemos la expectativa condicional de dado , digamos que eso se caracteriza por $\mathcal G$ $\sigma$ $\mathcal H \subseteq \mathcal G$ $G\in \mathcal H \Rightarrow G\in \mathcal G$ $W$ $\mathcal H$ $U=E(W\mid \mathcal H) \;a.s.$

E (U \cdot 1_{G}) = E (W \cdot 1_{G}) \forall G \in H [2]

$E(U\cdot\mathbb 1_{G}) = E(W\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [2]$

Como , las ecuaciones y nos dan $\mathcal H \subseteq \mathcal G$ $[1]$ $[2]$

E (U \cdot 1_{G}) = E (Y \cdot 1_{G}) \forall G \in H [3]

$E(U\cdot\mathbb 1_{G}) = E(Y\cdot \mathbb 1_{G})\qquad \forall G \in \mathcal H \qquad [3]$

Pero esta es la propiedad definitoria de la expectativa condicional de dado . $Y$ $\mathcal H$ Entonces tenemos derecho a escribir Como también tenemos por construcción , acabamos de demostrar la propiedad de la Torre, o el forma general de la Ley de Expectativas Iteradas - en ocho líneas. $U=E(Y\mid \mathcal H)\; a.s.$
$U = E(W\mid \mathcal H) = E\big(E[Y\mid \mathcal G]\mid \mathcal H\big)$

— Alecos Papadopoulos
fuente

66

(+1) Esta es una forma útil de describir un concepto abstracto y difícil. Sin embargo, creo que la frase "... no es más grande ..." debería ser "no es más pequeña". Mejor aún, esa sección podría aclararse eliminando los negativos y utilizando una construcción paralela, como en "El álgebra sigma generado por dos variables es al menos tan grande como el generado por una variable aleatoria ... Así que la información sobre contenía in es al menos tan grande como la información correspondiente en ".

Y

$Y$

σ (X, Z)

$\sigma(X,Z)$

σ (X)

$\sigma(X)$

— whuber

Gracias a los dos, cc @whuber. Este es un teorema muy útil.

— JohnK

@ whuber Gracias por ver esto y por la sugerencia.

— Alecos Papadopoulos

24

La forma en que entiendo las expectativas condicionales y enseño a mis alumnos es la siguiente:

expectativa condicional es una imagen tomada por una cámara con resolución $E[Y|\sigma(X)]$ $\sigma(X)$

Como mencionó Alecos Papadopoulos, la notación es más precisa que . A lo largo de la línea de la cámara, uno puede pensar en como el objeto original, por ejemplo, un paisaje, un paisaje. es una imagen tomada por una cámara con resolución . La expectativa es un operador promedio (¿operador "borroso"?). El escenario puede contener muchas cosas, pero la imagen que tomaste usando una cámara con baja resolución ciertamente hará que algunos detalles desaparezcan, por ejemplo, puede haber un OVNI en el cielo que se puede ver a simple vista pero no aparecer en tu foto tomada por (iphone 3?) $E[Y|\sigma(X)]$ $E[Y|X]$ $Y$ $E[Y|\sigma(X,Z)]$ $\sigma(X,Z)$

Si la resolución es tan alta que , entonces esta imagen puede capturar cada detalle del escenario real. En este caso, tenemos que . $\sigma(X,Z)=\sigma(Y)$ $E[Y|\sigma(Y)]=Y$

Ahora, se puede ver como: usando otra cámara con resolución (por ejemplo, iphone 1) que es inferior a (p. Ej., Iphone 3) y tome una imagen en esa imagen generada por la cámara con resolución , entonces debe quedar claro que esta imagen en una imagen debe ser la misma que si originalmente solo use una cámara de baja resolución en el escenario. $E[E[Y|\sigma(X,Z)]|\sigma(X)]$ $\sigma(X)$ $\sigma(X,Z)$ $\sigma(X,Z)$ $\sigma(X)$

Esto proporciona intuición sobre . De hecho, esta misma intuición nos dice que todavía. Esto se debe a que: si su primera imagen es tomada por el iPhone 1 (es decir, baja resolución), y ahora desea utilizar una cámara mejor (por ejemplo, el iPhone 3) para generar otra foto en la primera foto, entonces no hay forma de que Puede mejorar la calidad de la primera foto. $E[E[Y|X,Z]|X]=E[Y|X]$ $E[E[Y|X]|X,Z]=E[Y|X]$

— KevinKim
fuente

2

¡quiéralo! :) Gran explicación.

— jessica

1

@jessica Me alegro de que ayude :-) Me llevó un tiempo encontrar esta explicación

— KevinKim

21

En la Ley de Expectativa Iterada (LIE), , esa expectativa interna es una variable aleatoria que resulta ser una función de , digamos , y no una función de . Que la expectativa de esta función de igual a la expectativa de es una consecuencia de una MENTIRA. Todo esto es, con agitación manual, solo la afirmación de que el valor promedio de se puede encontrar promediando los valores promedio de en diversas condiciones. En efecto, todo es solo una consecuencia directa de la ley de probabilidad total. Por ejemplo, si y $E\left[E[Y \mid X]\right] = E[Y]$ $X$ $g(X)$ $Y$ $X$ $Y$ $Y$ $Y$ $X$ $Y$ son variables aleatorias discretas con pmf conjunta , luego \ scriptstyle {\ text {RV} ~ E [Y \ mid X] ~ \ text {tiene valor} ~ E [Y \ mid X = x] ~ \ text {when} ~ X = x} \ end {align} Aviso cómo es esa última expectativa con respecto a ; $p_{X,Y}(x,y)$

\begin{aligned} E [Y] & = \sum_{y} y \cdot p_{Y} (y) & definition \\ = \sum_{y} y \cdot \sum_{x} p_{X, Y} (x, y) & write in terms of joint pmf \\ = \sum_{y} y \cdot \sum_{x} p_{Y ∣ X} (y ∣ X = x) \cdot p_{X} (x) & write in terms of conditional pmf \\ = \sum_{x} p_{X} (x) \cdot \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) & interchange order of summation \\ = \sum_{x} p_{X} (x) \cdot E [Y ∣ X = x] & inner sum is conditional expectation \\ = E [E [Y ∣ X]] & RV E [Y ∣ X] has value E [Y ∣ X = x] when X = x \end{aligned}

$\begin{align} E[Y] &= \sum_y y\cdot p_Y(y) &\scriptstyle{\text{definition}}\\ &= \sum_y y \cdot \sum_x p_{X,Y}(x,y) &\scriptstyle{\text{write in terms of joint pmf}}\\ &= \sum_y y \cdot \sum_x p_{Y\mid X}(y \mid X=x)\cdot p_X(x) &\scriptstyle{\text{write in terms of conditional pmf}}\\ &= \sum_x p_X(x)\cdot \sum_y y \cdot p_{Y\mid X}(y \mid X=x) &\scriptstyle{\text{interchange order of summation}}\\ &= \sum_x p_X(x)\cdot E[Y \mid X = x] &\scriptstyle{\text{inner sum is conditional expectation}}\\ &= E\left[E[Y\mid X]\right] &\scriptstyle{\text{RV}~E[Y\mid X]~\text{has value}~E[Y\mid X=x]~\text{when}~X=x} \end{align}$

X

$X$

E [Y ∣ X]

$E[Y\mid X]$ es una función de , no de , pero sin embargo su media es la misma que la media de .

X

$X$

Y

$Y$

Y

$Y$

La MENTIRA generalizada que está mirando tiene a la izquierda en la que la expectativa interna es una función de dos variables aleatorias y . El argumento es similar al descrito anteriormente, pero ahora tenemos que mostrar que la variable aleatoria es igual a otra variable aleatoria. Hacemos esto mirando el valor de cuando tiene el valor . Saltando las explicaciones, tenemos que $E\left[E[Y \mid X, Z] \mid X\right]$ $h(X,Z)$ $X$ $Z$ $E[Y\mid X]$ $E[Y\mid X]$ $X$ $x$

\begin{aligned} E [Y ∣ X = x] & = \sum_{y} y \cdot p_{Y ∣ X} (y ∣ X = x) \\ = \sum_{y} y \cdot \frac{p_{X, Y} (x, y)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{X, Y, Z} (x, y, z)}{p_{X} (x)} \\ = \sum_{y} y \cdot \frac{\sum_{z} p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \cdot p_{X, Z} (x, z)}{p_{X} (x)} \\ = \sum_{z} \frac{p_{X, Z} (x, z)}{p_{X} (x)} \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot \sum_{y} y \cdot p_{Y ∣ X, Z} (y ∣ X = x, Z = z) \\ = \sum_{z} p_{Z ∣ X} (z ∣ X = x) \cdot E [Y ∣ X = x, Z = z) \\ = E [E [Y ∣ X, Z] ∣ X = x] \end{aligned}

$\begin{align} E[Y \mid X = x] &= \sum_y y\cdot p_{Y\mid X}(y\mid X = x)\\ &= \sum_y y \cdot \frac{p_{X,Y}(x,y)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{X,Y,Z}(x,y,z)}{p_X(x)}\\ &= \sum_y y \cdot \frac{\sum_z p_{Y\mid X,Z}(y \mid X=x, Z=z)\cdot p_{X,Z}(x,z)}{p_X(x)}\\ &= \sum_z \frac{p_{X,Z}(x,z)}{p_X(x)}\sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot \sum_y y \cdot p_{Y\mid X,Z}(y \mid X=x, Z=z)\\ &= \sum_z p_{Z\mid X}(z \mid X=x)\cdot E[Y \mid X=x, Z=z)\\ &= E\left[E[Y\mid X,Z]\mid X = x\right] \end{align}$ Tenga en cuenta que el penúltimo lado derecho es la fórmula del valor condicional esperado de la variable aleatoriaZ] (una función de y ) condicionada

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

X

$X$

Z

$Z$ en el valor de . Estamos arreglando para que tenga un valor , multiplicando los valores de la variable aleatoria por el valor condicional pmf de dado , y sumando todos esos términos.

X

$X$

X

$X$

x

$x$

E [Y ∣ X, Z]

$E[Y \mid X, Z]$

Z

$Z$

X

$X$

Por lo tanto, para cada valor de la variable aleatoria , el valor de la variable aleatoria (que notamos anteriormente es una función de , no de ), es el mismo que el valor de la variable aleatoria variable , es decir, estas dos variables aleatorias son iguales. ¿Te mentiría yo? $x$ $X$ $E[Y\mid X]$ $X$ $Y$ $E\left[E[Y \mid X,Z]\mid X\right]$

— Dilip Sarwate
fuente