Comprender la derivación de equilibrio de sesgo-varianza

Estoy leyendo el capítulo de equilibrio de sesgo-varianza de Los elementos del aprendizaje estadístico y tengo dudas en la fórmula de la página 29. Deje que los datos surjan de un modelo tal que donde es aleatorio número con valor esperado y varianza . Supongamos que el valor esperado de error del modelo es donde es la predicción de de nuestro alumno. Según el libro, el error es

Y = f (x) + ϵ

$Y = f(x)+\epsilon$

ϵ

$\epsilon$

\hat{ϵ} = E [ϵ] = 0

$\hat{\epsilon} = E[\epsilon]=0$

E [(ϵ - \hat{ϵ})^{2}] = E [ϵ^{2}] = σ^{2}

$E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2$

E [(Y - f_{k} (x))^{2}]

$E[(Y-f_k(x))^2]$

f_{k} (x)

$f_k(x)$

x

$x$

E [(Y - f_{k} (x))^{2}] = σ^{2} + B i a s (f_{k})^{2} + V a r (f_{k} (x)) .

$E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)).$

Mi pregunta es ¿por qué el término sesgo no es 0? desarrollando la fórmula del error veo

E [(Y - f_{k} (x))^{2}] = E [(f (x) + ϵ - f_{k} (x))^{2}] = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + E [ϵ^{2}] = V a r (f_{k} (x)) + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

as $\epsilon$ es un número aleatorio independiente $2E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0$

¿Dónde me equivoco?

— emanuele
fuente

Respuestas:

No está equivocado, pero cometió un error en un paso ya que $E[(f(x)-f_k(x))^2] \ne Var(f_k(x))$ . $E[(f(x)-f_k(x))^2]$ es $\text{MSE}(f_k(x)) = Var(f_k(x)) + \text{Bias}^2(f_k(x))$ .

\begin{aligned} E [(Y - f_{k} (x))^{2}] & = E [(f (x) + ϵ - f_{k} (x))^{2}] \\ = E [(f (x) - f_{k} (x))^{2}] + 2 E [(f (x) - F_{k} (X)) ϵ] + mi [ϵ^{2}] \\ = mi [{(F (X) - mi (F_{k} (X)) + mi (F_{k} (X)) - F_{k} (X))}^{2}] + 2 mi [(F (X) - F_{k} (X)) ϵ] + σ^{2} \\ = V un r (F_{k} (X)) + {Parcialidad}^{2} (F_{k} (X)) + σ^{2} . \end{aligned}

$\begin{align*} E[(Y-f_k(x))^2]& = E[(f(x)+\epsilon-f_k(x))^2] \\ &= E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]\\ &= E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2 \\ & = Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2. \end{align*}$

Nota: $E[(f_k(x)-E(f_k(x)))(f(x)-E(f_k(x))] = E[f_k(x)-E(f_k(x))](f(x)-E(f_k(x))) = 0.$

— Greenparker
fuente

En caso de resultados binarios, ¿hay una prueba equivalente con entropía cruzada como medida de error?

— emanuele

No funciona tan bien con una respuesta binaria. Ver Ex 7.2 en la segunda edición de "Los elementos del aprendizaje estadístico".

— Matthew Drury

¿podría explicar cómo se pasa desde a ?

E [{(f (x) - E (f_{k} (x)) + E (f_{k} (x)) - f_{k} (x))}^{2}] + 2 E [(f (x) - f_{k} (x)) ϵ] + σ^{2}

$E\left[\left(f(x) - E(f_k(x)) + E(f_k(x))-f_k(x) \right)^2 \right] + 2E[(f(x)-f_k(x))\epsilon]+\sigma^2$

V a r (f_{k} (x)) + {Bias}^{2} (f_{k} (x)) + σ^{2}

$Var(f_k(x)) + \text{Bias}^2(f_k(x)) + \sigma^2$

— Antoine

Unos pocos pasos más del sesgo: descomposición de la varianza

De hecho, la derivación completa rara vez se da en los libros de texto, ya que implica una gran cantidad de álgebra poco inspiradora. Aquí hay una derivación más completa usando la notación del libro "Elementos de aprendizaje estadístico" en la página 223

Si suponemos que y y entonces podemos derivar la expresión para el error de predicción esperado de un ajuste de regresión en una entrada con pérdida de error al cuadrado $Y = f(X) + \epsilon$ $E[\epsilon] = 0$ $Var(\epsilon) = \sigma^2_\epsilon$ $\hat f(X)$ $X = x_0$

E r r (x_{0}) = E [(Y - \hat{f} (x_{0}))^{2} | X = x_{0}]

$Err(x_0) = E[ (Y - \hat f(x_0) )^2 | X = x_0]$

Para simplificar la notación dejar que , y el recuerdo de que y $\hat f(x_0) = \hat f$ $f(x_0) = f$ $E[f] = f$ $E[Y] = f$

\begin{aligned} E [(Y - \hat{f})^{2}] & = E [(Y - f + f - \hat{f})^{2}] \\ = E [(y - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [(f - \hat{f}) (y - f)] \\ = E [(f + ϵ - f)^{2}] + E [(f - \hat{f})^{2}] + 2 E [f Y - f^{2} - \hat{f} Y + \hat{f} f] \\ = E [ϵ^{2}] + E [(f - \hat{f})^{2}] + 2 (f^{2} - f^{2} - f E [\hat{f}] + f E [\hat{f}]) \\ = σ_{ϵ}^{2} + E [(f - \hat{f})^{2}] + 0 \end{aligned}

$\begin{aligned} E[ (Y - \hat f)^2 ] &= E[(Y - f + f - \hat f )^2] \\ & = E[(y - f)^2] + E[(f - \hat f)^2] + 2 E[(f - \hat f)(y - f)] \\ & = E[(f + \epsilon - f)^2] + E[(f - \hat f)^2] + 2E[fY - f^2 - \hat f Y + \hat f f] \\ & = E[\epsilon^2] + E[(f - \hat f)^2] + 2( f^2 - f^2 - f E[\hat f] + f E[\hat f] ) \\ & = \sigma^2_\epsilon + E[(f - \hat f)^2] + 0 \end{aligned}$

Para el término podemos usar un truco similar al anterior, sumando y restando para obtener $E[(f - \hat f)^2]$ $E[\hat f]$

\begin{aligned} mi [(F - \hat{F})^{2}] & = mi [(F + mi [\hat{F}] - mi [\hat{F}] - \hat{F})^{2}] \\ = mi {[F - mi [\hat{F}]]}^{2} + mi {[\hat{F} - mi [\hat{F}]]}^{2} \\ = {[F - mi [\hat{F}]]}^{2} + mi {[\hat{F} - mi [\hat{F}]]}^{2} \\ = si yo un s^{2} [\hat{F}] + V un r [\hat{F}] \end{aligned}

$\begin{aligned} E[(f - \hat f)^2] & = E[(f + E[\hat f] - E[\hat f] - \hat f)^2] \\ & = E \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2 \\ & = Bias^2[\hat f] + Var[\hat f] \end{aligned}$

Poniendo todo junto

mi [(Y - \hat{F})^{2}] = σ_{ϵ}^{2} + si yo un s^{2} [\hat{F}] + V un r [\hat{F}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

Algunos comentarios sobre por qué $E[\hat f Y] = f E[\hat f]$

Tomado de Alecos Papadopoulos aquí

Recuerde que es el predictor que hemos construido en base a los puntos de datos para que podamos escribir para recordar eso. $\hat f$ $m$ $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$ $\hat f = \hat f_m$

Por otro lado, es la predicción que estamos haciendo sobre un nuevo punto de datos usando el modelo construido en los puntos de datos anteriores. Entonces, el error cuadrático medio se puede escribir como $Y$ $(x^{(m+1)},y^{(m+1)})$ $m$

mi [{\hat{F}}_{metro} (X^{(metro + 1)}) - y^{(metro + 1)}]^{2}

$E[\hat f_m(x^{(m+1)}) - y^{(m+1)}]^2$

Expandiendo la ecuación de la sección anterior

mi [{\hat{F}}_{metro} Y] = mi [{\hat{F}}_{metro} (F + ϵ)] = mi [{\hat{F}}_{metro} F + {\hat{F}}_{metro} ϵ] = mi [{\hat{F}}_{metro} F] + mi [{\hat{F}}_{metro} ϵ]

$E[\hat f_m Y]=E[\hat f_m (f+ \epsilon)]=E[\hat f_m f+\hat f_m \epsilon]=E[\hat f_m f]+E[\hat f_m \epsilon]$

La última parte de la ecuación se puede ver como

mi [{\hat{F}}_{metro} (X^{(metro + 1)}) \cdot ϵ^{(metro + 1)}] = 0 0

$E[\hat f_m(x^{(m+1)}) \cdot \epsilon^{(m+1)}] = 0$

Dado que hacemos los siguientes supuestos sobre el punto : $x^{(m+1)}$

Fue no utilizado en la construcción de $\hat f_m$
Es independiente de todas las demás observaciones $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)}) \}$
Es independiente de $\epsilon^{(m+1)}$

Otras fuentes con derivaciones completas

— Xavier Bourret Sicotte
fuente

¿Por qué ? No creo que y son independientes, ya que se construye usando esencialmente .

E [\hat{f} Y] = f E [\hat{f}]

$E[\hat{f}Y]=f E[\hat{f}]$

Y

$Y$

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

Y

$Y$

— Felipe Pérez

Pero la pregunta es esencialmente la misma, ¿por qué ? La aleatoriedad de proviene del error así que no veo por qué y serían independientes y, por lo tanto, .

E [\hat{f} ϵ] = 0

$E[\hat{f}\epsilon]=0$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

E (\hat{f} ϵ) = 0

$\mathbb{E}(\hat{f}\epsilon)=0$

— Felipe Pérez

Desde su precisión, parece que la perspectiva dentro de la muestra frente a fuera de la muestra es crucial. ¿Es tan? Si trabajamos solo en la muestra y, entonces, vemos como residual, ¿desaparecerá la compensación de la variación de sesgo?

ϵ

$\epsilon$

— Markowitz

@ FelipePérez, por lo que entiendo, la aleatoriedad de proviene de la división de la prueba del tren (cuyos puntos terminaron en el conjunto de entrenamiento y dieron como el predictor entrenado). En otras palabras, la varianza de proviene de todos los subconjuntos posibles de un conjunto de datos fijo dado que podemos tomar como conjunto de entrenamiento. Debido a que el conjunto de datos es fijo, no hay aleatoriedad proveniente de y, por lo tanto, y son independientes.

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

ϵ

$\epsilon$

— Alberto Santini

Comprender la derivación de equilibrio de sesgo-varianza

Unos pocos pasos más del sesgo: descomposición de la varianza

Algunos comentarios sobre por quémi[ f^Y] = fmi[ f^]mi[F^Y]=Fmi[F^]E[\hat f Y] = f E[\hat f]

Otras fuentes con derivaciones completas

Algunos comentarios sobre por qué $E[\hat f Y] = f E[\hat f]$