Sesgo de optimismo: estimaciones del error de predicción


9

El libro Elementos del aprendizaje estadístico (disponible en PDF en línea) analiza el sesgo optimista (7.21, página 229). Establece que el sesgo de optimismo es la diferencia entre el error de entrenamiento y el error en la muestra (error observado si tomamos muestras de nuevos valores de resultado en cada uno de los puntos de entrenamiento originales) (por debajo).

ingrese la descripción de la imagen aquí

A continuación, establece que este sesgo de optimismo ( ω ) es igual a la covarianza de nuestros valores y estimados y los valores y reales (fórmula a continuación). Tengo problemas para entender por qué esta fórmula indica el sesgo de optimismo; ingenuamente, habría pensado que una fuerte covarianza entre real y y predijo y se limita a describir la precisión - No optimismo. Avíseme si alguien puede ayudar con la derivación de la fórmula o compartir la intuición.

ingrese la descripción de la imagen aquí


Muy útil, gracias! Creo que una de las ecuaciones tiene un error tipográfico menor y debería ser: =1Ni=1N(Ey[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

Respuestas:


8

Comencemos con la intuición.

yiy^iyi

y^iyiR2=1df(y^)=n

yyi=yi^=y¯i

Consulte este bonito folleto de Ryan Tibshirani para obtener más detalles sobre esta intuición.


Ahora una prueba similar a la otra respuesta, pero con un poco más de explicación.

Recuerde que, por definición, el optimismo promedio es:

ω=Ey(Errinerr¯)

=Ey(1Ni=1NEY0[L(Yi0,f^(xi)|T)]1Ni=1NL(yi,f^(xi)))

Ahora use una función de pérdida cuadrática y expanda los términos al cuadrado:

=Ey(1Ni=1NEY0[(Yi0y^i)2]1Ni=1N(yiy^i)2))

=1Ni=1N(EyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

EyEY0[(Yi0)2]=Ey[yi2]

=1Ni=1N(Ey[yi2]+Ey[yi^2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

Cov(x,w)=E[xw]E[x]E[w]

=2Ni=1NCov(yi,y^i)

55
Debo señalar que su nombre se deletrea "Ryan Tibshirani" Rob Tibshirani
robert tibshirani

2
Bienvenido a nuestro sitio, Rob. ¡Es un privilegio tenerte aquí, aunque solo sea para corregir un error! Si ve más, infórmenos: y, por supuesto, nos complacería recibir cualquier respuesta que usted (o sus estudiantes) puedan publicar. Su trabajo está ampliamente referenciado en este sitio, particularmente ESL e Introducción a Bootstrap.
whuber

EyEY0[(Yi0)2]=Ey[yi2]2EyEY0[Yi0y^i]=2Ey[EY0[Yi0]EY0[y^i]]=2Ey[yi]Ey[y^i]

7

f^(xi)=y^i

ω=Ey[op]=Ey[Errinerr¯]=Ey[Errin]Ey[err¯]=Ey[1Ni=1NEY0[L(Yi0,f^(xi))]Ey[1Ni=1NL(yi,f^(xi))]=1Ni=1NEyEY0[(Yi0y^i)2]Ey[(yiy^i)2]=1Ni=1NEyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=1Ni=1NEy[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=2Ni=1NEy[yiy^i]Ey[yi]Ey[y^i]=2Ni=1NEy[yiy^iyiEy[y^i]Ey[yi]y^i+Ey[yi]Ey[y^i]]=2Ni=1NEy[(y^iEy[y^i])([yiEy[yi])]=2Ni=1Ncov(y^i,yi)

1
E[xw]E[x]E[w]=Cov(x,w)
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.