Unos pocos pasos más del sesgo: descomposición de la varianza
De hecho, la derivación completa rara vez se da en los libros de texto, ya que implica una gran cantidad de álgebra poco inspiradora. Aquí hay una derivación más completa usando la notación del libro "Elementos de aprendizaje estadístico" en la página 223
Si suponemos que y y entonces podemos derivar la expresión para el error de predicción esperado de un ajuste de regresión en una entrada con pérdida de error al cuadradoY=f(X)+ϵE[ϵ]=0Var(ϵ)=σ2ϵf ( X ) X = x 0f^(X)X=x0
Err(x0)=E[(Y−f^(x0))2|X=x0]
Para simplificar la notación dejar que , y el recuerdo de que yf^(x0)=f^f(x0)=fE[f]=fE[Y]=f
E[(Y−f^)2]=E[(Y−f+f−f^)2]=E[(y−f)2]+E[(f−f^)2]+2E[(f−f^)(y−f)]=E[(f+ϵ−f)2]+E[(f−f^)2]+2E[fY−f2−f^Y+f^f]=E[ϵ2]+E[(f−f^)2]+2(f2−f2−fE[f^]+fE[f^])=σ2ϵ+E[(f−f^)2]+0
Para el término podemos usar un truco similar al anterior, sumando y restando para obtenermi[ ( f- f^)2]mi[ f^]
mi[ ( f- f^)2]= E[ ( f+ E[ f^] - E[ f^] - f^)2]= E[ f- E[ f^] ]2+ E[ f^- E[ f^] ]2= [ f- E[ f^] ]2+ E[ f^- E[ f^] ]2= B i a s2[ f^] + Va r [ f^]
Poniendo todo junto
mi[ ( Y- f^)2] = σ2ϵ+ B i a s2[ f^] + Va r [ f^]
Algunos comentarios sobre por quémi[ f^Y] = fmi[ f^]
Tomado de Alecos Papadopoulos aquí
Recuerde que es el predictor que hemos construido en base a los puntos de datos para que podamos escribir para recordar eso.F^metro{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }F^= f^metro
Por otro lado, es la predicción que estamos haciendo sobre un nuevo punto de datos usando el modelo construido en los puntos de datos anteriores. Entonces, el error cuadrático medio se puede escribir comoY( x( m + 1 ), y( m + 1 ))metro
mi[ f^metro( x( m + 1 )) - y( m + 1 )]2
Expandiendo la ecuación de la sección anterior
mi[ f^metroY] = E[ f^metro( f+ ϵ ) ] = E[ f^metroF+ f^metroϵ ] = E[ f^metroF] + E[ f^metroϵ ]
La última parte de la ecuación se puede ver como
mi[ f^metro( x( m + 1 )) ⋅ ϵ( m + 1 )] = 0
Dado que hacemos los siguientes supuestos sobre el punto :X( m + 1 )
- Fue no utilizado en la construcción deF^metro
- Es independiente de todas las demás observaciones{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }
- Es independiente deϵ( m + 1 )
Otras fuentes con derivaciones completas