En 'Los elementos del aprendizaje estadístico', la expresión para la descomposición de la variación de sesgo del modelo lineal se da como donde es la función objetivo real, es la varianza del error aleatorio en el modelo y es el estimador lineal de .f ( x 0 ) σ 2 ε y = f ( x ) + ε
El término de varianza me preocupa aquí porque la ecuación implica que la varianza sería cero si los objetivos no ruido, es decir,Pero no tiene sentido para mí porque, incluso con ruido cero, todavía puedo obtener diferentes estimadores para diferentes conjuntos de entrenamiento, lo que implica que la varianza no es cero.
Por ejemplo, suponga que la función objetivo es cuadrática y los datos de entrenamiento contienen dos puntos muestreados al azar de esta cuadrática; claramente, obtendré un ajuste lineal diferente cada vez que muestree dos puntos al azar del objetivo cuadrático. Entonces, ¿cómo puede la varianza ser cero?
¿Alguien puede ayudarme a descubrir qué está mal en mi comprensión de la descomposición de la variación de sesgo?