La compensación de la variación de sesgo se basa en el desglose del error cuadrático medio:
MSE(y^)=E[y−y^]2=E[y−E[y^]]2+E[y^−E[y^]]2
Una forma de ver el intercambio de sesgo-varianza es qué propiedades del conjunto de datos se usan en el ajuste del modelo. Para el modelo simple, si suponemos que se usó la regresión OLS para ajustar la línea recta, entonces solo se usan 4 números para ajustar la línea:
- La covarianza muestral entre x e y
- La varianza muestral de x
- La media muestral de x
- La media muestral de y
Por lo tanto, cualquier gráfico que conduzca a los mismos 4 números anteriores conducirá exactamente a la misma línea ajustada (10 puntos, 100 puntos, 100000000 puntos). Entonces, en cierto sentido, es insensible a la muestra particular observada. Esto significa que estará "sesgado" porque ignora efectivamente parte de los datos. Si esa parte ignorada de los datos resulta ser importante, entonces las predicciones serán consistentemente erróneas. Verá esto si compara la línea ajustada utilizando todos los datos con las líneas ajustadas obtenidas al eliminar un punto de datos. Tienden a ser bastante estables.
Ahora el segundo modelo utiliza cada fragmento de datos que puede obtener, y ajusta los datos lo más cerca posible. Por lo tanto, la posición exacta de cada punto de datos es importante, por lo que no puede cambiar los datos de entrenamiento sin cambiar el modelo ajustado como puede hacerlo para OLS. Por lo tanto, el modelo es muy sensible al conjunto de entrenamiento particular que tiene. El modelo ajustado será muy diferente si realiza el mismo gráfico de punto de datos de colocar uno.