En términos generales, hay tres fuentes diferentes de error de predicción:
- el sesgo de tu modelo
- la varianza de tu modelo
- varianza inexplicable
No podemos hacer nada con respecto al punto 3 (excepto intentar estimar la varianza inexplicada e incorporarla en nuestras densidades predictivas e intervalos de predicción). Esto nos deja con 1 y 2.
Si realmente tiene el modelo "correcto", entonces, digamos, las estimaciones de los parámetros OLS serán imparciales y tendrán una variación mínima entre todos los estimadores imparciales (lineales) (son AZULES). Las predicciones de un modelo OLS serán mejores predicciones lineales insesgadas (BLUP). Eso suena bien.
Sin embargo, resulta que aunque tenemos predicciones imparciales y una varianza mínima entre todas las predicciones imparciales, la varianza aún puede ser bastante grande. Más importante aún, a veces podemos introducir un "pequeño" sesgo y al mismo tiempo ahorrar "mucha" variación, y al obtener el equilibrio justo, podemos obtener un error de predicción más bajo con un modelo sesgado (variación más baja) que con un sesgo imparcial ( mayor varianza) uno. Esto se llama el "equilibrio de sesgo-varianza", y esta pregunta y sus respuestas son esclarecedoras: ¿ cuándo es preferible un estimador sesgado a uno imparcial?
Y la regularización como el lazo, la regresión de la cresta, la red elástica, etc., hacen exactamente eso. Tiran del modelo hacia cero. (Los enfoques bayesianos son similares: llevan el modelo hacia los anteriores). Por lo tanto, los modelos regularizados estarán sesgados en comparación con los modelos no regularizados, pero también tienen una varianza más baja. Si elige su regularización correcta, el resultado es una predicción con un error menor.
Si busca "regularización de compensación de variación de sesgo" o similar, obtendrá algo de reflexión. Esta presentación, por ejemplo, es útil.
EDITAR: la ameba señala con razón que estoy diciendo a mano por qué exactamente la regularización produce una menor varianza de modelos y predicciones. Considere un modelo de lazo con un gran parámetro de regularización . Si , las estimaciones de sus parámetros de lazo se reducirán a cero. Un valor de parámetro fijo de cero tiene varianza cero. (Esto no es del todo correcto, ya que el valor umbral de más allá del cual sus parámetros se reducirán a cero depende de sus datos y su modelo. Pero dado el modelo y los datos, puede encontrar unλλ→∞λλtal que el modelo es el modelo cero. Siempre mantenga sus cuantificadores rectos.) Sin embargo, el modelo cero también tendrá un sesgo gigante. No le importan las observaciones reales, después de todo.
Y lo mismo se aplica a los valores no tan extremos de sus parámetros de regularización: los valores pequeños producirán las estimaciones de parámetros no regularizadas, que serán menos sesgadas (imparciales si tiene el modelo "correcto"), pero tienen valores más altos. diferencia. Ellos "saltarán", siguiendo sus observaciones reales. Los valores más altos de su regularización "restringirán" sus estimaciones de parámetros cada vez más. Es por eso que los métodos tienen nombres como "lazo" o "red elástica": restringen la libertad de sus parámetros para flotar y seguir los datos.λ
(Estoy escribiendo un pequeño documento sobre esto, que espero sea bastante accesible. Agregaré un enlace una vez que esté disponible).