En la página 223 en Introducción al aprendizaje estadístico , los autores resumen las diferencias entre la regresión de cresta y el lazo. Proporcionan un ejemplo (Figura 6.9) de cuándo "el lazo tiende a superar la regresión de cresta en términos de sesgo, varianza y MSE".
Entiendo por qué el lazo puede ser deseable: da como resultado soluciones dispersas ya que reduce muchos coeficientes a 0, lo que resulta en modelos simples e interpretables. Pero no entiendo cómo puede superar a la cresta cuando solo las predicciones son de interés (es decir, ¿cómo está obteniendo un MSE sustancialmente menor en el ejemplo?).
Con la cresta, si muchos predictores casi no tienen efecto en la respuesta (con algunos predictores que tienen un gran efecto), ¿sus coeficientes simplemente no se reducirán a un pequeño número muy cercano a cero ... dando como resultado algo muy similar al lazo? ? Entonces, ¿por qué el modelo final tendría un rendimiento peor que el lazo?