Respuestas:
Respuesta corta: cada vez que se enfrenta a una de estas situaciones:
La regresión de cresta generalmente produce mejores predicciones que la solución OLS, a través de un mejor compromiso entre el sesgo y la varianza. Su principal inconveniente es que todos los predictores se mantienen en el modelo, por lo que no es muy interesante si busca un modelo parsimonioso o desea aplicar algún tipo de selección de características.
Para lograr la dispersión, el lazo es más apropiado pero no necesariamente arrojará buenos resultados en presencia de una alta colinealidad (se ha observado que si los predictores están altamente correlacionados, el rendimiento de predicción del lazo está dominado por la regresión de cresta). El segundo problema con la penalización L1 es que la solución de lazo no se determina de manera única cuando el número de variables es mayor que el número de sujetos (este no es el caso de la regresión de cresta). El último inconveniente del lazo es que tiende a seleccionar solo una variable entre un grupo de predictores con altas correlaciones por pares. En este caso, existen soluciones alternativas como el grupo (es decir, lograr la contracción en el bloque de covariables, es decir, algunos bloques de coeficientes de regresión son exactamente cero) o fusionadoslazo. La gráfica Lasso también ofrece características prometedoras para GGMs (ver el R Glasso paquete).
Pero, definitivamente, el criterio de elasticnet , que es una combinación de penalizaciones L1 y L2, logra tanto la contracción como la selección automática de variables, y permite mantener las variables en el caso donde . Siguiendo a Zou y Hastie (2005), se define como el argumento que minimiza (más de )
donde y.
El lazo puede calcularse con un algoritmo basado en el descenso de coordenadas como se describe en el artículo reciente de Friedman y col., Rutas de regularización para modelos lineales generalizados a través del descenso coordinado (JSS, 2010) o el algoritmo LARS. En R, los penalizados , Lars o biglars , y glmnet paquetes son paquetes de útiles; en Python, está el kit de herramientas scikit.learn , con una extensa documentación sobre los algoritmos utilizados para aplicar los tres tipos de esquemas de regularización.
En cuanto a las referencias generales, la página Lazo contiene la mayor parte de lo que se necesita para comenzar con la regresión del lazo y los detalles técnicos sobre la penalización L1, y esta pregunta relacionada presenta referencias esenciales, ¿ Cuándo debo usar el lazo vs la cresta?
Una justificación teórica para el uso de la regresión de cresta es que su solución es la media posterior dado un previo normal en los coeficientes. Es decir, si le preocupa el error al cuadrado y cree en un previo normal, las estimaciones de cresta son óptimas.
Del mismo modo, la estimación del lazo es el modo posterior bajo un doble exponencial anterior en sus coeficientes. Esto es óptimo bajo una función de pérdida cero uno.
En la práctica, estas técnicas suelen mejorar la precisión predictiva en situaciones en las que tiene muchas variables correlacionadas y no muchos datos. Si bien el estimador OLS es el mejor imparcial lineal, tiene una gran variación en estas situaciones. Si observa el equilibrio entre sesgo y varianza, la precisión de la predicción mejora porque el pequeño aumento en el sesgo está más que compensado por la gran reducción en la varianza.