¿Cuándo usar los métodos de regularización para la regresión?

83

¿En qué circunstancias se debe considerar el uso de métodos de regularización (cresta, lazo o regresión de ángulos mínimos) en lugar de OLS?

En caso de que esto ayude a dirigir la discusión, mi interés principal es mejorar la precisión predictiva.

— NPE
fuente

75

Respuesta corta: cada vez que se enfrenta a una de estas situaciones:

gran cantidad de variables o baja relación de no. observaciones al no. variables (incluido el caso ), $n\ll p$
alta colinealidad,
buscando una solución escasa (es decir, incrustar selección de características al estimar los parámetros del modelo), o
Contabilización de la agrupación de variables en un conjunto de datos de alta dimensión

La regresión de cresta generalmente produce mejores predicciones que la solución OLS, a través de un mejor compromiso entre el sesgo y la varianza. Su principal inconveniente es que todos los predictores se mantienen en el modelo, por lo que no es muy interesante si busca un modelo parsimonioso o desea aplicar algún tipo de selección de características.

Para lograr la dispersión, el lazo es más apropiado pero no necesariamente arrojará buenos resultados en presencia de una alta colinealidad (se ha observado que si los predictores están altamente correlacionados, el rendimiento de predicción del lazo está dominado por la regresión de cresta). El segundo problema con la penalización L1 es que la solución de lazo no se determina de manera única cuando el número de variables es mayor que el número de sujetos (este no es el caso de la regresión de cresta). El último inconveniente del lazo es que tiende a seleccionar solo una variable entre un grupo de predictores con altas correlaciones por pares. En este caso, existen soluciones alternativas como el grupo (es decir, lograr la contracción en el bloque de covariables, es decir, algunos bloques de coeficientes de regresión son exactamente cero) o fusionadoslazo. La gráfica Lasso también ofrece características prometedoras para GGMs (ver el R Glasso paquete).

Pero, definitivamente, el criterio de elasticnet , que es una combinación de penalizaciones L1 y L2, logra tanto la contracción como la selección automática de variables, y permite mantener las variables en el caso donde . Siguiendo a Zou y Hastie (2005), se define como el argumento que minimiza (más de ) $m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

donde y. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

El lazo puede calcularse con un algoritmo basado en el descenso de coordenadas como se describe en el artículo reciente de Friedman y col., Rutas de regularización para modelos lineales generalizados a través del descenso coordinado (JSS, 2010) o el algoritmo LARS. En R, los penalizados , Lars o biglars , y glmnet paquetes son paquetes de útiles; en Python, está el kit de herramientas scikit.learn , con una extensa documentación sobre los algoritmos utilizados para aplicar los tres tipos de esquemas de regularización.

En cuanto a las referencias generales, la página Lazo contiene la mayor parte de lo que se necesita para comenzar con la regresión del lazo y los detalles técnicos sobre la penalización L1, y esta pregunta relacionada presenta referencias esenciales, ¿ Cuándo debo usar el lazo vs la cresta?

— chl
fuente

1

¿Qué sucede si tengo muchas observaciones con relativamente pocas variables, pero con una relación señal / ruido muy baja? Tan bajo, de hecho, que el sobreajuste es un problema muy real. ¿Sería razonable regularizar la regularización para mejorar la precisión predictiva?

— NPE

1

@aix Depende de lo que realmente llamas pocas variables y de qué tipo de variables estás tratando. Pero creo que es preferible un enfoque de cresta en su caso. También puede mirar Boosting Ridge Regression (Tutz & Binder, 2005). La estimación de LD penalizada también se propuso como un método incorporado para evitar el sobreajuste; ver, por ejemplo, Estimación de máxima verosimilitud penalizada para predecir resultados binarios: Moons KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol 2004, 57 (12): 1262-1270.

— chl

20

Una justificación teórica para el uso de la regresión de cresta es que su solución es la media posterior dado un previo normal en los coeficientes. Es decir, si le preocupa el error al cuadrado y cree en un previo normal, las estimaciones de cresta son óptimas.

Del mismo modo, la estimación del lazo es el modo posterior bajo un doble exponencial anterior en sus coeficientes. Esto es óptimo bajo una función de pérdida cero uno.

En la práctica, estas técnicas suelen mejorar la precisión predictiva en situaciones en las que tiene muchas variables correlacionadas y no muchos datos. Si bien el estimador OLS es el mejor imparcial lineal, tiene una gran variación en estas situaciones. Si observa el equilibrio entre sesgo y varianza, la precisión de la predicción mejora porque el pequeño aumento en el sesgo está más que compensado por la gran reducción en la varianza.

— ncray
fuente