Aclarando lo que se entiende por parámetros α y Elastic Net
Los diferentes paquetes usan terminología y parámetros diferentes, pero el significado es generalmente el mismo:
El paquete R Glmnet usa la siguiente definición
minβ0, β1norte∑nortei = 1wyol (yyo,β0 0+βTXyo) + λ [ ( 1 - α ) | El |βEl | El |22/ 2+α | El |βEl | El |1]
Sklearn utiliza
minw12 N∑nortei = 1El | El | y- Xw | El |22+ α × l1ratio | El | w | El |1+ 0.5 × α × ( 1 - l1relación ) × | El | w | El |22
Hay parametrizaciones alternativas que utilizan una y si también.
Para evitar confusiones voy a llamar
- λ el parámetro de fuerza de penalización
- L 1L1proporción la relación entre lapenalizaciónL1 yL2 , que varía de 0 (cresta) a 1 (lazo)
Visualizando el impacto de los parámetros
Considere un conjunto de datos simulados donde y consiste en una curva senoidal ruidosa y X es una característica bidimensional que consiste en X1= x y X2= x2 . Debido a la correlación entre X1 y X2 la función de costo es un valle estrecho.
Los gráficos a continuación ilustran la ruta de solución de la regresión elástica con dos parámetros de relación L1 diferentes , en función de λ el parámetro de fuerza.
- Para ambas simulaciones: cuando λ = 0 entonces la solución es la solución OLS en la parte inferior derecha, con la función de costo en forma de valle asociada.
- A medida que aumenta λ , se inicia la regularización y la solución tiende a ( 0 , 0 )
- La principal diferencia entre las dos simulaciones es el parámetro de relación L1 .
- LHS : para una pequeña relación L1 , la función de costo regularizado se parece mucho a la regresión de Ridge con contornos redondos.
- RHS : para una relación L1 grande , la función de costo se parece mucho a la regresión de lazo con los contornos de forma de diamante típicos.
- Para la relación intermedia L1 (no mostrada) la función de costo es una mezcla de los dos
Comprender el efecto de los parámetros.
ElasticNet se introdujo para contrarrestar algunas de las limitaciones del lazo que son:
- Si hay más variables pags que puntos de datos norte , p > n , el lazo selecciona como máximo norte variables.
- Lasso no realiza la selección agrupada, especialmente en presencia de variables correlacionadas. Tiende a seleccionar una variable de un grupo e ignora las otras
L1L2
Puede ver esto visualmente en el diagrama anterior, las singularidades en los vértices fomentan la dispersión , mientras que los bordes convexos estrictos fomentan la agrupación .
Aquí hay una visualización tomada de Hastie (el inventor de ElasticNet)
Otras lecturas
caret
paquete que puede hacer cv y sintonizar repetidamente tanto para alpha como para lambda (¡admite el procesamiento multinúcleo!). De memoria, creo que laglmnet
documentación desaconseja el ajuste de alfa de la forma en que lo hace aquí. Se recomienda mantener los pliegues fijos si el usuario está ajustando para alfa además de la optimización para lambda proporcionada porcv.glmnet
.