Esta metodología se describe en el documento glmnet Rutas de regularización para modelos lineales generalizados a través del descenso coordinado . Aunque la metodología aquí es para el caso general de regularización tanto como , también debería aplicarse al LASSO (solo ).L1L2L1
La solución para el máximo se da en la sección 2.5. λ
Cuando , vemos en (5) que permanecerá cero si . Por lo tanto,β~=0β~j1N|⟨xj,y⟩|<λαNαλmax=maxl|⟨xl,y⟩|
Es decir, observamos que la regla de actualización para beta obliga a todas las estimaciones de parámetros a cero para como se determinó anteriormente.λ>λmax
La determinación de y el número de puntos de la cuadrícula parece tener menos principios. En glmnet establecen , y luego eligen una cuadrícula de puntos igualmente espaciados en la escala logarítmica.λminλmin=0.001∗λmax100
Esto funciona bien en la práctica, en mi uso extenso de glmnet nunca he encontrado que esta cuadrícula sea demasiado gruesa.
En el caso LASSO ( ) solo las cosas funcionan mejor, ya que el método LARS proporciona un cálculo preciso para cuando los diversos predictores entran en el modelo. Un verdadero LARS no realiza una búsqueda de cuadrícula sobre , sino que produce una expresión exacta para las rutas de solución para los coeficientes.
Aquí hay una mirada detallada al cálculo exacto de las rutas de coeficientes en el caso de dos predictores.L1λ
El caso de los modelos no lineales (es decir, logística, poisson) es más difícil. En un nivel alto, primero se obtiene una aproximación cuadrática a la función de pérdida en los parámetros iniciales , y luego el cálculo anterior se usa para determinar . En estos casos, no es posible un cálculo preciso de las rutas de parámetros, incluso cuando solo se proporciona la regularización , por lo que una búsqueda de cuadrícula es la única opción.β=0λmaxL1
Los pesos de muestra también complican la situación, los productos internos deben reemplazarse en lugares apropiados con productos internos ponderados.