¿Cómo decidir qué regularización (L1 o L2) usar?
¿Cuál es tu objetivo? Ambos pueden mejorar la generalización del modelo penalizando los coeficientes, ya que las características con relación opuesta al resultado pueden "compensarse" entre sí (un gran valor positivo se compensa con un gran valor negativo). Esto puede surgir cuando hay características colineales. Pequeños cambios en los datos pueden dar como resultado estimaciones de parámetros dramáticamente diferentes (estimaciones de alta varianza). La penalización puede restringir ambos coeficientes para que sean más pequeños. (Hastie et al, Elementos de aprendizaje estadístico , segunda edición, p. 63)
¿Cuáles son los pros y los contras de cada una de las regularizaciones L1 / L2?
La regularización de L1 puede abordar el problema de la multicolinealidad limitando la norma del coeficiente y fijando algunos valores de coeficiente a 0. Computacionalmente, la regresión de lazo (regresión con una penalización de L1) es un programa cuadrático que requiere algunas herramientas especiales para resolver. Cuando tiene más características que las observaciones , el lazo mantendrá como máximo coeficientes distintos de ceronortenorte . Dependiendo del contexto, eso podría no ser lo que quieres.
La regularización L1 a veces se usa como un método de selección de características. Suponga que tiene algún tipo de límite rígido en la cantidad de características que puede usar (porque la recopilación de datos para todas las características es costosa, o tiene restricciones estrictas de ingeniería sobre cuántos valores puede almacenar, etc.). Puede intentar ajustar la penalización L1 para alcanzar el número deseado de características distintas de cero.
La regularización de L2 puede abordar el problema de la multicolinealidad al restringir la norma del coeficiente y mantener todas las variables. Es improbable que un coeficiente sea exactamente 0. Esto no es necesariamente un inconveniente, a menos que un vector de coeficiente disperso sea importante por alguna razón.
En la configuración de regresión, es la solución "clásica" al problema de estimar una regresión con más características que observaciones. La regularización de L2 puede estimar un coeficiente para cada característica incluso si hay más características que observaciones (de hecho, esta fue la motivación original para la "regresión de cresta").
Como alternativa, la red elástica permite la regularización de L1 y L2 como casos especiales. Un caso de uso típico para un científico de datos en la industria es que solo desea elegir el mejor modelo, pero no necesariamente le importa si se penaliza con L1, L2 o ambos. La red elástica es agradable en situaciones como estas.
¿Se recomienda hacer primero la selección de características usando L1 y luego aplicar L2 en estas variables seleccionadas?
No estoy familiarizado con una publicación que proponga una tubería L1-luego-L2, pero esto es probablemente solo ignorancia de mi parte. No parece haber nada malo en ello. Realizaría una revisión de la literatura.
Existen algunos ejemplos de tuberías "en fase" similares. Uno es el "lazo relajado", que aplica la regresión del lazo dos veces , una para seleccionar hacia abajo de un grupo grande a un pequeño grupo de características, y la segunda para estimar los coeficientes para usar en un modelo. Esto utiliza la validación cruzada en cada paso para elegir la magnitud de la penalización. El razonamiento es que en el primer paso, usted valida de forma cruzada y probablemente elegirá una penalización grande para descartar predictores irrelevantes; en el segundo paso, validará de forma cruzada y probablemente elegirá una penalización menor (y, por lo tanto, coeficientes más grandes). Esto se menciona brevemente en Elementos de aprendizaje estadístico con una cita a Nicolai Meinshausen ("Lazo relajado". Estadística computacional y análisis de datos Volumen 52, Número 1, 15 de septiembre de 2007, pp 374-393).
El usuario @amoeba también sugiere una tubería L1-luego-OLS; Esto podría ser bueno porque solo tiene 1 hiperparámetro para la magnitud de la penalización L1, por lo que se requeriría menos violín.
Un problema que puede surgir con cualquier canal de análisis "en fases" que realice algunos pasos y luego otros pasos por separado es que no hay "visibilidad" entre esos diferentes algoritmos, por lo que un proceso hereda cualquier espionaje de datos que sucedió en los pasos anteriores. Este efecto no es despreciable; el modelado mal concebido puede dar como resultado modelos basura.
Una forma de protegerse contra los efectos secundarios de espionaje de datos es validar de forma cruzada todas sus opciones. Sin embargo, el aumento de los costos computacionales puede resultar prohibitivo.