Penalización de puente versus regularización de Elastic Net

Algunas funciones de penalización y aproximaciones están bien estudiadas, como LASSO ( ) y Ridge ( ) y cómo se comparan en regresión. $L_1$ $L_2$

He estado leyendo sobre la penalización de Bridge, que es la penalización generalizada . Compare eso con el LASSO, que tiene , y el Ridge, con , haciéndolos casos especiales. $\sum \|\beta_{j}\|^{\gamma}$ $\gamma = 1$ $\gamma = 2$

Wenjiang [ 1 ] comparó la penalización de Bridge cuando $\gamma \geq 1$ con LASSO, pero no pude encontrar una comparación con la regularización de Elastic Net, una combinación de las penalizaciones de LASSO y Ridge, dada como $\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}$ .

Esta es una pregunta interesante porque Elastic Net y este puente específico tienen formas de restricción similares. Compare estos círculos unitarios utilizando las diferentes métricas ( $p$ es el poder de la distancia de Minkowski ):

$p = 1$ corresponde al LASSO, $p = 2$ a la cresta, y $p = 1.4$ a un posible puente. El elástico neto se ha generado con la misma ponderación en $L_1$ y $L_2$ sanciones. Estas cifras son útiles para identificar la escasez, por ejemplo (que Bridge carece claramente mientras Elastic Net lo conserva de LASSO).

Entonces, ¿cómo se compara el Puente con $1<\gamma <2$ con Elastic Net con respecto a la regularización (aparte de la escasez)? Tengo especial interés en el aprendizaje supervisado, por lo que tal vez sea pertinente una discusión sobre la selección / ponderación de características. La argumentación geométrica también es bienvenida.

Quizás, más importante, ¿la Elastic Net es siempre más deseable en este caso?

_{[1] Fu, WJ (1998). Regresiones penalizadas: el puente versus el lazo. Revista de estadística computacional y gráfica, 7 (3), 397-416.}

EDITAR: Hay esta pregunta ¿Cómo decidir qué medida de penalización usar? cualquier directriz general o regla general del libro de texto que mencione superficialmente LASSO, Ridge, Bridge y Elastic Net, pero no hay intentos de compararlos.

— Firebug
fuente

Solo se relaciona tangencialmente, pero si la norma es la estimación MAP de una regresión bayesiana con independientes de Laplace en coeficientes, y el es el mismo para los prior gaussianos, me pregunto si la penalización de Bridge es equivalente a un Subbotin anterior ... stats.stackexchange.com/questions/201038/…

L_{1}

$L_1$

L_{2}

$L_2$

— Sycorax dice Reinstate Monica

@ RichardHardy No hay necesidad de escribir un lazo en todas las mayúsculas, mira mi comentario aquí .

— ameba dice Reinstate Monica

Tenga en cuenta que la regresión de Bridge permite que da una regresión no convexa. Estos son buenos en particular cuando se trata de seleccionar grupos de covariables, especialmente a partir de datos dispersos. O, en general, podría tener grupos predefinidos de covariables, que regularizaría para que ningún grupo en particular sea grande, y luego regularizaría los coeficientes de un solo grupo para lograr la dispersión. Es decir, si escribe , donde entonces podría hacer .

γ < 1

$\gamma<1$

L^{2}

$L^2$

L^{1}

$L^1$

β = (a_{1}, \dots, a_{k})

$\beta=(a_1,\cdots,a_k)$

a_{i} = (β_{i_{1}}, β_{i_{2},}, \dots, β_{i_{r}})

$a_i=(\beta_{i_1},\beta_{i_2,},\cdots,\beta_{i_r})$

λ_{1} ‖ β ‖^{γ_{i}} + λ_{2} \sum_{i} ‖ a_{i} ‖^{ν_{i}}

$\lambda_1 \|\beta\|^{\gamma_i}+\lambda_2\sum_i \|a_i\|^{\nu_i}$

— Alex R.

@AlexR. Debería dejar en claro que me refiero a . No sabía que también se llamaba Bridge.

γ \geq 1

$\gamma \geq 1$

γ < 1

$\gamma < 1$

— Firebug

@amoeba, está bien. Normalmente no edito si el uso de mayúsculas es consistente a lo largo de la publicación, pero esta vez había "LASSO" y "lasso", así que elegí "LASSO", que fue la primera forma en la publicación. Siempre pienso en el acrónimo, por eso utilicé todas las mayúsculas; pero como dices, un simple "lazo" puede ser mejor.

— Richard Hardy

La diferencia entre la regresión del puente y la red elástica es una pregunta fascinante, dadas sus penalizaciones de aspecto similar. Aquí hay un posible enfoque. Supongamos que resolvemos el problema de regresión del puente. Entonces podemos preguntarnos cómo diferiría la solución neta elástica. Observar los gradientes de las dos funciones de pérdida puede decirnos algo sobre esto.

Regresión del puente

Digamos que es una matriz que contiene valores de la variable independiente ( puntos x dimensiones), es un vector que contiene valores de la variable dependiente, y es el vector de peso. $X$ $n$ $d$ $y$ $w$

La función de pérdida penaliza la norma de los pesos, con magnitud : $\ell_q$ $\lambda_b$

L_{b} (w) = ‖ y - X w ‖_{2}^{2} + λ_{b} ‖ w ‖_{q}^{q}

$L_b(w) = \| y - Xw\|_2^2 + \lambda_b \|w\|_q^q$

El gradiente de la función de pérdida es:

\nabla_{w} L_{b} (w) = - 2 X^{T} (y - X w) + λ_{b} q | w |^{\circ (q - 1)} sgn (w)

$\nabla_w L_b(w) = -2 X^T (y - Xw) + \lambda_b q |w|^{\circ(q-1)} \text{sgn}(w)$

$v^{\circ c}$ denota el poder de Hadamard (es decir, en cuanto al elemento), que proporciona un vector cuyo elemento es . es la función de signo (aplicada a cada elemento de ). El gradiente puede estar indefinido en cero para algunos valores de . $i$ $v_i^c$ $\text{sgn}(w)$ $w$ $q$

Red elástica

La función de pérdida es:

L_{e} (w) = ‖ y - X w ‖_{2}^{2} + λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2}

$L_e(w) = \|y - Xw\|_2^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2$

Esto penaliza la norma de los pesos con magnitud y la norma con magnitud . El papel de red elástica llama a minimizar esta función de pérdida la 'red elástica ingenua' porque reduce doblemente los pesos. Describen un procedimiento mejorado en el que los pesos se vuelven a escalar para compensar la doble contracción, pero solo voy a analizar la versión ingenua. Esa es una advertencia a tener en cuenta. $\ell_1$ $\lambda_1$ $\ell_2$ $\lambda_2$

El gradiente de la función de pérdida es:

\nabla_{w} L_{e} (w) = - 2 X^{T} (y - X w) + λ_{1} sgn (w) + 2 λ_{2} w

$\nabla_w L_e(w) = -2 X^T (y - Xw) + \lambda_1 \text{sgn}(w) + 2 \lambda_2 w$

El gradiente no está definido en cero cuando porque el valor absoluto en la penalización no es diferenciable allí. $\lambda_1 > 0$ $\ell_1$

Enfoque

Digamos que seleccionamos pesos que resuelven el problema de regresión del puente. Esto significa que el gradiente de regresión del puente es cero en este punto: $w^*$

\nabla_{w} L_{b} (w^{*}) = - 2 X^{T} (y - X w^{*}) + λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*}) = \vec{0}

$\nabla_w L_b(w^*) = -2 X^T (y - Xw^*) + \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*) = \vec{0}$

Por lo tanto:

2 X^{T} (y - X w^{*}) = λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$2 X^T (y - Xw^*) = \lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Podemos sustituir esto en el gradiente neto elástico, para obtener una expresión para el gradiente neto elástico en . Afortunadamente, ya no depende directamente de los datos: $w^*$

\nabla_{w} L_{e} (w^{*}) = λ_{1} sgn (w^{*}) + 2 λ_{2} w^{*} - λ_{b} q | w^{*} |^{\circ (q - 1)} sgn (w^{*})

$\nabla_w L_e(w^*) = \lambda_1 \text{sgn}(w^*) + 2 \lambda_2 w^* -\lambda_b q |w^*|^{\circ (q-1)} \text{sgn}(w^*)$

Al observar el gradiente de la red elástica en nos dice: Dado que la regresión del puente ha convergido a los pesos , ¿cómo querría la red elástica cambiar estos pesos? $w^*$ $w^*$

Nos da la dirección local y la magnitud del cambio deseado, porque el gradiente apunta en la dirección del ascenso más pronunciado y la función de pérdida disminuirá a medida que nos movemos en la dirección opuesta al gradiente. El gradiente podría no apuntar directamente hacia la solución de red elástica. Pero, debido a que la función de pérdida neta elástica es convexa, la dirección / magnitud local proporciona cierta información sobre cómo la solución neta elástica diferirá de la solución de regresión del puente.

Caso 1: comprobación de cordura

( ). La regresión de puente en este caso es equivalente a mínimos cuadrados ordinarios (MCO), porque la magnitud de la penalización es cero. La red elástica es una regresión de cresta equivalente, porque solo se penaliza la norma . Los siguientes gráficos muestran diferentes soluciones de regresión de puentes y cómo se comporta el gradiente neto elástico para cada uno. $\lambda_b = 0, \lambda_1 = 0, \lambda_2 = 1$ $\ell_2$

Gráfico de la izquierda: gradiente neto elástico versus peso de regresión del puente a lo largo de cada dimensión

El eje x representa un componente de un conjunto de pesos seleccionado por regresión de puente. El eje y representa el componente correspondiente del gradiente neto elástico, evaluado en . Tenga en cuenta que los pesos son multidimensionales, pero solo estamos viendo los pesos / gradiente a lo largo de una sola dimensión. $w^*$ $w^*$

Gráfico correcto: cambios netos elásticos en los pesos de regresión del puente (2d)

Cada punto representa un conjunto de 2d pesos seleccionados por regresión de puente. Para cada elección de , se traza un vector apuntando en la dirección opuesta al gradiente neto elástico, con una magnitud proporcional a la del gradiente. Es decir, los vectores trazados muestran cómo la red elástica quiere cambiar la solución de regresión del puente. $w^*$ $w^*$

Estas gráficas muestran que, en comparación con la regresión de puente (OLS en este caso), la red elástica (regresión de cresta en este caso) quiere reducir los pesos hacia cero. La cantidad deseada de contracción aumenta con la magnitud de los pesos. Si los pesos son cero, las soluciones son las mismas. La interpretación es que queremos movernos en la dirección opuesta al gradiente para reducir la función de pérdida. Por ejemplo, digamos que la regresión del puente convergió a un valor positivo para uno de los pesos. El gradiente de red elástica es positivo en este punto, por lo que la red elástica quiere disminuir este peso. Si se usa el descenso de gradiente, tomaríamos pasos de tamaño proporcional al gradiente (por supuesto, técnicamente no podemos usar el descenso de gradiente para resolver la red elástica debido a la no diferenciabilidad en cero,

Caso 2: puente a juego y red elástica

( ). Elegí los parámetros de penalización del puente para que coincida con el ejemplo de la pregunta. Elegí los parámetros de red elástica para dar la mejor penalización de red elástica correspondiente. Aquí, la mejor combinación significa, dada una distribución particular de pesos, encontramos los parámetros de penalización neta elástica que minimizan la diferencia al cuadrado esperada entre el puente y las penalizaciones netas elásticas: $q = 1.4, \lambda_b = 1, \lambda_1 = 0.629, \lambda_2 = 0.355$

min_{λ_{1}, λ_{2}} E [(λ_{1} ‖ w ‖_{1} + λ_{2} ‖ w ‖_{2}^{2} - λ_{b} ‖ w ‖_{q}^{q})^{2}]

$\min_{\lambda_1, \lambda_2} \enspace E \left [ ( \lambda_1 \|w\|_1 + \lambda_2 \|w\|_2^2 - \lambda_b \|w\|_q^q )^2 \right ]$

Aquí, consideré los pesos con todas las entradas extraídas de la distribución uniforme en (es decir, dentro de un hipercubo centrado en el origen). Los parámetros de red elástica de mejor coincidencia fueron similares para 2 a 1000 dimensiones. Aunque no parecen ser sensibles a la dimensionalidad, los parámetros que mejor coinciden dependen de la escala de la distribución. $[-2, 2]$

Superficie de penalización

Aquí hay una gráfica de contorno de la penalización total impuesta por la regresión del puente ( ) y la red elástica de mejor coincidencia ( ) en función de los pesos (para el caso 2d ): $q=1.4, \lambda_b=100$ $\lambda_1 = 0.629, \lambda_2 = 0.355$

Comportamiento gradiente

Podemos ver lo siguiente:

Sea el peso de regresión de puente elegido a lo largo de la dimensión . $w^*_j$ $j$
Si , la red elástica quiere reducir el peso hacia cero. $|w^*_j|< 0.25$
Si , la regresión del puente y las soluciones netas elásticas son las mismas. Pero, la red elástica quiere alejarse si el peso difiere incluso ligeramente. $|w^*_j| \approx 0.25$
Si , la red elástica quiere aumentar el peso. $0.25 < |w^*_j| < 1.31$
Si , la regresión del puente y las soluciones netas elásticas son las mismas. La red elástica quiere moverse hacia este punto desde los pesos cercanos. $|w^*_j| \approx 1.31$
Si , la red elástica quiere reducir el peso. $|w^*_j| > 1.31$

Los resultados son cualitativamente similares si cambiamos el valor de y / o y encontramos el mejor . Los puntos donde coinciden las soluciones de puente y red elástica cambian ligeramente, pero el comportamiento de los gradientes es similar. $q$ $\lambda_b$ $\lambda_1, \lambda_2$

Caso 3: Puente no coincidente y red elástica

$(q=1.8, \lambda_b=1, \lambda_1=0.765, \lambda_2 = 0.225)$ . En este régimen, la regresión de puente se comporta de manera similar a la regresión de cresta. Encontré la mejor , pero luego las cambié para que la red elástica se comporte más como lazo ( penalización mayor que penalización). $\lambda_1, \lambda_2$ $\ell_1$ $\ell_2$

En relación con la regresión del puente, la red elástica quiere reducir los pesos pequeños hacia cero y aumentar los pesos más grandes. Hay un solo conjunto de pesos en cada cuadrante donde la regresión del puente y las soluciones de red elástica coinciden, pero la red elástica quiere alejarse de este punto si los pesos difieren incluso ligeramente.

$(q=1.2, \lambda_b=1, \lambda_1=173, \lambda_2 = 0.816)$ . En este régimen, la penalización del puente es más similar a una penalización (aunque la regresión del puente puede no producir soluciones dispersas con , como se menciona en el documento de red elástica). Encontré la mejor , pero luego las cambié para que la red elástica se comporte más como una regresión de cresta ( penalización mayor que penalización). $\ell_1$ $q > 1$ $\lambda_1, \lambda_2$ $\ell_2$ $\ell_1$

En relación con la regresión del puente, la red elástica quiere crecer pesos pequeños y reducir pesos más grandes. Hay un punto en cada cuadrante donde la regresión del puente y las soluciones de red elástica coinciden, y la red elástica quiere moverse hacia estos pesos desde los puntos vecinos.

— usuario20160
fuente

(+1) Gran respuesta, ¡gracias por el esfuerzo! ¿Podría abordar una última cosa: "¿Elastic Net es siempre más deseable?". No es necesario ser largo;

— Firebug

La regresión del puente y la red elástica son equivalentes a la estimación de MAP con diferentes tipos de anteriores en los pesos. Desde esta perspectiva, parece que la mejor opción sería la anterior que coincida mejor con el proceso de generación de datos, y que ninguno de los métodos podría ser mejor en todos los casos.

— user20160

+6, muy buena respuesta. Con respecto a su comentario anterior: ¿qué rendimientos previos regresan al puente? Sé que el gaussiano anterior corresponde a la cresta y Laplace antes del lazo. ¿Se puede combinar de alguna manera estos antecedentes para obtener algo que corresponda a una red elástica?

— ameba dice Reinstate Monica

@amoeba La pregunta no fue dirigida a mí, lo sé, pero como dijo GeneralAbrial en la pregunta, el puente probablemente corresponde a un Subbotin anterior. La red elástica, como se esperaba, se encuentra entre los gaussianos y los laplacianos. Ver Li, Q. y Lin, N. (2010). La red elástica bayesiana. Análisis Bayesiano, 5 (1), 151-170. y Zou, H. y Hastie, T. (2005). Regularización y selección de variables a través de la red elástica. Revista de la Royal Statistical Society: Serie B (Metodología estadística), 67 (2), 301-320. para una breve comparación entre la red elástica y la regresión del puente.

— Firebug el

@amoeba agradece la generosidad y llama la atención sobre esta publicación, así como por la otra publicación sobre PCA vs. reducción de dimensionalidad no lineal. Es admirable que use su representante para promover las preguntas / respuestas de los demás, y me alegra que esta publicación sea al menos de poco valor para las personas. Otros, gracias también por las amables palabras.

— user20160