Normas de Ridge y LASSO

12

Esta publicación sigue a esta: ¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal?

Aquí está mi pregunta:

Hasta donde yo sé, la regularización de crestas utiliza una -norm (distancia euclidiana). Pero, ¿por qué usamos el cuadrado de esta norma? (una aplicación directa de resultaría con la raíz cuadrada de la suma de beta al cuadrado). $\ell_2$ $\ell_2$

Como comparación, no hacemos esto para LASSO, que usa una -norm para regularizar. Pero aquí es la norma "real" (solo la suma del cuadrado de los valores absolutos beta, y no el cuadrado de esta suma). $\ell_1$ $\ell_1$

¿Alguien puede ayudarme a aclarar?

lasso regularization ridge-regression

— PLOTZ
fuente

2

El término de penalización en la regresión de cresta es la norma L2 al cuadrado. Vea estas diapositivas escritas por Tibshirani como ejemplo (diapositiva 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Vea también aquí en.wikipedia.org/wiki/Tikhonov_regularization

— boscovich

Pequeño punto de aclaración, estas son diapositivas de Ryan Tibshirani no Rob.

— Ellis Valentiner

ok, muchas gracias por la aclaración. Pero no entiendo por qué al cuadrado para L2 y no al cuadrado para L1. ¿No tenemos fórmulas generales para algún tipo de regularización?

— PLOTZ

@ user12202013: gracias por señalarlo. No me di cuenta de eso.

— boscovich

9

Ridge y el lazo son dos formas de regularización y una regresión. La regresión de lazo impone una restricción sobre la suma de los coeficientes absolutos:

$\sum_i \sqrt{\beta_i^2} = ||\beta||_1$

La regresión de cresta impone una restricción de la suma de las diferencias al cuadrado:

$\sum_i \beta_i^2 = \sqrt{\sum_i \beta_i^2}^2 = ||\beta_i||_2^2$

Sugirió introducir incluso otra norma, la longitud euclidiana de los coeficientes:

$\sqrt{\sum_i \beta_i^2} = ||\beta_i||_2$

La diferencia entre la regresión de Ridge y la longitud euclidiana es la cuadratura. Esto cambia la interpretación de la regularización. Mientras tanto la cresta como la longitud euclidiana se regularizan hacia cero, la regresión de cresta también difiere en la cantidad de regularización. Los coeficientes que están más lejos de cero tiran más fuerte hacia cero. Esto lo hace más estable alrededor de cero porque la regularización cambia gradualmente alrededor de cero. Este no es el caso para la longitud euclidiana, o de hecho, para la regresión de lazo.

— Pieter
fuente

7

Hay muchos enfoques penalizados que ahora tienen todo tipo de funciones de penalización diferentes (cresta, lazo, MCP, SCAD). La pregunta de por qué es una de una forma particular es básicamente "¿qué ventajas / desventajas proporciona tal penalización?".

Las propiedades de interés pueden ser:

1) estimadores casi imparciales (tenga en cuenta que todos los estimadores penalizados estarán sesgados)

2) Escasez (tenga en cuenta que la regresión de cresta no produce resultados dispersos, es decir, no reduce los coeficientes hasta cero)

3) Continuidad (para evitar la inestabilidad en la predicción del modelo)

Estas son solo algunas propiedades que uno podría estar interesado en una función de penalización.

Es mucho más fácil trabajar con una suma en derivaciones y trabajo teórico: por ejemplo, y. Imagina si tuviéramos o . Tomar derivados (que es necesario para mostrar resultados teóricos como consistencia, normalidad asintótica, etc.) sería un dolor con penalizaciones como esa. $||\beta||_2^2=\sum |\beta_i|^2$ $||\beta||_1 = \sum |\beta_i|$ $\sqrt{\left(\sum |\beta_i|^2\right)}$ $\left( \sum |\beta_i|\right)^2$

— bdeonovic
fuente

OK gracias. Pero, ¿por qué al cuadrado para L2 y no al cuadrado para L1? ¿No tenemos fórmulas generales para algún tipo de regularización? Esto me desconcierta ...

— PLOTZ

@PLOTZ Agregué un poco a mi respuesta.

— bdeonovic

Muchas gracias Benjamin! ¡Seguro que ahora está más claro! No entendí este propósito teórico antes de tu respuesta. Muchas gracias por tu respuesta.

— PLOTZ

@Benjamin: en el punto # 1, ¿en realidad querías decir "( no todos los estimadores penalizados serán imparciales)"? La regresión de crestas, solo por nombrar una, está sesgada.

— boscovich

¡Vaya sí, gracias por atrapar eso! Creo que, de hecho, todos los estimadores penalizados estarán sesgados.

— bdeonovic

5

En realidad, tanto el cuadrado del -norm como el -norm provienen de una misma clase de regularización: cuando . $\ell_2$ $\ell_1$ $\|\boldsymbol{\beta}\|_p^p$ $p > 0$

La regresión de Ridge está usando , y Lasso pero uno puede usar otros valores de . $p=2$ $p=1$ $p$

Por ejemplo, tiene una solución dispersa para todos los valores de , y cuanto menor es el valor de más dispersa es la solución. $p \leq 1$ $p$

Para valores de su objetivo no es más fluido, por lo que la optimización se vuelve más difícil; para el objetivo no es convexo, por lo que la optimización es aún más difícil ... $p \leq 1$ $p<1$

— Tonio Bonnef
fuente

2

Creo que hay una respuesta aún más simple aquí, aunque las preguntas de "por qué" siempre son difíciles de responder cuando se desarrolla una técnica. El cuadrado -norm se usa para que el término de regularización sea fácilmente diferenciable. La regresión de cresta minimiza: $l_2$

‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\|\mathbf{y - X\beta}\|^2_2+\lambda\|\beta\|_2^2$

Que también se puede escribir:

‖ y - X β ‖_{2}^{2} + λ β^{T} β

$\|\mathbf{y - X\beta}\|^2_2+\lambda\beta^T\beta$

Esto ahora se puede diferenciar fácilmente wrt para obtener la solución de forma cerrada: $\beta$

{\hat{β}}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

$\hat\beta^{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

de donde se puede derivar todo tipo de inferencia.

— Tim Atreides
fuente

1

Considere otra diferencia importante entre usar el cuadrado de la norma (es decir, la regresión de la cresta) y la norma no modificada : la derivada de la norma de , , en viene dada por y, por lo tanto, no es diferenciable en el vector cero. Es decir, aunque la norma no realiza una selección de variables individuales como el lazo, en teoría podría producir como la solución a la máxima probabilidad penalizada. Al cuadrar el $\ell_2$ $\ell_2$ $\ell_2$ $x$ $||x||_2$ $x$ $\frac{x}{ ||x||_2}$ $\ell_2$ $\beta=0$ $\ell_2$ norma en la penalización, la penalización de tipo cresta es diferenciable en todas partes y nunca puede dar tal solución.

Este comportamiento es exactamente (según tengo entendido) por qué el lazo de grupo (Yuan y Lin) y el lazo de grupo disperso (Simon, et al.), Etc., usan la norma (en subconjuntos de coeficientes preespecificados) en lugar del cuadrado de la norma . $\ell_2$ $\ell_2$

— psboonstra
fuente