Si la multicolinealidad es alta, ¿se reducirían los coeficientes LASSO a 0?

Dado , ¿cuál es el comportamiento teórico de los coeficientes LASSO y por qué? $x_2 = 2 x_1$

¿Uno de o reduciría a o ambos? $x_1$ $x_2$ $0$

require(glmnet)
x1 = runif(100, 1, 2)
x2 = 2*x1
x_train = cbind(x1, x2)
y = 100*x1 + 100 + runif(1)
ridge.mod = cv.glmnet(x_train, y, alpha = 1)
coef(ridge.mod)

#3 x 1 sparse Matrix of class "dgCMatrix"
#                       1
#(Intercept) 1.057426e+02
#x1          9.680073e+01
#x2          3.122502e-15

lasso multicollinearity

— John Hass
fuente

No estoy seguro si esta es una buena simulación porque ambos coeficientes son de hecho cero. Es un poco más interesante observar el comportamiento de las estimaciones de coeficientes cuando hay una relación real.

— dsaxton

Simulación mejorada. Proporciono la simulación porque quiero explicar cuál es mi pregunta. Solo me interesan los resultados teóricos de esta pregunta.

— John Hass

Creo que el comportamiento será impredecible porque el modelo no es identificable. Es decir, ¿cómo puede saber el procedimiento de ajuste del modelo, por ejemplo, que y lugar de y ? No puede, porque cualquiera de los dos es "correcto".

β_{1} = 100

$\beta_1 = 100$

β_{2} = 0

$\beta_2 = 0$

β_{1} = 0

$\beta_1 = 0$

β_{2} = 50

$\beta_2 = 50$

— dsaxton

Estoy de acuerdo con tu razonamiento. ¿Hay una manera matemática de describirlo?

— John Hass

Creo que quisiste decir y = 100*x1 + 100 + runif(100), de lo contrario, obtienes un único número aleatorio que se recicla y se agrega de manera uniforme a todas las demás entradas.

— Firebug

Respuestas:

Observe que

\begin{aligned} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} & = ‖ y - β_{1} x_{1} - β_{2} x_{2} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) \\ = ‖ y - (β_{1} + 2 β_{2}) x_{1} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) . \end{aligned}

$\begin{align*} \|y-X\beta\|_2^2 + \lambda \|\beta\|_1 & = \|y - \beta_1 x_1 - \beta_2 x_2 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right) \\ & = \|y - (\beta_1 + 2 \beta_2) x_1 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right). \end{align*}$

Para cualquier valor fijo del coeficiente , la penalizaciónse minimiza cuando . Esto se debe a que la penalización en es dos veces mayor. Para poner esto en notación,satisface para cualquier . Por lo tanto, el estimador de lazo $\beta_1 + 2\beta_2$ $|\beta_1| + |\beta_2|$ $\beta_1 = 0$ $\beta_1$

\tilde{β} = \arg min_{β : β_{1} + 2 β_{2} = K} | β_{1} | + | β_{2} |

$\tilde\beta = \arg\min_{\beta \, : \, \beta_1 + 2\beta_2 = K}|\beta_1| + |\beta_2|$

{\tilde{β}}_{1} = 0

$\tilde\beta_1 = 0$

K

$K$

\begin{aligned} \hat{β} & = \arg min_{β \in R^{p}} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \\ = \arg min_{β \in R^{p}} ‖ y - (β_{1} + 2 β_{2}) x_{1} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) \\ = \arg_{β} min_{K \in R} min_{β \in R^{p} : β_{1} + 2 β_{2} = K} ‖ y - K x_{1} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) \\ = \arg_{β} min_{K \in R} {‖ y - K x_{1} ‖_{2}^{2} + λ min_{β \in R^{p} : β_{1} + 2 β_{2} = K} {(| β_{1} | + | β_{2} |)}} \end{aligned}

$\begin{align*} \hat\beta & = \arg\min_{\beta \in \mathbb{R}^p} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \\ & = \arg\min_{\beta \in \mathbb{R}^p} \|y - (\beta_1 + 2 \beta_2) x_1 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right) \\ & = \arg_\beta \min_{K \in \mathbb{R}} \, \min_{\beta \in \mathbb{R}^p \, : \, \beta_1 + 2 \beta_2 = K} \, \|y - K x_1 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right) \\ & = \arg_\beta \min_{K \in \mathbb{R}} \, \left\{ \|y - K x_1 \|_2^2 + \lambda \min_{\beta \in \mathbb{R}^p \, : \, \beta_1 + 2 \beta_2 = K} \, \left\{ \left( |\beta_1| + |\beta_2| \right) \right\} \right\} \end{align*}$ satisface . La razón por la cual los comentarios a la pregunta de OP son engañosos es porque hay una penalización en el modelo: esos

{\hat{β}}_{1} = 0

$\hat\beta_1 = 0$

(0, 50)

$(0, 50)$ y coeficientes dan el mismo error, ¡pero diferente norma! Además, no es necesario mirar nada parecido a los LAR: este resultado se deduce inmediatamente de los primeros principios.

(100, 0)

$(100,0)$

ℓ_{1}

$\ell_1$

Como lo señala Firebug, la razón por la cual su simulación muestra un resultado contradictorio es que glmnetse ajusta automáticamente a las características de la varianza unitaria. Es decir, debido al uso de glmnet, estamos efectivamente en el caso de que . Allí, el estimador ya no es único: y están en el argumento min. De hecho, está en para cualquier tal que . $x_1 = x_2$ $(100,0)$ $(0,100)$ $(a,b)$ $\arg\min$ $a,b \geq 0$ $a+b = 100$

En este caso de características iguales, glmnetconvergerá exactamente en una iteración: aplica un umbral suave al primer coeficiente y luego el segundo coeficiente se aplica un umbral suave a cero.

Esto explica por qué la simulación encontró en particular. De hecho, el segundo coeficiente siempre será cero, independientemente del orden de las características. $\hat\beta_2 = 0$

Prueba: suponga WLOG que la función satisface . El descenso coordinado (el algoritmo usado por ) calcula para su primera iteración: seguido de donde . Entonces, desde $x \in \mathbb{R}^n$ $\|x\|_2 = 1$ glmnet

{\hat{β}}_{1}^{(1)} = S_{λ} (x^{T} y)

$\hat\beta_1^{(1)} = S_\lambda(x^T y)$

\begin{aligned} {\hat{β}}_{2}^{(1)} & = S_{λ} [x^{T} (y - x S_{λ} (x^{T} y))] \\ = S_{λ} [x^{T} y - x^{T} x (x^{T} y + T)] \\ = S_{λ} [- T] \\ = 0, \end{aligned}

$\begin{align*} \hat\beta_2^{(1)} & = S_\lambda \left[ x^T \left( y - x S_\lambda (x^T y) \right) \right] \\ & = S_\lambda \left[ x^T y - x^T x \left( x^T y + T \right) \right] \\ & = S_\lambda \left[ - T \right] \\ & = 0, \end{align*}$

T = {\begin{cases} - λ & if x^{T} y > λ \\ λ & if x^{T} y < - λ \\ 0 & otherwise \end{cases}

$T = \begin{cases} - \lambda & \textrm{ if } x^T y > \lambda \\ \lambda & \textrm{ if } x^T y < -\lambda \\ 0 & \textrm{ otherwise} \end{cases}$

{\hat{β}}_{2}^{(1)} = 0

$\hat\beta_2^{(1)}= 0$ , la segunda iteración de descenso de coordenadas repetirá los cálculos anteriores. Inductivamente, vemos que para todas las iteraciones y . Por lo tanto , informará y ya que se alcanza inmediatamente el criterio de detención.

{\hat{β}}_{j}^{(i)} = {\hat{β}}_{j}^{(i)}

$\hat\beta_j^{(i)} = \hat\beta_j^{(i)}$

i

$i$

j \in {1, 2}

$j \in \{1,2\}$ glmnet

{\hat{β}}_{1} = {\hat{β}}_{1}^{(1)}

$\hat\beta_1 = \hat\beta_1^{(1)}$

{\hat{β}}_{2} = {\hat{β}}_{2}^{(1)}

$\hat\beta_2 = \hat\beta_2^{(1)}$

— usuario795305
fuente

glmnettiene la función de escala activada por defecto, estoy bastante seguro. Entonces y vuelven lo mismo en el modelo.

x_{1}

$x_1$

x_{2}

$x_2$

— Firebug

Pruebe esto en su lugar: ridge.mod=cv.glmnet(x_train,y,alpha=1, standardize = FALSE); coef(ridge.mod)

— Firebug

Eso lo hizo! Gran pensamiento, @Firebug! Ahora el coeficiente de se estima como cero. ¡Gracias por compartir tu visión!

x_{1}

$x_1$

— user795305

Cuando vuelvo a ejecutar su código, obtengo que el coeficiente de es numéricamente indistinguible de cero. $x_2$

Para comprender mejor por qué LASSO establece ese coeficiente en cero, debe observar la relación entre LASSO y la Regresión de ángulo mínimo (LAR). LASSO puede verse como un LAR con una modificación especial.

El algoritmo de LAR es más o menos así: comience con un modelo vacío (excepto por una intercepción). Luego agregue la variable predictora que esté más correlacionada con , digamos . Cambie el coeficiente de ese predictor , hasta que el residual esté igualmente correlacionado con y otra variable de predicción . Luego cambie los coeficientes de y hasta que un tercer predictor esté igualmente correlacionado con el residual y así sucesivamente. $y$ $x_j$ $\beta_j$ $y - c - x_j\beta_j$ $x_j$ $x_k$ $x_j$ $x_k$ $x_l$ $y - c - x_j\beta_j -x_k\beta_k$

LASSO puede verse como LAR con el siguiente giro: tan pronto como el coeficiente de un predictor en su modelo (un predictor "activo") llegue a cero, elimine ese predictor del modelo. Esto es lo que sucede cuando una regresión sobre los predictores colineales: ambos se agregarán al modelo al mismo tiempo y, como se cambian sus coeficientes, su respectiva correlación con los residuos va a cambiar proporcionalmente, pero uno de los predictores se abandonará del conjunto activo primero porque llega a cero primero. En cuanto a cuál de los dos predictores colineales será, no lo sé. [EDITAR: cuando invierte el orden de y , puede ver que el coeficiente de $y$ $x_1$ $x_2$ $x_1$ está puesto a cero. Entonces, el algoritmo glmnet simplemente parece establecer esos coeficientes a cero primero que se ordenan más adelante en la matriz de diseño.]

Una fuente que explica estas cosas con más detalle es el Capítulo 3 en "Los elementos del aprendizaje estadístico" de Friedman, Hastie y Tibshirani.

— Matthias Schmidtblaicher
fuente