Solución de forma cerrada al problema de lazo cuando la matriz de datos es diagonal

$\newcommand{\diag}{\operatorname{diag}}$ Tenemos el problema: suponiendo que:

min_{w \in R^{d}} (\frac{1}{n} \sum_{i = 1}^{n} {(⟨ w, x_{i} ⟩ - y_{i})}^{2} + 2 λ | | w | |_{1}),

$\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),$

\sum_{i = 1}^{n} x_{i} x_{i}^{T} = diag (σ_{1}^{2}, . . ., σ_{d}^{2}) .

$\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2).$

¿Existe una solución de forma cerrada en este caso?

Tengo eso:

(X^{T} X)^{- 1} = diag (σ_{1}^{- 2}, . . ., σ_{d}^{- 2}),

$(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),$ y creo que la respuesta es :

w^{j} = y^{j} max {0, 1 - λ \frac{n}{| y^{j} |}},

$w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},$ para

y^{j} = \sum_{i = 1}^{n} \frac{y_{i} x_{i}^{j}}{σ_{i}^{2}}

$y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}$ , pero no estoy seguro.

— Arthur D.
fuente

Voy a pasar por la derivación de @ cardinal de la solución de lazo de forma cerrada cuando $X^T X = I$ , que se encuentra aquí , con modificaciones menores.

Asumiré que $\sigma^2_i > 0$ para todo $i$ . Esto se justifica porque si tenemos un $\sigma^2_i = 0$ entonces esto nos dice que la $i$ ésima columna de $X$ es todo 0, y creo que es razonable excluir ese caso. Voy a dejar que $X^T X = D$ . Tenga en cuenta que esto también significa que $X$ es rango completo y la solución OLS está definida de forma única. $\hat \beta$

También voy a modificar su notación para que coincida mejor con la respuesta a la que me refiero. Con ese fin, resolveré

{\hat{β}}_{λ} = {argmin}_{β \in R^{p}} \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$\hat \beta_\lambda = \text{argmin}_{\beta \in \mathbb R^p } \frac 12 \vert \vert Y - X\beta\vert \vert^2_2 + \lambda \vert \vert \beta \vert \vert_1.$

Esto es idéntico a su problema, pero puedo agregar más detalles aquí si lo desea.

Siguiendo la derivación de @ cardinal, tenemos que tenemos que resolver

{\hat{β}}_{λ} = argmin \frac{1}{2} (Y^{T} Y - 2 Y^{T} X β + β^{T} X^{T} X β) + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } \frac 12 (Y^T Y - 2 Y^T X \beta + \beta^T X^T X \beta) + \lambda \vert \vert \beta \vert \vert_1$

= argmin - Y^{T} X β + \frac{1}{2} β^{T} D β + λ | | β | |_{1} .

$= \text{argmin } -Y^T X \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1.$

Teniendo en cuenta que la solución OLS es , tenemos que $\hat \beta = (X^T X)^{-1} X^T Y = D^{-1}X^T Y$

{\hat{β}}_{λ} = argmin - {\hat{β}}^{T} D β + \frac{1}{2} β^{T} D β + λ | | β | |_{1}

$\hat \beta_\lambda = \text{argmin } -\hat \beta^T D \beta + \frac 12 \beta^T D \beta + \lambda \vert \vert \beta \vert \vert_1$

= argmin \sum_{j = 1}^{p} - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$= \text{argmin } \sum_{j=1}^p -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Estamos optimizando cada separado, por lo que podemos resolver cada término de esta suma por separado. Esto significa que debemos minimizar donde $\beta_j$ $\mathcal L_j$

L_{j} = - {\hat{β}}_{j} β_{j} σ_{j}^{2} + \frac{σ_{j}^{2}}{2} β_{j}^{2} + λ | β_{j} | .

$\mathcal L_j = -\hat \beta_j \beta_j \sigma^2_j + \frac{\sigma^2_j}2 \beta_j^2 + \lambda | \beta_j|.$

Siguiendo un argumento completamente análogo a la respuesta vinculada, encontramos que

({\hat{β}}_{λ})_{j} = s g n ({\hat{β}}_{j}) {(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} .

$(\hat \beta_\lambda)_j = \mathrm{sgn}(\hat \beta_j) \left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+.$

Además, así que tenemos ese $\hat \beta = D^{-1} X^T Y \implies \hat \beta_j = \frac{X_j^T Y}{\sigma_j^2}$

{(| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}})}^{+} = \frac{1}{σ_{j}^{2}} {(| X_{j}^{T} Y | - λ)}^{+}

$\left(|\hat \beta_j| - \frac{\lambda}{\sigma^2_j}\right)^+ = \frac 1 {\sigma^2_j} \left(|X_j^T Y| - \lambda\right)^+$

entonces resulta que un predictor $X_j$ se pone a cero exactamente cuando lo haría si la matriz de diseño fuera ortonormal, no solo ortogonal. Entonces podemos ver que en este caso con , la selección de la variable no es diferente a si , pero los coeficientes reales se escalan de acuerdo con las variaciones del predictor. $X^T X = D \neq I$ $X^T X = I$ $\hat \beta_\lambda$

Como nota final, convertiré esta solución en una que se parezca a la suya, lo que significa que debemos multiplicar por algo para obtener $\hat \beta$ $\hat \beta_\lambda$ . Si entonces tenemos que $(\hat \beta_\lambda)_j \neq 0$

({\hat{β}}_{λ})_{j} = sgn ({\hat{β}}_{j}) (| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}}) = {\hat{β}}_{j} - sgn ({\hat{β}}_{j}) \frac{λ}{σ_{j}^{2}}

$(\hat \beta_\lambda)_j = \text{sgn}(\hat \beta_j) \left( \vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \right) = \hat \beta_j - \text{sgn}(\hat \beta_j) \frac{\lambda}{\sigma^2_j}$

= {\hat{β}}_{j} (1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})

$= \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)$

desde . $\frac{a}{\vert a \vert} = \text{sgn}(a)$

Señalando que $(\hat \beta_\lambda)_j = 0$ exactamente cuando

| {\hat{β}}_{j} | - \frac{λ}{σ_{j}^{2}} \leq 0 ⟺ | {\hat{β}}_{j} | \leq \frac{λ}{σ_{j}^{2}} ⟺ 1 \leq \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} ⟺ 1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |} \leq 0,

$\vert \hat \beta_j \vert - \frac{\lambda}{\sigma^2_j} \leq 0 \iff \vert \hat \beta_j \vert \leq \frac{\lambda}{\sigma^2_j} \iff 1 \leq \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \iff 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \leq 0,$

vemos que alternativamente podríamos expresar $\hat \beta_\lambda$ como

({\hat{β}}_{λ})_{j} = {\hat{β}}_{j} {(1 - \frac{λ}{σ_{j}^{2} | {\hat{β}}_{j} |})}^{+} .

$(\hat \beta_\lambda)_j = \hat \beta_j \left( 1 - \frac{\lambda}{\sigma^2_j \vert \hat \beta_j \vert} \right)^+.$

Así que esto está muy cerca de lo que tenía, pero no exactamente lo mismo.

Siempre me gusta verificar derivaciones como esta con bibliotecas conocidas si es posible, así que aquí hay un ejemplo en R:

## generating `x`
set.seed(1)
n = 1000
p = 5
sigma2s = 1:p
x = svd(matrix(rnorm(n * p), n, p))$u %*% diag(sqrt(sigma2s))

## check this
# t(x) %*% x

## generating `y`
betas = 1:p
y = x %*% betas + rnorm(nrow(x), 0, .5)

lambda = 2

## using a well-known library to fit lasso
library(penalized)
penalized(y, x, lambda1 = lambda)@penalized


## using closed form solution
betahat = lm(y ~ x - 1)$coef
ifelse(betahat > 0, 1, -1) * sapply(abs(betahat) - lambda / sigma2s, function(v) max(c(0, v)))

— jld
fuente