¿Por qué mi derivación de una solución de lazo cerrado es incorrecta?

β^{lasso} = \underset{β}{argmin} ‖ y - X β ‖_{2}^{2} + α ‖ β ‖_{1}

$\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1$

β_{j}^{lasso} = s g n (β_{j}^{LS}) (| β_{j}^{LS} | - α)^{+}

$\beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+$

X

$X$

Sin embargo, no entiendo por qué no hay una solución de forma cerrada en general. Usando subdiferenciales obtuve lo siguiente.

( $X$ es una matriz $n \times p$ )

f (β) = ‖ y - X β ‖_{2}^{2} + α ‖ β ‖_{1}

$f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1$

= \sum_{i = 1}^{n} (y_{i} - X_{i} β)^{2} + α \sum_{j = 1}^{p} | β_{j} |

$=\sum_{i=1}^n (y_i-X_i\beta)^2 + \alpha \sum_{j=1}^p |\beta_j|$ (

X_{i}

$X_i$ es la fila i-ésima de

X

$X$ )

= \sum_{yo = 1}^{norte} y_{yo}^{2} - 2 \sum_{yo = 1}^{norte} y_{yo} X_{yo} β + \sum_{yo = 1}^{norte} β^{T} X_{yo}^{T} X_{yo} β + α \sum_{j = 1}^{pags} El | β_{j} El |

$= \sum_{i=1}^n y_i^2 -2\sum_{i=1}^n y_i X_i \beta + \sum_{i=1}^n \beta^T X_i^T X_i \beta + \alpha \sum_{j=1}^p |\beta_j|$

\Rightarrow \frac{\partial F}{\partial β_{j}} = - 2 \sum_{yo = 1}^{norte} y_{yo} X_{yo j} + 2 \sum_{yo = 1}^{norte} X_{yo j}^{2} β_{j} + \frac{\partial}{\partial β_{j}} (α El | β_{j} El |)

$\Rightarrow \frac{\partial f}{\partial \beta_j}= -2\sum_{i=1}^ny_i X_{ij} + 2 \sum_{i=1}^n X_{ij}^2\beta_j + \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|)$

= {\begin{cases} - 2 \sum_{yo = 1}^{norte} y_{yo} X_{yo j} + 2 \sum_{yo = 1}^{norte} X_{yo j}^{2} β_{j} + α para β_{j} > 0 0 \\ - 2 \sum_{yo = 1}^{norte} y_{yo} X_{yo j} + 2 \sum_{yo = 1}^{norte} X_{yo j}^{2} β_{j} - α para β_{j} < 0 0 \\ [- 2 \sum_{yo = 1}^{norte} y_{yo} X_{yo j} - α, - 2 \sum_{yo = 1}^{norte} y_{yo} X_{yo j} + α] para β_{j} = 0 0 \end{cases}

$= \begin{cases} -2\sum_{i=1}^ny_i X_{ij} + 2 \sum_{i=1}^n X_{ij}^2\beta_j + \alpha \text{ for } \beta_j > 0 \\ -2\sum_{i=1}^ny_i X_{ij} + 2 \sum_{i=1}^n X_{ij}^2\beta_j - \alpha \text{ for } \beta_j < 0 \\ [-2\sum_{i=1}^ny_i X_{ij} - \alpha, -2\sum_{i=1}^ny_i X_{ij} + \alpha] \text{ for } \beta_j = 0 \end{cases}$ Con

\frac{\partial f}{\partial β_{j}} = 0

$\frac{\partial f}{\partial \beta_j} = 0$ obtenemos

β_{j} = {\begin{cases} (2 (\sum_{yo = 1}^{norte} y_{yo} X_{yo j}) - α) / / 2 \sum_{yo = 1}^{norte} X_{yo j}^{2} & para \sum_{yo = 1}^{norte} y_{yo} X_{yo j} > α \\ (2 (\sum_{yo = 1}^{norte} y_{yo} X_{yo j}) + α) / / 2 \sum_{yo = 1}^{norte} X_{yo j}^{2} & para \sum_{yo = 1}^{norte} y_{yo} X_{yo j} < - α \\ 0 0 & para \sum_{yo = 1}^{norte} y_{yo} X_{yo j} \in [- α, α] \end{cases}

$\beta_j = \begin{cases} \left( 2(\sum_{i=1}^ny_i X_{ij}) - \alpha \right)/ 2\sum_{i=1}^n X_{ij}^2 &\text{for } \sum_{i=1}^ny_i X_{ij} > \alpha \\ \left( 2(\sum_{i=1}^ny_i X_{ij}) + \alpha \right)/ 2\sum_{i=1}^n X_{ij}^2 &\text{for } \sum_{i=1}^ny_i X_{ij} < -\alpha \\ 0 &\text{ for }\sum_{i=1}^ny_i X_{ij} \in [-\alpha, \alpha] \end{cases}$

¿Alguien ve dónde me equivoqué?

Responder:

Si escribimos el problema en términos de matrices, podemos ver muy fácilmente por qué una solución de forma cerrada solo existe en el caso ortonormal con $X^TX= I$ :

f (β) = ‖ y - X β ‖_{2}^{2} + α ‖ β ‖_{1}

$f(\beta)= \| y-X\beta\|^2_2 + \alpha \| \beta\|_1$

= y^{T} y - 2 β^{T} X^{T} y + β^{T} X^{T} X β + α ‖ β ‖_{1}

$= y^Ty -2\beta^TX^Ty + \beta^TX^TX\beta + \alpha \| \beta\|_1$

\Rightarrow \nabla f (β) = - 2 X^{T} y + 2 X^{T} X β + \nabla (α | β ‖_{1})

$\Rightarrow \nabla f(\beta)=-2X^Ty + 2X^TX\beta + \nabla(\alpha| \beta\|_1)$ (He dado muchos pasos a la vez aquí. Sin embargo, hasta este punto, esto es completamente análogo a la derivación de la solución de mínimos cuadrados. Por lo tanto, debería poder encontrar los pasos faltantes allí.)

\Rightarrow \frac{\partial f}{\partial β_{j}} = - 2 X_{j}^{T} y + 2 (X^{T} X)_{j} β + \frac{\partial}{\partial β_{j}} (α | β_{j} |)

$\Rightarrow \frac{\partial f}{\partial \beta_j}=-2X^T_{j} y + 2(X^TX)_j \beta + \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|)$

Con $\frac{\partial f}{\partial \beta_j} = 0$ obtenemos

2 (X^{T} X)_{j} β = 2 X_{j}^{T} y - \frac{\partial}{\partial β_{j}} (α | β_{j} |)

$2(X^TX)_j \beta =2X^T_{j} y - \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|)$

\Leftrightarrow 2 (X^{T} X)_{j j} β_{j} = 2 X_{j}^{T} y - \frac{\partial}{\partial β_{j}} (α | β_{j} |) - 2 \sum_{i = 1, i \neq j}^{p} (X^{T} X)_{j i} β_{i}

$\Leftrightarrow 2(X^TX)_{jj} \beta_j = 2X^T_{j} y - \frac{\partial}{\partial \beta_j}(\alpha |\beta_j|) - 2\sum_{i=1,i\neq j}^p(X^TX)_{ji}\beta_i$

Ahora podemos ver que nuestra solución para un depende de todos los demás por lo que no está claro cómo proceder desde aquí. Si es ortonormal, tenemos por lo que ciertamente existe una solución de forma cerrada en este caso. $\beta_j$ $\beta_{i\neq j}$ $X$ $2(X^TX)_j \beta = 2(I)_j \beta = 2\beta_j$

Gracias a Guðmundur Einarsson por su respuesta, sobre la cual elaboré aquí. Espero que esta vez sea correcto :-)

regression lasso regularization

— Norbert
fuente

¡Bienvenido a CrossValidated, y felicidades por una muy buena primera publicación!

— S. Kolassa - Reincorporar a Mónica

Esto normalmente se hace con la regresión de menor ángulo, puede encontrar el documento aquí .

Perdón por mi confusión al principio, voy a intentarlo de nuevo.

Entonces, después de la expansión de tu función obtienes $f(\beta)$

f (β) = \sum_{i = 1}^{n} y_{i}^{2} - 2 \sum_{i = 1}^{n} y_{i} X_{i} β + \sum_{i = 1}^{n} β^{T} X_{i}^{T} X_{i} β + α \sum_{j = 1}^{p} | β_{j} |

$f(\beta)=\sum_{i=1}^n y_i^2 -2\sum_{i=1}^n y_i X_i \beta + \sum_{i=1}^n \beta^T X_i^T X_i \beta + \alpha \sum_{j=1}^p |\beta_j|$

Luego calcula la derivada parcial con respecto a . Mi preocupación está en su cálculo de la derivada parcial del último término antes de la norma 1, es decir, el término cuadrático. Vamos a examinarlo más a fondo. Tenemos que: $\beta_j$

X_{i} β = β^{T} X_{i}^{T} = (β_{1} X_{i 1} + β_{2} X_{i 2} + \dots + β_{p} X_{i p})

$X_i\beta = \beta^T X_i^T = (\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots+ \beta_p X_{ip})$ Así que esencialmente puede reescribir su término cuadrático como: Ahora podemos usar la regla de la cadena para calcular la derivada de este wrt :

\sum_{i = 1}^{n} β^{T} X_{i}^{T} X_{i} β = \sum_{i = 1}^{n} (X_{i} β)^{2}

$\sum_{i=1}^n \beta^T X_i^T X_i \beta = \sum_{i=1}^n (X_i \beta)^2$

β_{j}

$\beta_j$

\frac{\partial}{\partial β_{j}} \sum_{i = 1}^{n} (X_{i} β)^{2} = \sum_{i = 1}^{n} \frac{\partial}{\partial β_{j}} (X_{i} β)^{2} = \sum_{i = 1}^{n} 2 (X_{i} β) X_{i j}

$\frac{\partial }{\partial \beta_j} \sum_{i=1}^n (X_i \beta)^2 = \sum_{i=1}^n \frac{\partial }{\partial \beta_j} (X_i \beta)^2 = \sum_{i=1}^n 2(X_i \beta)X_{ij}$

Entonces, su problema no se simplifica tan fácilmente, porque tiene todos los coeficientes presentes en cada ecuación. $\beta$

Esto no responde a su pregunta de por qué no hay una solución de forma cerrada del lazo, podría agregar algo más adelante.

— Gumeo
fuente

Muchas gracias. De hecho, ahora puedo ver por qué no hay una solución de forma cerrada (ver mi edición).

— Norbert

¡Dulce! Gran trabajo :)

— Gumeo