Conexión entre formulaciones de lazo

$L$

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \;$

Pero a menudo, cuando vi el estimador Lasso, se puede escribir como

{\hat{β}}_{n} (λ) = \arg min_{β} {\frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}}

$\hat{\beta}_n(\lambda) = \displaystyle\arg \min_{\beta} \{\frac {1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \}$

Mi pregunta es, ¿son equivalentes? ¿Dónde entra el término $\frac {1}{2n}$ ? Las conexiones entre las dos formulaciones no son obvias para mí.

[Actualización] Creo que otra pregunta que debo hacer es,

¿Por qué hay la segunda formulación? ¿Cuál es la ventaja, teórica o computacionalmente, de formular el problema de esa manera?

lasso

— Aaron Zeng
fuente

Si configura en la segunda formulación igual a veces la en la primera formulación, entonces la función objetivo en la segunda formulación es veces la función objetivo en la primera formulación. En efecto, simplemente ha cambiado las unidades de medida de la pérdida. ¿Cómo supones que eso cambiaría los valores óptimos de ?

λ

$\lambda$

1 / (2 n)

$1/(2n)$

λ

$\lambda$

1 / (2 n)

$1/(2n)$

β

$\beta$

— whuber

Gracias, @Whuber. Eso tiene sentido para mí. Entonces, ¿por qué existe la última formulación? ¿Cuál es la ventaja, teórica o computacionalmente, de formular el problema de esa manera?

— Aaron Zeng

De hecho, son equivalentes, ya que siempre puedes reescalar (ver también el comentario de @ whuber). Desde una perspectiva teórica, es una cuestión de conveniencia, pero que yo sepa, no es necesario. Desde una perspectiva computacional, en realidad encuentro el bastante molesto, por lo que generalmente uso la primera formulación si estoy diseñando un algoritmo que usa la regularización. $\lambda$ $1/(2n)$

Un poco de historia de fondo: cuando comencé a aprender sobre métodos penalizados, me molestó llevar el por todas partes en mi trabajo, así que preferí ignorarlo, incluso simplificó algunos de mis cálculos. En ese momento mi trabajo era principalmente computacional. Más recientemente, he estado haciendo un trabajo teórico, y he encontrado el indispensable (incluso vs., digamos, ). $1/(2n)$ $1/(2n)$ $1/n$

Más detalles: cuando intenta analizar el comportamiento del Lazo en función del tamaño de muestra , con frecuencia tiene que lidiar con sumas de variables aleatorias iid, y en la práctica generalmente es más conveniente analizar tales sumas después de normalizar mediante - -pensar la ley de los grandes números / teorema del límite central (o si desea obtener fantasía, concentración de medida y teoría del proceso empírico). Si no tiene el término frente a la pérdida, finalmente termina reescalando algo al final del análisis, por lo que generalmente es mejor tenerlo allí para comenzar. El es conveniente porque cancela algunos factores molestos de $n$ $n$ $1/n$ $1/2$ $2$ en el análisis (por ejemplo, cuando toma la derivada del término de pérdida al cuadrado).

Otra forma de pensar en esto es que, al hacer teoría, generalmente nos interesa el comportamiento de las soluciones a medida que aumenta , es decir, no es una cantidad fija. En la práctica, cuando ejecutamos el Lazo en algún conjunto de datos fijo, es fijo desde la perspectiva del algoritmo / cálculos. Entonces, tener el factor de normalización adicional en el frente no es tan útil. $n$ $n$ $n$

Estos pueden parecer asuntos molestos de conveniencia, pero después de pasar suficiente tiempo manipulando este tipo de desigualdades, he aprendido a amar el . $1/(2n)$

— JohnA
fuente

Una vez que te das cuenta para qué son esas constantes de normalización, comienzas a verlas en todas partes .

— Matthew Drury

Gracias por esta explicacion. Estamos muy orgullosos de leer sus excelentes experiencias en este dominio. Gracias de nuevo

— Christina