¿Por qué la pérdida de la norma L2 tiene una solución única y la pérdida de la norma L1 tiene posiblemente múltiples soluciones?

16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Si nos fijamos en la parte superior de esta publicación, el escritor menciona que la norma L2 tiene una solución única y la norma L1 tiene posiblemente muchas soluciones. Entiendo esto en términos de regularización, pero no en términos de usar la norma L1 o la norma L2 en la función de pérdida.

Si observa gráficos de funciones de escalar x (x ^ 2 y | x |), puede ver fácilmente que ambos tienen una solución única.

regression lasso regularization

— usuario3180
fuente

2

"fnx"? ... Edite para aclarar esto. ¿Te refieres a "funciones"?

— Glen_b -Reinstalar a Monica

25

Consideremos un problema unidimensional para la exposición más simple posible. (Los casos de dimensiones superiores tienen propiedades similares).

Mientras que ambosy tienen cada uno un mínimo único,(una suma de funciones de valor absoluto con diferentes desplazamientos x) a menudo no lo hace. Considere y : $|x-\mu|$ $(x-\mu)^2$ $\sum_i |x_i-\mu|$ $x_1=1$ $x_2=3$

(Nota: a pesar de la etiqueta en el eje x, esta es realmente una función de ; debería haber modificado la etiqueta pero la dejaré como está) $\mu$

En dimensiones superiores, puede obtener regiones de mínimo constante con la L_1. Hay un ejemplo en el caso de las líneas de ajuste aquí . $L_1$

Las sumas de las cuadráticas siguen siendo cuadráticas, por lo que tendrá una solución única. En dimensiones superiores (por ejemplo, la regresión múltiple) el problema cuadrático puede no tener automáticamente un mínimo único: puede tener una multicolinealidad que conduce a una cresta de menor dimensión en el negativo de la pérdida en el espacio de parámetros; Esa es una cuestión algo diferente a la presentada aquí. $\sum_i (x_i-\mu)^2 = n(\bar{x}-\mu)^2+k(\mathbf{x})$

Una advertencia. La página que vinculan a las demandas que regresión-norma es robusto. Debo decir que no estoy completamente de acuerdo. Es robusto frente a grandes desviaciones en la dirección y, siempre que no sean puntos influyentes (discrepantes en el espacio x). Puede ser arruinado arbitrariamente por incluso un solo caso atípico influyente. Hay un ejemplo aquí . $L_1$

Dado que (fuera de algunas circunstancias específicas) generalmente no tiene ninguna garantía de que no haya observaciones altamente influyentes, no llamaría robusta la regresión L1.

Código R para la trama:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)

— Glen_b -Reinstate a Monica
fuente

Esto es genial. ¿Qué software usaste para hacer el gráfico?

— usuario3180

2

R. Esto se acaba de hacer en gráficos básicos. He agregado el código al final de mi respuesta.

— Glen_b -Reinstala a Mónica el

1

Woah, nunca me di cuenta de que podías proporcionarle una función plot. Su mente está transtornada.

— JAD

5

Minimizar la pérdida de L2 corresponde a calcular la media aritmética, que no es ambigua, mientras que minimizar la pérdida de L1 corresponde a calcular la mediana, que es ambigua si se incluye un número par de elementos en el cálculo de la mediana (ver Tendencia central: soluciones a problemas variacionales )

— Hola Adios
fuente