¿Por qué sólo vemos y de regularización pero no otras normas?

Tengo curiosidad por qué hay por lo general sólo y normas de regularización. ¿Hay pruebas de por qué son mejores? $L_1$ $L_2$

lasso regularization ridge-regression

— usuario10024395
fuente

(+1) No he investigado esta pregunta específicamente, pero la experiencia con situaciones similares sugiere que puede haber una buena respuesta cualitativa: todas las normas que son segundamente diferenciables en el origen serán localmente equivalentes entre sí, de las cuales La norma es el estándar. Todas las demás normas no serán diferenciables en el origen y reproduce cualitativamente su comportamiento. Eso cubre toda la gama. En efecto, una combinación lineal de una norma y aproxima a cualquier norma de segundo orden en el origen, y esto es lo que más importa en la regresión sin residuos periféricos.

L^{2}

$L^2$

L^{1}

$L^1$

L^{1}

$L^1$

L^{2}

$L^2$

— whuber

Sí: este es esencialmente el teorema de Taylor.

— whuber

La premisa de la pregunta es falsa: se usan otras , aunque mucho menos comunes.

ℓ_{p}

$\ell_p$

— Firebug

La combinación lineal que menciona @whuber a menudo se llama red elástica .

— Luca Citi

Además, entre las normas Lp, también obtiene mucho kilometraje.

L^{\infty}

$L^\infty$

— user795305

Respuestas:

Además de los comentarios de @ whuber (*).

El libro de Hastie et al El aprendizaje estadístico con Sparsity discute esto. También usan lo que se llama la "norma" (comillas porque no es una norma en el sentido matemático estricto (**)), que simplemente cuenta el número de componentes distintos de cero de un vector. $L_0$

En ese sentido, la norma se utiliza para la selección de variables, pero junto con las normas con no es convexa, por lo que es difícil de optimizar. Sostienen (un argumento Creo que provienen de Donohoe en la detección comprimido) que el norma, es decir, el lazo, es la mejor convexificación del "norma" ( "el más cercano de relajación convexa mejor selección de subconjuntos"). Ese libro también hace referencia a algunos usos de otras normas . La unidad de bola en la -norm con ve así $L_0$ $l_q$ $q<1$ $L_1$ $L_0$ $L_q$ $l_q$ $q<1$

(imagen de wikipedia), mientras que una explicación gráfica de por qué el lazo puede proporcionar una selección variable es

Esta imagen es del libro mencionado anteriormente. Puede ver que en el caso del lazo (la bola unitaria dibujada como un diamante) es mucho más probable que los contornos elipsoidales (suma de cuadrados) toquen primero el diamante en una de las esquinas. En el caso no convexo (figura de la primera bola de la unidad) es aún más probable que el primer toque entre el elipsoide y la bola de la unidad esté en una de las esquinas, por lo que el caso enfatizará la selección de variables incluso más que el lazo.

Si prueba este "lazo con penalización no convexa" en Google, obtendrá una gran cantidad de documentos con problemas similares a los de la penalización no convexa, como con . $l_q$ $q < 1$

(*) Para completar, copio en los comentarios de Whuber aquí:

No he investigado esta pregunta específicamente, pero la experiencia con situaciones similares sugiere que puede haber una buena respuesta cualitativa: todas las normas que son segundamente diferenciables en el origen serán localmente equivalentes entre sí, de las cuales la norma es el estándar. Todas las demás normas no serán diferenciables en el origen y reproduce cualitativamente su comportamiento. Eso cubre toda la gama. En efecto, una combinación lineal de una y norma se aproxima a cualquier norma de segundo orden en el origen - y esto es lo que más importa en la regresión sin residuos periféricas. $L_2$ $L_1$ $L_1$ $L_2$

(**) La - "norma" carece de homogeneidad, que es uno de los axiomas para las normas. La homogeneidad significa para que. $l_0$ $\alpha \ge 0$ $\| \alpha x \| = \alpha \| x \|$

— kjetil b halvorsen
fuente

@kjetilbhalvorsen Gracias por su profunda respuesta. Elijo el superíndice poco común para ser coherente con la pregunta y el título. Por supuesto, puede escribirlo de la manera que prefiera.

— Ferdi

@kjetilbhalvorsen ¿Puedes ampliar un poco el comentario de Whuber? Es bien sabido que la norma no es diferenciable en el origen (considere , por ejemplo). Tampoco está claro qué se entiende por "equivalencia local" de las normas. Se necesitan referencias, por decir lo menos.

L^{2}

$L^2$

x \mapsto | x |

$x \mapsto |x|$

— Olivier

@Olivier La -norm es diferenciable en el origen, usted está pensando en la -norm.

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

— Firebug

@Firebug No. Estoy pensando en la norma en 1 dimensión, que es igual a la norma . ¿Me estoy perdiendo de algo?

L^{2}

$L^2$

L^{1}

$L^1$

— Olivier

@ Olivier Oh, en realidad tienes razón. No bien , porque el cuadrado -norm se usa realmente, y es diferenciable en todas partes.

ℓ_{2}

$\ell_2$

— Firebug

Creo que la respuesta a la pregunta depende mucho de cómo se defina "mejor". Si estoy interpretando bien, desea saber por qué estas normas aparecen con tanta frecuencia en comparación con otras opciones. En este caso, la respuesta es la simplicidad. La intuición detrás de la regularización es que tengo algún vector, y me gustaría que ese vector sea "pequeño" en algún sentido. ¿Cómo describe el tamaño de un vector? Bueno, tienes opciones:

¿Cuenta cuántos elementos tiene ? $(L_0)$
¿ todos los elementos ? $(L_1)$
¿Mide qué tan "larga" es la "flecha" ? $(L_2)$
¿Utiliza el tamaño del elemento más grande ? $(L_\infty)$

Podría emplear normas alternativas como , pero no tienen interpretaciones físicas amigables como las anteriores. $L_3$

Dentro de esta lista, la norma tiene buenas soluciones analíticas de forma cerrada para cosas como problemas de mínimos cuadrados. Antes de tener un poder de cómputo ilimitado, de otro modo no se podría avanzar mucho. Yo especularía que el visual de "longitud de la flecha" también es más atractivo para las personas que otras medidas de tamaño. A pesar de que la norma que elige para la regularización afecta los tipos de residuos que obtiene con una solución óptima, no creo que la mayoría de las personas sean a) conscientes de eso, o b) lo consideren profundamente al formular su problema. En este punto, espero que la mayoría de las personas sigan usando porque es "lo que todos hacen". $L_2$ $L_2$

Una analogía sería la función exponencial, , que aparece literalmente en todas partes en física, economía, estadísticas, aprendizaje automático o cualquier otro campo impulsado matemáticamente. Me pregunté para siempre por qué todo en la vida parecía ser descrito por exponenciales, hasta que me di cuenta de que los humanos simplemente no tenemos tantos trucos bajo la manga. Los exponenciales tienen propiedades muy útiles para hacer álgebra y cálculo, por lo que terminan siendo la función número uno en la caja de herramientas de cualquier matemático cuando intentan modelar algo en el mundo real. Puede ser que cosas como el tiempo de decoherencia estén "mejor" descritas por un polinomio de alto orden, pero es relativamente difícil hacer álgebra y, al final del día, lo que importa es que su empresa esté ganando dinero: lo exponencial es Más simple y lo suficientemente bueno. $e^x$

De lo contrario, la elección de la norma tiene efectos muy subjetivos, y depende de usted como la persona que indica el problema definir lo que prefiere en una solución óptima. ¿Le importa más que todos los componentes en su vector de solución sean similares en magnitud, o que el tamaño del componente más grande sea lo más pequeño posible? Esa elección dependerá del problema específico que esté resolviendo.

— Panda rojo
fuente

La razón principal para ver a su mayoría y normas es que cubren la mayoría de las aplicaciones actuales. Por ejemplo, la norma también llamada norma de taxi , una norma de conexión rectilínea reticular, incluye la norma de valor absoluto . $L_1$ $L_2$ $L_1$

$L_2$ normas son, además de mínimos cuadrados, distancias euclidianas en el espacio $n$ , así como la norma variable compleja . Además, la regularización de Tikhonov y la regresión de crestas , es decir, las aplicaciones que minimizan , a menudo se consideran normas . $\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$ $L_2$

Wikipedia brinda información sobre estas y otras normas . Vale la pena mencionar son . La norma generalizada , la norma también llamada norma uniforme . $L_0$ $L_p$ $L_\infty$

— Carl
fuente