Normas - ¿Qué tiene de especial?

13

Una norma es única (al menos en parte) porque está en el límite entre no convexo y convexo. Una norma es la norma convexa 'más escasa' (¿verdad?). $L_1$ $p=1$ $L_1$

Entiendo que la norma euclidiana tiene raíces en la geometría y tiene una interpretación clara cuando las dimensiones tienen las mismas unidades. Pero no entiendo por qué se usa preferentemente sobre otros números reales : ? ? ¿Por qué no usar el rango continuo completo como un hiperparámetro? $p=2$ $p>1$ $p=1.5$ $p=\pi$

¿Qué me estoy perdiendo?

regression regularization sparse

— Trenton
fuente

1

¿"Usado preferencialmente" en qué aplicaciones, específicamente? Las normas son ubicuas en matemáticas, estadística y física; en algunos subcampos algunas normas son más frecuentes que otras porque son más significativas o más sencillas de trabajar. Por esta razón, las respuestas a esta pregunta probablemente serán numerosas y variadas (de hecho, tan variadas que personalmente considero que esto no tiene respuesta). Por lo tanto, he hecho esto una publicación de "Wiki de la comunidad" (CW); pero si tiene en mente una aplicación específica o un campo limitado, entonces al hacer su pregunta más precisa, debería ser posible eliminar el estado de CW.

— whuber

12

Una explicación más matemática es que el espacio , que consiste en todas las series que convergen en la norma p, es solo Hilbert con y ningún otro valor. Esto significa que este espacio está completo y la norma sobre ese espacio puede ser inducida por un producto interno (piense en el producto punto familiar en ), por lo que es un poco más agradable trabajar con él. $l^p$ $p=2$ $R^n$

— JohnK
fuente

4

Aquí hay un par de razones:

Está relacionado de una manera muy especial con el producto interno: es su propia norma dual (es decir, es "auto dual").
Esto significa que, si se tiene en cuenta todos los vectores en el interior del bola unidad, su producto interior máximo con cualquier vector es el norma de en sí. Menos elegante, satisface la propiedad de que . Ninguna otra norma comporta de esta manera. $\ell_2$ $z$ $\ell_2$ $z$ $\lVert x\rVert_2^2 = x \cdot x$ $\ell_p$
Tiene un gradiente muy convenientemente suave: ¡Realmente no puedes superar eso!
$\nabla_{x} ‖ f (x) ‖_{2}^{2} = 2 \nabla f (x) \cdot f (x)$ $\nabla_x\ \lVert f(x)\rVert_2^2 = 2 \ \nabla f(x) \cdot f(x)$

— usuario541686
fuente

2

Aunque puede haber muchas más razones, AFAIK p = 2 se prefiere por las siguientes razones:

Medida de similitud / disimilitud: Para p = 2, la norma euclidiana proporciona una medida de similitud o disimilitud entre dos vectores que luego se puede utilizar para obtener una mejor comprensión de los datos. Se pueden encontrar respuestas más detalladas sobre esto aquí .
Regularización: la norma L2 se utiliza para la regularización en el aprendizaje automático y se prefiere por dos razones: 1) es fácilmente diferenciable 2) Con la regularización L2, los pesos tienden a reducirse en proporción a los pesos. Por lo tanto, la regularización L2 penaliza más los pesos más grandes en comparación con los pesos más pequeños.

— enterML
fuente

1

Los errores al cuadrado en modelos lineales a menudo se prefieren debido a:

La relación con la ortogonalidad, que se comporta bien con respecto a algunos fenómenos aleatorios considerados como ruido (sin correlación)
$L_1$
produce algoritmos de optimización manejables a medida que la derivada se convierte en sistemas lineales

$L_1$ $\ell_1$ $\ell_p$ $0<p<1$

$\ell_0$ $\ell_0$ $0$ $\ell_p$ $1$ $\ell_p \to \ell_0$ $p\to 0$

$\ell_1 / \ell_2$ $\ell_1 / \ell_2$

— Laurent Duval
fuente