¿Cuál es el significado de barras dobles y 2 en la parte inferior en mínimos cuadrados ordinarios?

Vi esta notación para los mínimos cuadrados ordinarios aquí .

min_{w} {‖ X w - y ‖}_{2}^{2}

$\min_w \left\| Xw - y \right\|^2_2$

Nunca he visto las barras dobles y los 2 en la parte inferior. ¿Que significan esos símbolos? ¿Tienen terminología específica para ellos?

— Aseem Bansal
fuente

El uso de las barras dobles solo indica que estamos usando la norma L2.

— Michael R. Chernick

@MichaelChernick y los 2? ¿Es eso parte de la "norma L2"?

— Aseem Bansal

Sí, como L2, también hay L1.

— Jon

Creo que

X_{w}

$X_w$ debería ser

X w

$Xw$ ya que

w

$w$ es un vector

— ilanman

@ilanman Sí, eso es lo que estaba en la notación antes de la edición. Lo cambié de nuevo

— Aseem Bansal

Estás hablando de la -norm (norma euclidiana) del vector ( ). Si esto le extraño , brevemente, el -norm de un vector , es: $\ell_2$ $Xw - y$ $\ell_p$ $u \in \mathbb{R}^{n}$

‖ u ‖_{p} = (\sum_{i = 1}^{n} | u_{i} |^{p})^{\frac{1}{p}}

$\|u\|_p = \big(\sum_{i=1}^{n} |u_i|^p\big)^{\frac1p}$

Entonces, en su caso que es consistente con la suma de los residuos al cuadrado para una regresión lineal. En el contexto de los problemas de regresión, también verá esto mucho en los cálculos de error cuadrático medio (MSE) y en la regresión de cresta . $\|u\|_2^2 = (\big(\sum\limits_{i=1}^{n} |u_i|^2\big)^{\frac12})^2 = \sum\limits_{i=1}^{n} u_i^2$

Esta es una norma común (entre otras razones, es matemáticamente conveniente), por lo que cuando es obvio por el contexto, verá que se omiten los inferiores , y solo . $2$ $\|u\|^2$

Como se menciona en los comentarios, también puede ver la -norm: $\ell_1$

‖ u ‖_{1} = \sum_{i = 1}^{n} | u_{i} |

$\|u\|_1 = \sum_{i=1}^{n} |u_i|$

Que corresponde al valor absoluto. Nuevamente, verá esto en un error absoluto medio (MAE) o problemas de lazo .

Otras normas populares:

-norm: distancia de Hamming o # de ceros en un vector, es decir, al calcular la escasez de un vector. Técnicamente, esto no es una norma (es una función de cardinalidad), porque tiene un término en la definición, pero tiene la forma de una norma, por lo que lo llamamos uno.
- Esta norma es la norma ideal utilizada para inducir la escasez de problemas de regresión, ya que realmente queremos poner a cero los coeficientes, sin embargo, calcular la regularización es NP-hard, por lo que en su lugar lo aproximamos con que se puede resolver mediante programación lineal. También es popular en la detección comprimida . $\ell_0$ $\ell_1$
$\ell_{\infty}$ -norm: = para $\underset{i} {\text{max}}$ $\{|x_i|\}$ $i = 1, ..., n$
$\|A\|_F$ : Frobenius (Euclidiana), aplicada a una matriz $A \in \mathbb{R}^{n\times m} = \sqrt{\sum \limits_{i=1}^{n}\sum \limits_{j=1}^{m}|a_{ij}|^2}$

— ilanman
fuente

El enlace a Wolfram Alpha fue realmente útil.

— Aseem Bansal

Usted escribe que la (pseudo) cuenta el número de ceros en un vector. ¿Quizás quiso decir el número de entradas que no son cero? (Esto sería más consistente con lo que he visto, y también significaría que sería la distancia de Hamming entre y , en lugar de ser menos que distancia.)

ℓ_{0}

$\ell_0$

‖ u ‖_{0}

$\lVert u \rVert_{0}$

u

$u$

0 \in R^{n}

$0 \in \mathbb R^n$

n

$n$

— wchargin

Error de ortografía: "Frobenius".

— hobbs

En lugar de "esta es una norma común", hubiera dicho "L2 es la norma";)

— user541686