Explicar el significado y el propósito de la normalización de L2


13

Permítanme decir desde el principio que soy muy nuevo en el aprendizaje automático y que no soy bueno en matemáticas. Entiendo lo que hace TF-IDF, pero en el libro que estoy leyendo también observa lo siguiente (está discutiendo cómo scikit-learn hace las cosas):

Ambas clases [TfidfTransformer y TfidfVectorizer] también aplican la normalización L2 después de calcular la representación tf-idf; en otras palabras, reescalan la representación de cada documento para tener la norma euclidiana 1. Reescalar de esta manera significa que la longitud de un documento (el número de palabras) no cambia la representación vectorizada.

Eso es todo lo que tiene que decir sobre el tema. Lo que creo que significa, y avíseme si me equivoco, es que escalamos los valores para que si todos estuvieran al cuadrado y sumados, el valor sería 1 (tomé esta definición de http://kawahara.ca / how-to-normalize-vectors-to-unit-norm-in-python / ).

Entonces, la idea, entonces, es que los valores de las características se vuelven proporcionales entre sí. Sin embargo, no estoy totalmente seguro de cómo eso sería útil para el modelo. ¿Ayuda al clasificador general a aprender si algunos ejemplos no tienen un número total mayor de "características activadas" que otros?

Además, aquí hay una pregunta básica: ¿La normalización de L2 tiene algo que ver con la regularización de L2? ¿Tal vez es solo que ambos implican términos de cuadratura y suma?

¡Cualquier información que pueda compartir será muy apreciada!

Respuestas:


19

escalamos los valores para que si todos fueran al cuadrado y sumados, el valor sería 1

Eso es correcto.

Sin embargo, no estoy totalmente seguro de cómo eso sería útil para el modelo

Considere un caso más simple, donde solo contamos el número de veces que aparece cada palabra en cada documento. En este caso, dos documentos pueden aparecer diferentes simplemente porque tienen diferentes longitudes (el documento más largo contiene más palabras). Pero, estamos más interesados ​​en el significado del documento, y la longitud no contribuye a esto. La normalización nos permite considerar la frecuencia de las palabras entre sí, al tiempo que eliminamos el efecto del recuento total de palabras.

¿La normalización de L2 tiene algo que ver con la regularización de L2?

La regularización de L2 opera en los parámetros de un modelo, mientras que la normalización de L2 (en el contexto que está preguntando) opera en la representación de los datos. No están relacionados en ningún sentido significativo, más allá del hecho superficial de que ambos requieren el cálculo de normas L2 (sumando términos cuadrados, como usted dice).

Pero, tenga en cuenta que la normalización de L2 es una operación genérica, y puede aplicarse en contextos más allá del que está preguntando. Existen situaciones en las que uno podría establecer una conexión entre los dos conceptos, pero creo que eso está más allá del alcance de esta pregunta.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.