Permítanme decir desde el principio que soy muy nuevo en el aprendizaje automático y que no soy bueno en matemáticas. Entiendo lo que hace TF-IDF, pero en el libro que estoy leyendo también observa lo siguiente (está discutiendo cómo scikit-learn hace las cosas):
Ambas clases [TfidfTransformer y TfidfVectorizer] también aplican la normalización L2 después de calcular la representación tf-idf; en otras palabras, reescalan la representación de cada documento para tener la norma euclidiana 1. Reescalar de esta manera significa que la longitud de un documento (el número de palabras) no cambia la representación vectorizada.
Eso es todo lo que tiene que decir sobre el tema. Lo que creo que significa, y avíseme si me equivoco, es que escalamos los valores para que si todos estuvieran al cuadrado y sumados, el valor sería 1 (tomé esta definición de http://kawahara.ca / how-to-normalize-vectors-to-unit-norm-in-python / ).
Entonces, la idea, entonces, es que los valores de las características se vuelven proporcionales entre sí. Sin embargo, no estoy totalmente seguro de cómo eso sería útil para el modelo. ¿Ayuda al clasificador general a aprender si algunos ejemplos no tienen un número total mayor de "características activadas" que otros?
Además, aquí hay una pregunta básica: ¿La normalización de L2 tiene algo que ver con la regularización de L2? ¿Tal vez es solo que ambos implican términos de cuadratura y suma?
¡Cualquier información que pueda compartir será muy apreciada!