Estaba leyendo la siguiente justificación (de las notas del curso cs229) sobre por qué dividimos los datos sin procesar por su desviación estándar:
Aunque entiendo lo que dice la explicación, no me queda claro por qué dividir por la desviación estándar alcanzaría tal objetivo. Dice para que todos estén más en la misma "escala". Sin embargo, no está del todo claro por qué dividirlo por la desviación estándar logra eso. Como, ¿qué hay de malo en dividir por la varianza? ¿Por qué no alguna otra cantidad? ¿Como ... la suma de valores absolutos? o alguna otra norma ... ¿Existe una justificación matemática para elegir la ETS?
¿Son las afirmaciones de este extracto una afirmación teórica que puede derivarse / demostrarse a través de las matemáticas (y / o estadísticas) o es más una de esas afirmaciones que hacemos porque parece funcionar en la "práctica"?
Básicamente, ¿se puede proporcionar una explicación matemática rigurosa de por qué esa intuición es verdadera? O si es solo una observación empírica, ¿por qué pensamos que funciona en general antes de hacer PCA?
Además, en el contexto de PCA, ¿es este el proceso de estandarización o normalización?
Algunos otros pensamientos que tuve que podrían "explicar" por qué la ETS:
Como PCA puede derivarse de maximizar la varianza, supuse que dividir por una cantidad relacionada, como la ETS, podría ser una de las razones por las que dividimos por la ETS. Pero luego consideré que tal vez si definimos tal vez una "variación" con cualquier otra norma, , entonces dividiríamos por la ETS de esa norma (tomando la raíz pth o algo así). Sin embargo, fue solo una suposición y no estoy 100% al respecto, de ahí la pregunta. Me preguntaba si alguien sabía algo relacionado con esto.
Vi que tal vez había una pregunta relacionada:
PCA en correlación o covarianza?
pero parecía hablar más sobre cuándo usar "correlación" o "covarianza", pero carecía de justificaciones rigurosas, convincentes o detalladas, que es lo que más me interesa.
Igual por:
¿Por qué necesitamos normalizar los datos antes del análisis?
relacionado: