¿Por qué dividimos por la desviación estándar y no por algún otro factor de estandarización antes de hacer PCA?

Estaba leyendo la siguiente justificación (de las notas del curso cs229) sobre por qué dividimos los datos sin procesar por su desviación estándar:

ingrese la descripción de la imagen aquí

Aunque entiendo lo que dice la explicación, no me queda claro por qué dividir por la desviación estándar alcanzaría tal objetivo. Dice para que todos estén más en la misma "escala". Sin embargo, no está del todo claro por qué dividirlo por la desviación estándar logra eso. Como, ¿qué hay de malo en dividir por la varianza? ¿Por qué no alguna otra cantidad? ¿Como ... la suma de valores absolutos? o alguna otra norma ... ¿Existe una justificación matemática para elegir la ETS?

¿Son las afirmaciones de este extracto una afirmación teórica que puede derivarse / demostrarse a través de las matemáticas (y / o estadísticas) o es más una de esas afirmaciones que hacemos porque parece funcionar en la "práctica"?

Básicamente, ¿se puede proporcionar una explicación matemática rigurosa de por qué esa intuición es verdadera? O si es solo una observación empírica, ¿por qué pensamos que funciona en general antes de hacer PCA?

Además, en el contexto de PCA, ¿es este el proceso de estandarización o normalización?

Algunos otros pensamientos que tuve que podrían "explicar" por qué la ETS:

Como PCA puede derivarse de maximizar la varianza, supuse que dividir por una cantidad relacionada, como la ETS, podría ser una de las razones por las que dividimos por la ETS. Pero luego consideré que tal vez si definimos tal vez una "variación" con cualquier otra norma, , entonces dividiríamos por la ETS de esa norma (tomando la raíz pth o algo así). Sin embargo, fue solo una suposición y no estoy 100% al respecto, de ahí la pregunta. Me preguntaba si alguien sabía algo relacionado con esto. $\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p$

Vi que tal vez había una pregunta relacionada:

PCA en correlación o covarianza?

pero parecía hablar más sobre cuándo usar "correlación" o "covarianza", pero carecía de justificaciones rigurosas, convincentes o detalladas, que es lo que más me interesa.

Igual por:

¿Por qué necesitamos normalizar los datos antes del análisis?

relacionado:

Variables de "normalización" para SVD / PCA

machine-learning pca mathematical-statistics

— Pinocho
fuente

Hay una razón matemática: dividir los datos (centrados) por el SD para cada variable produce un conjunto de datos transformados cuya matriz de covarianza es simplemente la matriz de correlación de los datos originales (centrados). Después de eso, estamos en el territorio de la matriz de correlación vs covarianza nuevamente. ¿Está buscando pruebas de cómo la normalización de los datos convierte la matriz de covarianza en una matriz de correlación?

— Silverfish

Su pregunta de título se lee como si estuviera preguntando cuál es el propósito de normalizarla (en lugar de no normalizar). Esto sería un duplicado de "PCA en correlación o covarianza". Sin embargo, lo que realmente parece estar preguntando es por qué la normalización se realiza dividiendo por ETS (en lugar de dividir por varianza, rango, etc.). Si es así, ¿quizás desee editar para que la pregunta del título sea más precisa?

— ameba dice Reinstate Monica

Con respecto a la terminología, "normalizar" no es un término preciso y puede referirse a varias cosas. Mientras que "estandarizar" significa restar la media y dividir por la desviación estándar, a lo que se refiere.

— ameba dice Reinstate Monica

Debo agregar que creo que tu pregunta es muy buena (+1). De hecho, se puede normalizar dividiendo por otra cosa; por ejemplo, la desviación estándar es una medida muy poco robusta y puede ser engañosa en presencia de valores atípicos fuertes. Por lo tanto, uno puede elegir dividir por alguna medida robusta de propagación (ver, por ejemplo, "desviación absoluta media"). No existe una "explicación matemática rigurosa" de por qué el uso de ETS es la mejor manera de normalizar, y usted está en lo cierto de que es "solo una observación empírica" de que a menudo funciona bien.

— ameba dice Reinstate Monica

Re "por qué no dividir por la varianza en su lugar", que puede explicarse fácilmente por la inconsistencia dimensional. Le daría resultados extraños si cambiara las unidades en las que estaba una de las variables, por ejemplo. Re "¿por qué no dividir por MAD"? Si los datos se distribuyeron normalmente, entonces dado que (en la población) MAD es proporcional a SD, sería posible dividir por un múltiplo apropiado de MAD y obtener un (ineficiente pero posiblemente robusto). ) estimación de la correlación. Eso es mas interesante.

— Silverfish

Respuestas:

Esto es una respuesta parcial a "no está claro para mí por qué dividir por la desviación estándar alcanzaría tal objetivo". En particular, por qué pone los datos transformados (estandarizados) en la "misma escala". La pregunta apunta a cuestiones más profundas (¿qué otra cosa podría haber "funcionado", que está relacionada con lo que "trabajado" podría significar, matemáticamente?), Pero parecía razonable al menos abordar los aspectos más directos de por qué este procedimiento "funciona" - es decir, logra las afirmaciones hechas en el texto.

La entrada en la fila y la columna de una matriz de covarianza es la covarianza entre el $i$ $j$ variables y . Tenga en cuenta que en una diagonal, filay columna, esto se convierte en la covarianza entre lavariable y en sí misma, que es solo la varianza de lavariable . $i^{th}$ $j^{th}$ $i$ $i$ $i^{th}$ $i^{th}$

Llamemos a la variable y el $i^{th}$ $X_i$ variable ; Asumiré que estos ya están centrados para que tengan una media cero. Recuerde que $j^{th}$ $X_j$

C o v (X_{i}, X_{j}) = σ_{X_{i}} σ_{X_{j}} C o r (X_{i}, X_{j})

$Cov(X_i, X_j) =\sigma_{X_i} \, \sigma_{X_j} \, Cor(X_i, X_j)$

Podemos estandarizar las variables para que tengan una varianza uno, simplemente dividiendo por sus desviaciones estándar. Al estandarizar, generalmente restamos la media primero, pero ya asumí que están centrados para que podamos omitir ese paso. Sea y para ver por qué la varianza es uno, tenga en cuenta que $Z_i = \frac{X_i}{\sigma_{X_i}}$

V a r (Z_{i}) = V a r (\frac{X_{i}}{σ_{X_{i}}}) = \frac{1}{σ_{X_{i}}^{2}} V a r (X_{i}) = \frac{1}{σ_{X_{i}}^{2}} σ_{X_{i}}^{2} = 1

$Var(Z_i) = Var\left(\frac{X_i}{\sigma_{X_i}}\right) = \frac{1}{\sigma_{X_i}^2}Var(X_i) = \frac{1}{\sigma_{X_i}^2} \sigma_{X_i}^2 = 1$

De manera similar para . Si tomamos la entrada en la fila y la columna de la matriz de covarianza para las variables estandarizadas, tenga en cuenta que, dado que están estandarizadas: $Z_j$ $i$ $j$

C o v (Z_{i}, Z_{j}) = σ_{Z_{i}} σ_{Z_{j}} C o r (Z_{i}, Z_{j}) = C o r (Z_{i}, Z_{j})

$Cov(Z_i, Z_j) =\sigma_{Z_i} \, \sigma_{Z_j} \, Cor(Z_i, Z_j) = Cor(Z_i, Z_j)$

Además, cuando reescalamos las variables de esta manera, la suma (equivalente: resta) no cambia la correlación, mientras que la multiplicación (equivalente: división) simplemente revertirá el signo de la correlación si el factor (divisor) es negativo. En otras palabras, la correlación no cambia por las traducciones o la escala, pero se invierte por reflexión. ( Aquí hay una derivación de esas propiedades de correlación , como parte de una respuesta que de otro modo no estaría relacionada). Dado que dividimos por desviaciones estándar, que son positivas, vemos que debe ser igual a $Cor(Z_i, Z_j)$ es decir, la correlación entre los datos originales. $Cor(X_i, X_j)$

A lo largo de la diagonal de la nueva matriz de covarianza, tenga en cuenta que obtenemos $Cov(Z_i, Z_i) = Var(Z_i) = 1$ así que toda la diagonal está llena de unos, como es de esperar. Es en este sentido que los datos ahora están "en la misma escala": sus distribuciones marginales deberían ser muy similares, al menos si al principio se distribuyen de manera más o menos normal, con media cero y con varianza (y desviación estándar). Ya no es el caso que la variabilidad de una variable hunda a las otras. Podría haber dividido por una medida diferente de propagación, por supuesto. La variación habría sido una elección particularmente mala debido a la inconsistencia dimensional (piense en lo que habría sucedido si hubiera cambiado las unidades en las que se encontraba una de sus variables, por ejemplo, de metros a kilómetros). Algo así como la desviación absoluta media (o un múltiplo apropiado de la MADsi está tratando de usarlo como una especie de estimador robusto de la desviación estándar) puede haber sido más apropiado. Pero aún así no convertirá esa diagonal en una diagonal de unos.

El resultado es que un método que funciona en la matriz de covarianza de datos estandarizados, está esencialmente usando la matriz de correlación de los datos originales. Para lo que preferiría usar en PCA, consulte PCA sobre correlación o covarianza.

— Lepisma
fuente

Creo que esta respuesta realmente no toca el real (y no trivial) de por qué la desviación estándar se toma como una medida de propagación y se usa para la normalización. ¿Por qué no tomar la desviación absoluta media en su lugar? Por supuesto, la matriz de covarianza resultante no será la matriz de correlación "predeterminada", pero quizás sea mejor, por ejemplo, una estimación más robusta de la matriz de correlación. Vea también mi último comentario al OP.

— ameba dice Reinstate Monica

@ameoba En el punto "medio profundo", el hecho de que obtengamos variaciones de uno en la diagonal de la nueva matriz de covarianza es esencialmente lo que queremos decir al hacer que los datos transformados tengan variables "en la misma escala" desde la perspectiva PCA. Sobre las cuestiones "muy profundas" planteadas por esta pregunta, no estoy seguro de que haya mucha diferencia entre preguntar "¿por qué usamos las variaciones como nuestra medida de escala en PCA?" y preguntando "¿por qué PCA se preocupa por las (co) variaciones?" - o al menos, que los dos temas estarían íntimamente relacionados.

— Silverfish

@amoeba, ¿por qué no dividir por MAD o por varianza en lugar de SD es, esencialmente, la misma pregunta que por qué escalar diferencialmente: es decir, por qué no hacer PCA en covarianzas? Apoyo esta idea en el comentario anterior.

— ttnphns

@ttnphns: si diferentes variables tienen escalas completamente incomparables (temperatura, longitud, peso, etc.), entonces el deseo de normalizar de alguna manera las variables es bastante comprensible. Ese es el argumento común para usar la matriz de correlación en lugar de la matriz de covarianza. Pero si alguien está preocupado por los valores atípicos, no veo nada de malo en restar la mediana en lugar de la media y dividir por MAD en lugar de SVD ... Nunca lo hice yo mismo, pero creo que suena como algo razonable.

— ameba dice Reinstate Monica

@amoeba, PCA lineal necesita que la matriz sea la matriz de tipo SSCP . Cualquier transformación lineal de las variables originales conserva este tipo. Por supuesto, también podría realizar cualquier transformación no lineal (como, por ejemplo, clasificación, para obtener la matriz rho de Spearman), pero luego las puntuaciones y las cargas de los componentes pierden su conexión directa (en el sentido de minimización de mínimos cuadrados) con los datos: ahora representa los datos transformados en su lugar!

— ttnphns

¿Por qué dividimos por la desviación estándar
qué hay de malo en dividir por la varianza?

$z$

Entonces: la estandarización (centrado medio + escalado por desviación estándar) tiene sentido si considera que la distribución normal estándar es razonable para sus datos.

¿Por qué no alguna otra cantidad? ¿Como ... la suma de valores absolutos? o alguna otra norma ...

Se usan otras cantidades para escalar datos, pero el procedimiento se llama estandarización solo si usa el centrado medio y la división por la desviación estándar. Escalar es el término genérico.

Por ejemplo, trabajo con datos espectroscópicos y sé que mi detector tiene una sensibilidad dependiente de la longitud de onda y un sesgo (electrónico). Así yo calibro restando la señal de desplazamiento (en blanco) y multiplicando (dividiendo) por un factor de calibración.

Además, puedo centrarme no en la media sino en algún otro valor de referencia, como la media de un grupo de control en lugar de la gran media. (Personalmente, casi nunca estandarizo ya que mis variantes ya tienen la misma unidad física y están en el mismo orden de magnitud)

Ver también: Las variables a menudo se ajustan (por ejemplo, estandarizadas) antes de hacer un modelo: ¿cuándo es una buena idea y cuándo es mala?

— cbeleites apoya a Monica
fuente

+1. Buen ejemplo con datos espectroscópicos. Por cierto, ¡felicidades por llegar a 10k rep!

— ameba dice Reinstate Monica

Supongo que este enlace responde a su pregunta claramente: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html

Cito una pequeña pieza:

¿Estandarización de puntaje Z o escala Min-Max?

“¿Estandarización o escalamiento Min-Max?” - No hay una respuesta obvia a esta pregunta: realmente depende de la aplicación.

Por ejemplo, en los análisis de agrupamiento, la estandarización puede ser especialmente crucial para comparar similitudes entre características basadas en ciertas medidas de distancia. Otro ejemplo destacado es el Análisis de componentes principales, donde generalmente preferimos la estandarización sobre la escala Min-Max, ya que estamos interesados en los componentes que maximizan la varianza (dependiendo de la pregunta y si el PCA calcula los componentes a través de la matriz de correlación en lugar de matriz de covarianza; pero más sobre PCA en mi artículo anterior).

Sin embargo, esto no significa que la escala Min-Max no sea útil en absoluto. Una aplicación popular es el procesamiento de imágenes, donde las intensidades de píxeles deben normalizarse para ajustarse a un cierto rango (es decir, 0 a 255 para el rango de color RGB). Además, el algoritmo típico de la red neuronal requiere datos en una escala de 0-1.

— Esra
fuente