Preguntas sobre PCA: ¿cuándo son independientes las PC? ¿Por qué PCA es sensible al escalado? ¿Por qué las PC están obligadas a ser ortogonales?

Estoy tratando de entender algunas descripciones de PCA (las dos primeras son de Wikipedia), énfasis agregado:

Se garantiza que los componentes principales serán independientes solo si el conjunto de datos se distribuye normalmente de manera conjunta .

¿Es muy importante la independencia de los componentes principales? ¿Cómo puedo entender esta descripción?

PCA es sensible a la escala relativa de las variables originales.

¿Qué significa 'escala' allí? ¿Normalización de diferentes dimensiones?

La transformación se define de tal manera que el primer componente principal tiene la mayor varianza posible y cada componente siguiente a su vez tiene la mayor varianza bajo la restricción de que sea ortogonal a los componentes anteriores .

¿Puedes explicar esta restricción?

pca dimensionality-reduction

— kakanana
fuente

# 2 solo se aplica si la PCA se realiza por descomposición propia de la matriz de covarianza. Si se realiza por descomposición propia de la matriz de correlación, PCA es insensible a la escala.

— Alexis

@ Alexis Gracias por tu publicación. Para el n. ° 2, ¿le importaría explicar qué significa 'escala'? El cambio dinámico de la dimensión correspondiente de los datos?

— kakanana

"Escalar" puede significar algunas cosas. (1) Puede significar transformaciones lineales de datos , como , donde y ; o (2) que las variables individuales en se miden en la misma escala y tienen variaciones de tamaño similar. Mi comentario se aplica a ambos significados.

X

$\mathbf{X}$

X^{*} = a + b X

$\mathbf{X^{*}} = a + b\mathbf{X}$

- \infty < a < \infty

$-\infty < a < \infty$

0 < b < \infty

$0 < b < \infty$

X

$\mathbf{X}$

— Alexis

Q1. Los componentes principales son variables mutuamente ortogonales (no correlacionadas). La ortogonalidad y la independencia estadística no son sinónimos . No hay nada especial en los componentes principales; Lo mismo se aplica a cualquier variable en el análisis de datos multivariados. Si los datos son multivariados normales (que no es lo mismo que afirmar que cada una de las variables es univariablemente normal) y las variables no están correlacionadas, entonces sí, son independientes. Si la independencia de los componentes principales es importante o no, depende de cómo los vaya a utilizar. Muy a menudo, su ortogonalidad será suficiente.

Q2 Sí, escalar significa reducir o estirar la varianza de las variables individuales. Las variables son las dimensiones del espacio en el que se encuentran los datos. Los resultados de PCA, los componentes, son sensibles a la forma de la nube de datos, la forma de ese "elipsoide". Si solo centra las variables, deje las variaciones como están, esto a menudo se llama "PCA basado en covarianzas". Si también estandariza las variables a varianzas = 1, esto a menudo se llama "PCA basado en correlaciones", y puede ser muy diferente de la primera (ver un hilo ). Además, relativamente pocas personas hacen PCA en datos no centrados: datos en bruto o simplemente escalados a la magnitud de la unidad; Los resultados de dicha PCA son aún más diferentes de donde se centran los datos (ver una imagen ).

Q3. La "restricción" es cómo funciona PCA (ver un hilo enorme ). Imagine que sus datos son una nube tridimensional (3 variables, puntos); el origen se establece en el centroide (la media) del mismo. PCA dibuja el componente1 como tal eje a través del origen, la suma de las proyecciones cuadradas (coordenadas) en las que se maximiza ; es decir, la varianza a lo largo del componente1 se maximiza. Una vez definido el componente 1, se puede eliminar como una dimensión, lo que significa que los puntos de datos se proyectan en el plano ortogonal a ese componente. Te queda una nube bidimensional. Por otra parte, aplica el procedimiento anterior para encontrar el eje de máxima $n$ varianza: ahora en este remanente, nube 2D. Y eso será componente2. Elimina el componente dibujado2 del plano proyectando puntos de datos en la línea ortogonal a él. Esa línea, que representa la nube remanente 1D, se define como el último componente, componente 3. Puede ver que en cada uno de estos 3 "pasos", el análisis a) encontró la dimensión de la mayor varianza en el espacio -dimensional actual , b) redujo los datos a las dimensiones sin esa dimensión, es decir, al espacio dimensional ortogonal a la dimensión mencionada. Así es como resulta que cada componente principal es una "varianza máxima" y todos los componentes son mutuamente ortogonales (ver también ). $p$ $p-1$

[ PD Tenga en cuenta que "ortogonal" significa dos cosas: (1) ejes variables como ejes físicamente perpendiculares; (2) variables no correlacionadas por sus datos. Con PCA y algunos otros métodos multivariados, estas dos cosas son lo mismo. Pero con algunos otros análisis (por ejemplo, análisis discriminante), las variables latentes extraídas no correlacionadas no significan automáticamente que sus ejes sean perpendiculares en el espacio original.]

— ttnphns
fuente

+1 (hace mucho tiempo). Los futuros lectores también pueden querer leer las respuestas a esta pregunta: ¿Por qué los componentes principales en PCA (vectores propios de la matriz de covarianza) son mutuamente ortogonales? - está marcado como un duplicado de este, pero contiene algunas respuestas útiles.

— ameba

@ttnphns En el PS escribiste "estas dos cosas son lo mismo". La fraseología me parece un tanto confusa. Si pienso en la PCA como un cambio de base, entonces decir que la nueva base es ortogonal no es lo mismo que decir que las nuevas características (es decir, después del cambio de base) no están correlacionadas (podría encontrar otra base ortogonal). de modo que las nuevas funciones estén correlacionadas). Me doy cuenta de que PCA garantiza tanto que las PC no están correlacionadas como que los ejes principales son ortogonales, pero ¿por qué estas cosas son las mismas?

— Oren Milman

@ttnphns también, ¿tal vez sería útil vincular a esta respuesta ? Me ayudó a aclarar cierta confusión con respecto a la ortogonalidad frente a la falta de correlación de variables aleatorias, ya que según algunas definiciones son las mismas, y según algunas definiciones son las mismas solo para las variables centradas ...

— Oren Milman

@orenmn, gracias por tus comentarios sobre la ortogonalidad. En mi nota al pie, sin embargo, estaba diciendo sobre la ortogonalidad de los ejes , no de los vectores de datos. Por favor, siga el enlace que le di para demostrar.

— ttnphns