¿Son los componentes PCA de los datos gaussianos multivariados estadísticamente independientes?

¿Son los componentes de PCA (en el análisis de componentes principales) estadísticamente independientes si nuestros datos son multivariados normalmente distribuidos? Si es así, ¿cómo se puede demostrar / probar esto?

Pregunto porque vi esta publicación , donde la respuesta principal dice:

PCA no hace una suposición explícita de Gaussianity. Encuentra los vectores propios que maximizan la varianza explicada en los datos. La ortogonalidad de los componentes principales significa que encuentra los componentes menos correlacionados para explicar la mayor variación posible en los datos. Para las distribuciones gaussianas multivariadas, la correlación cero entre componentes implica independencia, lo que no es cierto para la mayoría de las distribuciones.

La respuesta se establece sin una prueba, y parece implicar que PCA produce componentes independientes si los datos son multivariados normales.

Específicamente, digamos que nuestros datos son muestras de:

x \sim N (μ, Σ)

$\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$

ponemos $n$ muestras de $\mathbf{x}$ en filas de nuestra matriz de muestras $\mathbf{X}$ , entonces $\mathbf{X}$ es $n \times m$ . Calcular el SVD de $\mathbf{X}$ (después del centrado) produce

X = {U S V}^{T}

$\mathbf{X} = \mathbf{USV}^{T}$

¿Podemos decir que las columnas de $\mathbf{U}$ son estadísticamente independientes, también las filas de $\mathbf{V}^T$ ? ¿Es esto cierto en general, solo para $\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$ , o no es cierto en absoluto?

pca independence svd

— bill_e
fuente

stats.stackexchange.com/q/110508/3277 es una pregunta similar.

— ttnphns

No veo cómo las PC podrían considerarse "estadísticamente independientes" en más de una dimensión. Después de todo, por definición, cada uno es ortogonal a todos los demás; Esta dependencia funcional crea una dependencia estadística muy fuerte.

— whuber

@amoeba espero haber sido siempre clara, así como fiel a la pregunta, que me parece ser claramente definido y sin ambigüedades: debido a que los datos

son aleatorios, por lo que son todas las entradas de

. Les he aplicado la definición de independencia estadística. Eso es todo. Su problema parece ser que está utilizando la palabra "no correlacionada" en dos sentidos muy diferentes sin darse cuenta aparentemente: en virtud de cómo se construyen las columnas de

, son geométricamente ortogonales como vectores en , pero no lo son. significa vectores aleatorios independientes!

X

$X$

U

$U$

U

$U$ $\mathbb{R}^n$

— whuber

@amoeba Tienes razón: la simulación muestra de manera bastante convincente que la correlación puede ser (fuertemente) distinta de cero. Sin embargo, no estoy discutiendo que "los componentes de PCA no están correlacionados" en el sentido de "correlación" = "ortogonal", ni digo que ningún libro de texto en particular sea incorrecto. Mi preocupación es que tal declaración, entendida adecuadamente, es tan irrelevante para la pregunta que todo lo que puede hacer (y ha hecho) es sembrar una gran confusión en el contexto actual.

— whuber

@whuber, ¡estoy seguro de que has estado esperando otra edición de mi respuesta! Aquí está. Reconozco explícitamente sus puntos sobre la dependencia y hago una declaración de que las columnas de

son asintóticamente independientes, como mi punto principal. Aquí "asintóticamente" se refiere al número

de observaciones (filas). ¡Espero sinceramente que podamos acordar eso! También sostengo que para cualquier

razonable , como

, la dependencia entre columnas es "prácticamente irrelevante". Supongo que este es un punto más polémico, pero trato de hacerlo razonablemente preciso en mi respuesta.

U

$U$

n

$n$

n

$n$

n = 100

$n=100$

— ameba dice Reinstate Monica

Comenzaré con una demostración intuitiva.

Genere observaciones (a) de una distribución 2D fuertemente no gaussiana, y (b) de una distribución gaussiana 2D. En ambos casos, centré los datos y realicé la descomposición del valor singular $n=100$ . Luego, para cada caso, hice un diagrama de dispersión de las dos primeras columnas de , una contra otra. Tenga en cuenta que generalmente las columnas de se denominan "componentes principales" (PC); las columnas de son PC escaladas para tener la norma de la unidad; Sin embargo, en esta respuesta me estoy centrando en columnas de . Aquí están los diagramas de dispersión: $\mathbf X=\mathbf{USV}^\top$ $\mathbf U$ $\mathbf{US}$ $\mathbf U$ $\mathbf U$

PCA of Gaussian and non-Gaussian data

Creo que las declaraciones como "los componentes de PCA no están correlacionados" o "los componentes de PCA son dependientes / independientes" generalmente se hacen sobre una matriz de muestra específica y se refieren a las correlaciones / dependenciasentre filas(ver, por ejemplo,la respuesta de @ ttnphns aquí). PCA produce una matriz de datos transformada , donde las filas son observaciones y las columnas son variables de PC. Es decir, podemos ver comomuestray preguntar cuál es la correlación de muestra entre las variables de PC. Por supuesto, esta matriz de correlación de muestra viene dada por $\mathbf X$ $\mathbf U$ $\mathbf U$ $\mathbf U^\top \mathbf U=\mathbf I$ , lo que significa que las correlaciones de muestra entre las variables de PC son cero. Esto es lo que la gente quiere decir cuando dice que "PCA diagonaliza la matriz de covarianza", etc.

Conclusión 1: en las coordenadas PCA, cualquier dato tiene correlación cero.

Esto es cierto para los dos diagramas de dispersión anteriores. Sin embargo, es inmediatamente evidente que las dos variables de PC y en el diagrama de dispersión a la izquierda (no gaussiana) no son independientes; a pesar de que tienen correlación cero, son fuertemente dependientes y de hecho están relacionados por a . Y de hecho, es bien sabido que no correlacionado no significa independiente . $x$ $y$ $y\approx a(x-b)^2$

Por el contrario, las dos variables de PC e en el diagrama de dispersión derecho (gaussiano) parecen ser "bastante independientes". Calcular cualquier información mutua entre ellos (que es una medida de dependencia estadística: las variables independientes tienen cero información mutua) mediante cualquier algoritmo estándar producirá un valor muy cercano a cero. No será exactamente cero, porque nunca es exactamente cero para cualquier tamaño de muestra finito (a menos que esté ajustado); Además, existen varios métodos para calcular la información mutua de dos muestras, dando respuestas ligeramente diferentes. Pero podemos esperar que cualquier método produzca una estimación de información mutua que sea muy cercana a cero. $x$ $y$

Conclusión 2: en las coordenadas PCA, los datos gaussianos son "bastante independientes", lo que significa que las estimaciones estándar de dependencia serán alrededor de cero.

La pregunta, sin embargo, es más complicada, como lo demuestra la larga cadena de comentarios. De hecho, @whuber señala acertadamente que las variables de PCA e (columnas de )debenser estadísticamente dependientes: las columnas deben ser de longitud unitaria y ortogonales, y esto introduce una dependencia. Por ejemplo, si algún valor en la primera columna es igual a , entonces el valor correspondiente en la segunda columna debe ser . $x$ $y$ $\mathbf U$ $1$ $0$

Esto es cierto, pero solo es prácticamente relevante para muy pequeño , como por ejemplo (con después del centrado, solo hay una PC). Para cualquier tamaño de muestra razonable, como $n$ $n=3$ $n=2$ muestra en mi figura anterior, el efecto de la dependencia será insignificante; las columnas de son proyecciones (a escala) de datos gaussianos, por lo que también son gaussianas, lo que hace que sea prácticamente imposible que un valor esté cerca de (esto requeriría que todos los demáselementos estén cerca de , lo cual es apenas una distribución gaussiana). $n=100$ $\mathbf U$ $1$ $n-1$ $0$

Conclusión 3: estrictamente hablando, para cualquier finita , los datos gaussianos en las coordenadas PCA son dependientes; sin embargo, esta dependencia es prácticamente irrelevante para cualquier . $n$ $n\gg 1$

Podemos hacer esto preciso considerando lo que sucede en el límite de . En el límite del tamaño de muestra infinito, la matriz de covarianza de la muestra es igual a la matriz de covarianza de la población . Así que si el vector de datos se muestrea desde , entonces las variables de PC son $n \to \infty$ $\mathbf \Sigma$ $X$ $\vec X \sim \mathcal N(0,\boldsymbol \Sigma)$ (dondey $\vec Y = \Lambda^{-1/2}V^\top \vec X/(n-1)$ $\Lambda$ $V$ son valores propios y vectores propios de ) y . Es decir, las variables de PC provienen de un gaussiano multivariado con covarianza diagonal. Pero cualquier matriz gaussiana multivariada con covarianza diagonal se descompone en un producto de gaussianos univariados, y esta es la definición de independencia estadística : $\boldsymbol \Sigma$ $\vec Y \sim \mathcal N(0, \mathbf I/(n-1))$

\begin{aligned} N (0, d i a g (σ_{i}^{2})) & = \frac{1}{(2 π)^{k / 2} det (d i a g (σ_{i}^{2}))^{1 / 2}} \exp [- x^{⊤} d i a g (σ_{i}^{2}) x / 2] \\ = \frac{1}{(2 π)^{k / 2} (\prod_{i = 1}^{k} σ_{i}^{2})^{1 / 2}} \exp [- \sum_{i = 1}^{k} σ_{i}^{2} x_{i}^{2} / 2] \\ = \prod \frac{1}{(2 π)^{1 / 2} σ_{i}} \exp [- σ_{i}^{2} x_{i}^{2} / 2] \\ = \prod N (0, σ_{i}^{2}) . \end{aligned}

$\begin{align} \mathcal N(\mathbf 0,\mathrm{diag}(\sigma^2_i)) &= \frac{1}{(2\pi)^{k/2} \det(\mathrm{diag}(\sigma^2_i))^{1/2}} \exp\left[-\mathbf x^\top \mathrm{diag}(\sigma^2_i) \mathbf x/2\right]\\&=\frac{1}{(2\pi)^{k/2} (\prod_{i=1}^k \sigma_i^2)^{1/2}} \exp\left[-\sum_{i=1}^k \sigma^2_i x_i^2/2\right] \\&=\prod\frac{1}{(2\pi)^{1/2}\sigma_i} \exp\left[-\sigma_i^2 x^2_i/2\right] \\&= \prod \mathcal N(0,\sigma^2_i). \end{align}$

Conclusión 4: las variables PC asintóticamente ( ) de los datos gaussianos son estadísticamente independientes como variables aleatorias, y la información mutua de muestra dará el valor de población cero. $n \to \infty$

Debo señalar que es posible entender esta pregunta de manera diferente (ver comentarios de @whuber): considerar toda la matriz una variable aleatoria (obtenida de la matriz aleatoria través de una operación específica) y preguntar si hay dos elementos específicos y a partir de dos columnas diferentes son estadísticamente independientes a través de diferentes sorteos de . Exploramos esta pregunta en este hilo posterior . $\mathbf U$ $\mathbf X$ $U_{ij}$ $U_{kl}$ $\mathbf X$

Aquí están las cuatro conclusiones provisionales de arriba:

En las coordenadas PCA, cualquier dato tiene correlación cero.
En las coordenadas PCA, los datos gaussianos son "bastante independientes", lo que significa que las estimaciones estándar de dependencia estarán en torno a cero.
Strictly speaking, for any finite $n$ , Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any $n\gg 1$ .
Asymptotically ( $n \to \infty$ ) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.

— amoeba says Reinstate Monica
fuente

You write "However, if the data are multivariate Gaussian, then they are indeed independent". 'They' being the principal components, and their coefficients? What do you mean by PCA diagonalizes the covariance matrix? Thank you for your response!

— bill_e

"They" refers to principal components (which are projections of the data on the directions of maximal variance). PCA looks for directions of maximal variance; turns out that these directions are given by the eigenvectors of the covariance matrix. If you change the coordinates to the "PCA coordinates", then the covariance matrix will be diagonal, that is how eigendecomposition works. Equivalently, matrix

S

$S$ in the SVD from your question is a diagonal matrix. Also, matrix

U

$U$ es ortogonal, lo que significa que su matriz de covarianza es diagonal. Todo eso significa que las PC tienen correlación cero.

— ameba dice Reinstate Monica

¡Genial, gracias! La combinación de su respuesta y este comentario me ayuda a aclarar muchas cosas. ¿Puedo editar tu comentario en tu respuesta?

— bill_e

Expandí la respuesta incorporando el comentario; mira si estás contento con eso ahora.

— ameba dice Reinstate Monica

Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.

— bill_e