Comenzaré con una demostración intuitiva.
Genere observaciones (a) de una distribución 2D fuertemente no gaussiana, y (b) de una distribución gaussiana 2D. En ambos casos, centré los datos y realicé la descomposición del valor singular Xn=100 . Luego, para cada caso, hice un diagrama de dispersión de las dos primeras columnas de U , una contra otra. Tenga en cuenta que generalmente las columnas de U S se denominan "componentes principales" (PC); las columnas de U son PC escaladas para tener la norma de la unidad; Sin embargo, en esta respuesta me estoy centrando en columnas de U . Aquí están los diagramas de dispersión:X=USV⊤UUSUU
Creo que las declaraciones como "los componentes de PCA no están correlacionados" o "los componentes de PCA son dependientes / independientes" generalmente se hacen sobre una matriz de muestra específica y se refieren a las correlaciones / dependenciasentre filas(ver, por ejemplo,la respuesta de @ ttnphns aquí). PCA produce una matriz de datos transformada U , donde las filas son observaciones y las columnas son variables de PC. Es decir, podemos ver U comomuestray preguntar cuál es la correlación de muestra entre las variables de PC. Por supuesto, esta matriz de correlación de muestra viene dada por U ⊤ U = IXUUU⊤U=I, lo que significa que las correlaciones de muestra entre las variables de PC son cero. Esto es lo que la gente quiere decir cuando dice que "PCA diagonaliza la matriz de covarianza", etc.
Conclusión 1: en las coordenadas PCA, cualquier dato tiene correlación cero.
Esto es cierto para los dos diagramas de dispersión anteriores. Sin embargo, es inmediatamente evidente que las dos variables de PC y y en el diagrama de dispersión a la izquierda (no gaussiana) no son independientes; a pesar de que tienen correlación cero, son fuertemente dependientes y de hecho están relacionados por a y ≈ a ( x - b ) 2 . Y de hecho, es bien sabido que no correlacionado no significa independiente .xyy≈a(x−b)2
Por el contrario, las dos variables de PC e y en el diagrama de dispersión derecho (gaussiano) parecen ser "bastante independientes". Calcular cualquier información mutua entre ellos (que es una medida de dependencia estadística: las variables independientes tienen cero información mutua) mediante cualquier algoritmo estándar producirá un valor muy cercano a cero. No será exactamente cero, porque nunca es exactamente cero para cualquier tamaño de muestra finito (a menos que esté ajustado); Además, existen varios métodos para calcular la información mutua de dos muestras, dando respuestas ligeramente diferentes. Pero podemos esperar que cualquier método produzca una estimación de información mutua que sea muy cercana a cero.xy
Conclusión 2: en las coordenadas PCA, los datos gaussianos son "bastante independientes", lo que significa que las estimaciones estándar de dependencia serán alrededor de cero.
La pregunta, sin embargo, es más complicada, como lo demuestra la larga cadena de comentarios. De hecho, @whuber señala acertadamente que las variables de PCA e y (columnas de U )debenser estadísticamente dependientes: las columnas deben ser de longitud unitaria y ortogonales, y esto introduce una dependencia. Por ejemplo, si algún valor en la primera columna es igual a 1 , entonces el valor correspondiente en la segunda columna debe ser 0 .xyU10
Esto es cierto, pero solo es prácticamente relevante para muy pequeño , como por ejemplo n = 3 (con n = 2 después del centrado, solo hay una PC). Para cualquier tamaño de muestra razonable, como n =nn=3n=2 muestra en mi figura anterior, el efecto de la dependencia será insignificante; las columnas de U son proyecciones (a escala) de datos gaussianos, por lo que también son gaussianas, lo que hace que sea prácticamente imposible que un valor esté cerca de 1 (esto requeriría que todos los demáselementos n - 1 estén cerca de 0 , lo cual es apenas una distribución gaussiana).n=100U1n−10
Conclusión 3: estrictamente hablando, para cualquier finita , los datos gaussianos en las coordenadas PCA son dependientes; sin embargo, esta dependencia es prácticamente irrelevante para cualquier n ≫ 1 .nn≫1
Podemos hacer esto preciso considerando lo que sucede en el límite de . En el límite del tamaño de muestra infinito, la matriz de covarianza de la muestra es igual a la matriz de covarianza de la población Σ . Así que si el vector de datos X se muestrea desde → X ~ N ( 0 , Σ ) , entonces las variables de PC son → Y = Λ - 1 / 2 V ⊤n→∞ΣXX⃗ ∼N(0,Σ)(dondeΛyVY⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛVson valores propios y vectores propios de ) y → Y ∼ N ( 0 , I / ( n - 1 ) ) . Es decir, las variables de PC provienen de un gaussiano multivariado con covarianza diagonal. Pero cualquier matriz gaussiana multivariada con covarianza diagonal se descompone en un producto de gaussianos univariados, y esta es la definición de independencia estadística :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Conclusión 4: las variables PC asintóticamente ( ) de los datos gaussianos son estadísticamente independientes como variables aleatorias, y la información mutua de muestra dará el valor de población cero.n→∞
Debo señalar que es posible entender esta pregunta de manera diferente (ver comentarios de @whuber): considerar toda la matriz una variable aleatoria (obtenida de la matriz aleatoria X a través de una operación específica) y preguntar si hay dos elementos específicos U i j y U k l a partir de dos columnas diferentes son estadísticamente independientes a través de diferentes sorteos de X . Exploramos esta pregunta en este hilo posterior .UXUijUklX
Aquí están las cuatro conclusiones provisionales de arriba:
- En las coordenadas PCA, cualquier dato tiene correlación cero.
- En las coordenadas PCA, los datos gaussianos son "bastante independientes", lo que significa que las estimaciones estándar de dependencia estarán en torno a cero.
- Strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n≫1.
- Asymptotically (n→∞) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.