En el caso de PCA, "varianza" significa varianza sumativa o variabilidad multivariada o variabilidad general o variabilidad total . A continuación se muestra la matriz de covarianza de algunas 3 variables. Sus variaciones están en la diagonal, y la suma de los 3 valores (3.448) es la variabilidad general.
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
Ahora, PCA reemplaza las variables originales con nuevas variables, llamadas componentes principales, que son ortogonales (es decir, tienen cero covariaciones) y tienen variaciones (llamadas valores propios) en orden decreciente. Entonces, la matriz de covarianza entre los componentes principales extraídos de los datos anteriores es la siguiente:
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
Tenga en cuenta que la suma diagonal sigue siendo 3.448, lo que dice que los 3 componentes representan toda la variabilidad multivariada. El primer componente principal representa o "explica" 1.651 / 3.448 = 47.9% de la variabilidad general; la segunda explica 1.220 / 3.448 = 35.4% de la misma; el tercero explica .577 / 3.448 = 16.7%.
Entonces, ¿qué quieren decir cuando dicen que " PCA maximiza la varianza " o " PCA explica la varianza máxima "? Eso no es, por supuesto, que encuentre la mayor varianza entre tres valores 1.343730519 .619205620 1.485549631
, no. PCA encuentra, en el espacio de datos, la dimensión (dirección) con la mayor varianza fuera de la varianza general1.343730519+.619205620+1.485549631 = 3.448
. Esa mayor variación sería 1.651354285
. Luego encuentra la dimensión de la segunda varianza más grande, ortogonal a la primera, fuera de la 3.448-1.651354285
varianza general restante . Esa segunda dimensión sería la 1.220288343
varianza. Y así. La última dimensión restante es la .576843142
varianza. Vea también "Pt3" aquí y la gran respuesta aquí explicando cómo se hizo con más detalle.
Matemáticamente, la PCA se realiza mediante funciones de álgebra lineal llamadas descomposición propia o descomposición svd. Estas funciones le devolverán todos los valores propios 1.651354285 1.220288343 .576843142
(y los vectores propios correspondientes) a la vez ( ver , ver ).