En el caso de PCA, "varianza" significa varianza sumativa o variabilidad multivariada o variabilidad general o variabilidad total . A continuación se muestra la matriz de covarianza de algunas 3 variables. Sus variaciones están en la diagonal, y la suma de los 3 valores (3.448) es la variabilidad general.
1.343730519 -.160152268 .186470243
-.160152268 .619205620 -.126684273
.186470243 -.126684273 1.485549631
Ahora, PCA reemplaza las variables originales con nuevas variables, llamadas componentes principales, que son ortogonales (es decir, tienen cero covariaciones) y tienen variaciones (llamadas valores propios) en orden decreciente. Entonces, la matriz de covarianza entre los componentes principales extraídos de los datos anteriores es la siguiente:
1.651354285 .000000000 .000000000
.000000000 1.220288343 .000000000
.000000000 .000000000 .576843142
Tenga en cuenta que la suma diagonal sigue siendo 3.448, lo que dice que los 3 componentes representan toda la variabilidad multivariada. El primer componente principal representa o "explica" 1.651 / 3.448 = 47.9% de la variabilidad general; la segunda explica 1.220 / 3.448 = 35.4% de la misma; el tercero explica .577 / 3.448 = 16.7%.
Entonces, ¿qué quieren decir cuando dicen que " PCA maximiza la varianza " o " PCA explica la varianza máxima "? Eso no es, por supuesto, que encuentre la mayor varianza entre tres valores 1.343730519 .619205620 1.485549631, no. PCA encuentra, en el espacio de datos, la dimensión (dirección) con la mayor varianza fuera de la varianza general1.343730519+.619205620+1.485549631 = 3.448 . Esa mayor variación sería 1.651354285. Luego encuentra la dimensión de la segunda varianza más grande, ortogonal a la primera, fuera de la 3.448-1.651354285varianza general restante . Esa segunda dimensión sería la 1.220288343varianza. Y así. La última dimensión restante es la .576843142varianza. Vea también "Pt3" aquí y la gran respuesta aquí explicando cómo se hizo con más detalle.
Matemáticamente, la PCA se realiza mediante funciones de álgebra lineal llamadas descomposición propia o descomposición svd. Estas funciones le devolverán todos los valores propios 1.651354285 1.220288343 .576843142(y los vectores propios correspondientes) a la vez ( ver , ver ).