Las cargas (que no deben confundirse con los vectores propios) tienen las siguientes propiedades:
- Sus sumas de cuadrados dentro de cada componente son los valores propios (varianzas de los componentes).
- Las cargas son coeficientes en combinación lineal que predicen una variable por los componentes (estandarizados).
Extrajo 2 primeras PC de 4. Matriz de cargas y los valores propios:A
A (loadings)
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Eigenvalues:
1.0000000000 1.0000000000
En este caso, ambos valores propios son iguales. Es un caso raro en el mundo real, dice que PC1 y PC2 tienen la misma "fuerza" explicativa.
Suponga que también calculó los valores de los componentes, la Nx2
matriz y los estandarizó en z (media = 0, st. Dev. = 1) dentro de cada columna. Entonces (como el punto 2 anterior dice), X = C A ' . Pero, debido a que sólo resta el 2 PCs de 4 (que carecen de 2 columnas más en A ) los valores de datos restaurada XCX^=CA′AX^ no son exactas, - hay un error (si los valores propios 3, 4 son no cero).
OKAY. ¿Cuáles son los coeficientes para predecir componentes por variables ? Claramente, si estuviera lleno , estos serían B = ( A - 1 ) ′ . Con una matriz de carga no cuadrada, podemos calcularlos como B = A ⋅ d i a g ( e i g e n v a l u e s ) - 1 = ( A + ) ′ , dondeA4x4
B=(A−1)′B=A⋅diag(eigenvalues)−1=(A+)′diag(eigenvalues)
es la matriz diagonal cuadrada con los valores propios en su diagonal, y+
superíndice denota pseudoinverso. En tu caso:
diag(eigenvalues):
1 0
0 1
B (coefficients to predict components by original variables):
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Entonces, si es una matriz de variables centradas originales (o variables estandarizadas, si está haciendo PCA basado en correlaciones en lugar de covarianzas), entonces C = X B ; C son puntajes estandarizados de componentes principales. Que en tu ejemplo es:XNx4
C=XBC
PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4 ~ (X1 + X2 + X3 + X4) / 4
"el primer componente es proporcional al puntaje promedio"
PC2 = 0.5 * X1 + 0.5 * X2 - 0.5 * X3 - 0.5 * X4 = (0.5 * X1 + 0.5 * X2) - (0.5 * X3 + 0.5 * X4)
"el segundo componente mide la diferencia entre el primer par de puntajes y el segundo par de puntajes"
B=A
B=A⋅diag(eigenvalues)−1B=R−1ARsiendo la matriz de covarianza (o correlación) de variables. La última fórmula proviene directamente de la teoría de regresión lineal. Las dos fórmulas son equivalentes solo dentro del contexto PCA. En el análisis factorial, no lo son y para calcular los puntajes factoriales (que siempre son aproximados en FA) uno debe confiar en la segunda fórmula.
Respuestas relacionadas mías:
Más detallado sobre cargas frente a vectores propios .
Cómo se calculan las puntuaciones de los componentes principales y las puntuaciones de los factores .