¿Cómo interpretar las cargas de PCA?

Mientras leía sobre PCA, me encontré con la siguiente explicación:

Supongamos que tenemos un conjunto de datos donde cada punto de datos representa los puntajes de un solo estudiante en una prueba de matemáticas, una prueba de física, una prueba de comprensión de lectura y una prueba de vocabulario.

Encontramos los dos primeros componentes principales, que capturan el 90% de la variabilidad en los datos e interpretan sus cargas. Llegamos a la conclusión de que el primer componente principal representa la capacidad académica general, y el segundo representa un contraste entre la capacidad cuantitativa y la capacidad verbal.

El texto indica que las cargas de PC1 y PC2 son para PC1 y para PC2, y ofrece la siguiente explicación: $(0.5, 0.5, 0.5, 0.5)$ $(0.5, 0.5, -0.5, -0.5)$

[E] l primer componente es proporcional al puntaje promedio, y el segundo componente mide la diferencia entre el primer par de puntajes y el segundo par de puntajes.

No puedo entender lo que significa esta explicación.

pca

— priyanka
fuente

De alguna manera, la respuesta de @ttnphns entra en muchos detalles matemáticos, pero creo que la pregunta original fue realmente sencilla: ¿por qué el vector de carga para PC1 de (0.5, 0.5, 0.5, 0.5) significa que el primer componente es "proporcional al puntaje promedio "? Bueno, la respuesta es que las cargas son [proporcionales a] los coeficientes en combinación lineal de variables originales que conforman PC1. Entonces, su primera PC1 es la suma de las cuatro variables por 0.5. Lo que significa que es proporcional al promedio de las cuatro variables. Y similar con PC2. Creo que esto responde a la pregunta original.

— ameba dice Reinstate Monica

@amoeba - ¿Sabes lo difícil que es encontrar una explicación tan simple de las cargas? De alguna manera, en todas partes hay una bocanada de jerga sobre mí antes de decidir pasar a la siguiente explicación en Google. ¡Gracias!

— MiloMinderbinder

Las cargas (que no deben confundirse con los vectores propios) tienen las siguientes propiedades:

Sus sumas de cuadrados dentro de cada componente son los valores propios (varianzas de los componentes).
Las cargas son coeficientes en combinación lineal que predicen una variable por los componentes (estandarizados).

Extrajo 2 primeras PC de 4. Matriz de cargas y los valores propios: $\bf A$

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

En este caso, ambos valores propios son iguales. Es un caso raro en el mundo real, dice que PC1 y PC2 tienen la misma "fuerza" explicativa.

Suponga que también calculó los valores de los componentes, la Nx2matriz y los estandarizó en z (media = 0, st. Dev. = 1) dentro de cada columna. Entonces (como el punto 2 anterior . Pero, debido a que sólo resta el 2 PCs de 4 (que carecen de 2 columnas más en ) los valores de datos restaurada $\bf C$ $\bf \hat {X}=CA'$ $\bf A$ $\bf \hat {X}$ no son exactas, - hay un error (si los valores propios 3, 4 son no cero).

OKAY. ¿Cuáles son los coeficientes para predecir componentes por variables ? Claramente, si estuviera lleno , estos serían . Con una matriz de carga no cuadrada, podemos calcularlos como , donde $\bf A$ 4x4 $\bf B=(A^{-1})'$ $\bf B= A \cdot diag(eigenvalues)^{-1}=(A^+)'$ diag(eigenvalues) es la matriz diagonal cuadrada con los valores propios en su diagonal, y+superíndice denota pseudoinverso. En tu caso:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Entonces, si es una matriz de variables centradas originales (o variables estandarizadas, si está haciendo PCA basado en correlaciones en lugar de covarianzas), entonces ; son puntajes estandarizados de componentes principales. Que en tu ejemplo es: $\bf X$ Nx4 $\bf C=XB$ $\bf C$

PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"el primer componente es proporcional al puntaje promedio"

PC2 = 0.5 * X1 + 0.5 * X2 - 0.5 * X3 - 0.5 * X4 = (0.5 * X1 + 0.5 * X2) - (0.5 * X3 + 0.5 * X4)

"el segundo componente mide la diferencia entre el primer par de puntajes y el segundo par de puntajes"

$\bf B=A$

$\bf B= A \cdot diag(eigenvalues)^{-1}$ $\bf B=R^{-1}A$ $\bf R$ siendo la matriz de covarianza (o correlación) de variables. La última fórmula proviene directamente de la teoría de regresión lineal. Las dos fórmulas son equivalentes solo dentro del contexto PCA. En el análisis factorial, no lo son y para calcular los puntajes factoriales (que siempre son aproximados en FA) uno debe confiar en la segunda fórmula.

Respuestas relacionadas mías:

Más detallado sobre cargas frente a vectores propios .

Cómo se calculan las puntuaciones de los componentes principales y las puntuaciones de los factores .

— ttnphns
fuente

Si 2 de los 4 componentes representan el 90% de la variabilidad, ¿cómo es que sus valores propios suman 2?

— Nick Cox

Nick, creo que esta es una pregunta para el OP. No dio los datos o la matriz de covarianza / correlación. Todo lo que teníamos de él es una matriz de carga (bastante poco realista) de 2 primeras PC.

— ttnphns

Buen punto, @Nick, esto de hecho no es posible, ya que la varianza total de un

4 \times 4

$4\times4$ matriz de correlación debe ser

4

$4$ , entonces dos PC con valores propios

1

$1$ debe tener en cuenta

50 %

$50\%$ de la variabilidad. No te estoy explicando esto, por supuesto, sino a otros posibles lectores de este hilo. Sin embargo, la respuesta de ttnphns sigue siendo correcta (+1), simplemente no tenemos otra opción para ignorar el número

90 %

$90\%$ reportado por el OP.

— ameba dice Reinstate Monica