Realicé el análisis de componentes principales (PCA) con R usando dos funciones diferentes ( prcomp
y princomp
) y observé que las puntuaciones de PCA diferían en el signo. ¿Cómo puede ser?
Considera esto:
set.seed(999)
prcomp(data.frame(1:10,rnorm(10)))$x
PC1 PC2
[1,] -4.508620 -0.2567655
[2,] -3.373772 -1.1369417
[3,] -2.679669 1.0903445
[4,] -1.615837 0.7108631
[5,] -0.548879 0.3093389
[6,] 0.481756 0.1639112
[7,] 1.656178 -0.9952875
[8,] 2.560345 -0.2490548
[9,] 3.508442 0.1874520
[10,] 4.520055 0.1761397
set.seed(999)
princomp(data.frame(1:10,rnorm(10)))$scores
Comp.1 Comp.2
[1,] 4.508620 0.2567655
[2,] 3.373772 1.1369417
[3,] 2.679669 -1.0903445
[4,] 1.615837 -0.7108631
[5,] 0.548879 -0.3093389
[6,] -0.481756 -0.1639112
[7,] -1.656178 0.9952875
[8,] -2.560345 0.2490548
[9,] -3.508442 -0.1874520
[10,] -4.520055 -0.1761397
¿Por qué los signos ( +/-
) difieren para los dos análisis? Si estuviera usando componentes principales PC1
y PC2
como predictores en una regresión, es decir lm(y ~ PC1 + PC2)
, ¡esto cambiaría completamente mi comprensión del efecto de las dos variables y
dependiendo del método que utilicé! ¿Cómo podría decir que PC1
tiene, por ejemplo, un efecto positivo y
y PC2
tiene, por ejemplo, un efecto negativo y
?
Además: si el signo de los componentes de PCA no tiene sentido, ¿esto también es cierto para el análisis factorial (FA)? ¿Es aceptable voltear (revertir) el signo de las puntuaciones individuales de los componentes PCA / FA (o de las cargas, como una columna de matriz de carga)?