Esta pregunta se trata principalmente de definiciones de PCA / FA, por lo que las opiniones pueden diferir. Mi opinión es que PCA + varimax no debería llamarse PCA o FA, sino que se denomina explícitamente, por ejemplo, "PCA rotada con varimax".
Debo agregar que este es un tema bastante confuso. En esta respuesta quiero explicar qué es realmente una rotación ; Esto requerirá algunas matemáticas. Un lector casual puede pasar directamente a la ilustración. Solo entonces podemos discutir si la rotación PCA + debería o no llamarse "PCA".
Una referencia es el libro de Jolliffe "Análisis de componentes principales", sección 11.1 "Rotación de componentes principales", pero creo que podría ser más claro.
Sea una matriz de datos que suponemos que está centrada. PCA equivale ( vea mi respuesta aquí ) a una descomposición de valor singular: . Hay dos vistas equivalentes pero complementarias en esta descomposición: una vista de "proyección" más al estilo PCA y una vista de "variables latentes" más al estilo FA. n × p X = U S V ⊤Xn×pX=USV⊤
Según la vista de estilo PCA, encontramos un montón de direcciones ortogonales (estos son vectores propios de la matriz de covarianza, también llamados "direcciones principales" o "ejes") y "componentes principales" ( también llamados componentes principales "puntajes") son proyecciones de los datos en estas direcciones. Los componentes principales no están correlacionados, el primero tiene la máxima varianza posible, etc. Podemos escribir:U S X = U S ⋅ V ⊤ = Puntajes ⋅ Direcciones principales .VUS
X=US⋅V⊤=Scores⋅Principal directions.
De acuerdo con la vista de estilo FA, encontramos algunos "factores latentes" de varianza unitaria no correlacionados que dan lugar a las variables observadas a través de "cargas". De hecho, son componentes principales estandarizados (no correlacionados y con varianza unitaria), y si definimos las cargas como , luego (Tenga en cuenta que .) Ambas vistas son equivalentes. Tenga en cuenta que las cargas son vectores propios escalados por los valores propios respectivos ( son valores propios de la matriz de covarianza).L=VS/ √U˜=n−1−−−−−√U X= √L=VS/n−1−−−−−√
X=n−1−−−−−√U⋅(VS/n−1−−−−−√)⊤=U˜⋅L⊤=Standardized scores⋅Loadings.
S⊤=SS/n−1−−−−−√
(Debo agregar entre paréntesis que PCA FA≠ ; FA apunta explícitamente a encontrar factores latentes que se asignan linealmente a las variables observadas a través de cargas; es más flexible que PCA y produce diferentes cargas. Es por eso que prefiero llamar a lo anterior "Vista de estilo FA en PCA" y no FA, a pesar de que algunas personas lo consideran uno de los métodos FA).
Ahora, ¿qué hace una rotación? Por ejemplo, una rotación ortogonal, como varimax. Primero, considera solo componentes, es decir:Luego toma una matriz ortogonal cuadrada , y conecta en esta descomposición: donde las cargas rotadas están dadas pork<p
X≈UkSkV⊤k=U˜kL⊤k.
k×kTTT⊤=IX≈UkSkV⊤k=UkTT⊤SkV⊤k=U˜rotL⊤rot,
˜ U r o t = ˜ U k T T L r o tLrot=LkTY girar puntuaciones estandarizadas son dados por . (El propósito de esto es encontrar manera que se haya vuelto lo más escaso posible para facilitar su interpretación).
U˜rot=U˜kTTLrot
Tenga en cuenta que lo que se rota son: (1) puntajes estandarizados, (2) cargas. ¡Pero no los puntajes brutos y no las direcciones principales! Entonces la rotación ocurre en el espacio latente , no en el espacio original. Esto es absolutamente crucial.
Desde el punto de vista de estilo FA, no pasó mucho. (A) Los factores latentes aún no están correlacionados y estandarizados. (B) Todavía se asignan a las variables observadas a través de cargas (rotadas). (C) La cantidad de varianza capturada por cada componente / factor viene dada por la suma de los valores al cuadrado de la columna de cargas correspondiente en . (D) Geométricamente, las cargas aún abarcan el mismo subespacio dimensional en (el subespacio abarcado por los primeros vectores propios de PCA). (E) La aproximación a y el error de reconstrucción no cambiaron en absoluto. (F) La matriz de covarianza se sigue aproximando igualmente bien: k R p k XLrotkRpkX
Σ≈LkL⊤k=LrotL⊤rot.
Pero el punto de vista estilo PCA prácticamente se ha derrumbado. ¡Las cargas rotadas ya no corresponden a las direcciones / ejes ortogonales en , es decir, las columnas de no son ortogonales! Peor aún, si [ortogonalmente] proyecta los datos en las direcciones dadas por las cargas rotadas, obtendrá proyecciones correlacionadas (!) Y no podrá recuperar los puntajes. [En cambio, para calcular los puntajes estandarizados después de la rotación, uno necesita multiplicar la matriz de datos con el pseudoinverso de las cargas . Alternativamente, uno simplemente puede rotar las puntuaciones estandarizadas originales con la matriz de rotación:L r o t ˜ U r o t = X ( L + r o t ) ⊤ ˜ U r o t = ˜ U T kkRpLrotU˜rot=X(L+rot)⊤U˜rot=U˜T ] Además, los componentes rotados no capturan sucesivamente la cantidad máxima de varianza: la varianza se redistribuye entre los componentes (incluso aunque todos los componentes rotados capturan exactamente tanta varianza como todos los componentes principales originales).kk
Aquí hay una ilustración. Los datos son una elipse 2D estirada a lo largo de la diagonal principal. La primera dirección principal es la diagonal principal, la segunda es ortogonal a ella. Los vectores de carga de PCA (vectores propios escalados por los valores propios) se muestran en rojo, apuntando en ambas direcciones y también estirados por un factor constante de visibilidad. Luego apliqué una rotación ortogonal de a las cargas. Los vectores de carga resultantes se muestran en magenta. Tenga en cuenta que no son ortogonales (!).30∘
Una intuición de estilo FA aquí es la siguiente: imagine un "espacio latente" donde los puntos llenan un pequeño círculo (provienen de un Gaussiano 2D con variaciones de unidades). Esta distribución de puntos se estira a lo largo de las cargas de PCA (rojo) para convertirse en la elipse de datos que vemos en esta figura. Sin embargo, la misma distribución de puntos puede rotarse y luego estirarse a lo largo de las cargas de PCA rotadas (magenta) para convertirse en la misma elipse de datos .
[Para ver realmente que una rotación ortogonal de cargas es una rotación , uno necesita mirar un biplot PCA; allí los vectores / rayos correspondientes a las variables originales simplemente rotarán.]
Hagamos un resumen. Después de una rotación ortogonal (como varimax), los ejes "principal girado" no son ortogonales, y las proyecciones ortogonales sobre ellos no tienen sentido. Por lo tanto, uno debería abandonar este punto de vista completo de ejes / proyecciones. Sería extraño seguir llamándolo PCA (que se trata de proyecciones con máxima varianza, etc.).
Desde el punto de vista del estilo FA, simplemente rotamos nuestros factores latentes (estandarizados y no correlacionados), lo cual es una operación válida. No hay "proyecciones" en FA; en cambio, los factores latentes generan las variables observadas a través de cargas. Esta lógica aún se conserva. Sin embargo, comenzamos con los componentes principales, que en realidad no son factores (ya que PCA no es lo mismo que FA). Por lo tanto, sería extraño llamarlo FA también.
En lugar de debatir si uno "debería" llamarlo PCA o FA, sugeriría ser meticuloso al especificar el procedimiento exacto utilizado: "PCA seguido de una rotación varimax".
Postscriptum. Se es posible considerar un procedimiento de rotación alternativa, donde se inserta entre y . Esto rotaría los puntajes brutos y los vectores propios (en lugar de puntajes y cargas estandarizados). El mayor problema con este enfoque es que después de tal "rotación", los puntajes ya no estarán correlacionados, lo cual es bastante fatal para PCA. Uno puede hacerlo, pero no es así como generalmente se entienden y aplican las rotaciones.U S V ⊤TT⊤USV⊤