Una explicación básica, pero un poco minuciosa, del análisis PCA vs Factor con la ayuda de diagramas de dispersión, en pasos lógicos. (Agradezco a @amoeba que, en su comentario a la pregunta, me ha animado a publicar una respuesta en lugar de hacer enlaces a otros lugares. Así que aquí hay una respuesta tardía y de ocio).
PCA como resumen de variables (extracción de características)
Espero que ya comprenda PCA. Para revivir ahora.
V1V2a
P1=a11V1+a12V2
P2=a21V1+a22V2
Esos coeficientes son cosenos de rotación (= cosenos de dirección, direcciones principales) y comprenden lo que se denominan vectores propios, mientras que los valores propios de la matriz de covarianza son las varianzas de componentes principales. En PCA, generalmente descartamos los últimos componentes débiles: resumimos los datos por unos pocos componentes extraídos primero, con poca pérdida de información.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
Con nuestros datos trazados, los valores del componente P1 (puntajes) P1 = .73543*V1 + .67761*V2
y el componente P2 descartamos. La varianza de P1 es 1.75756
el primer valor propio de la matriz de covarianza, por lo que P1 explica 86.5%
la varianza total que es igual (1.07652+.95534) = (1.75756+.27430)
.
PCA como predicción variable (característica "latente")
P1 V1V2
V1=a11P1+E1
V2=a12P1+E2
aE
V1^=a11P1V2^=a12P1E1=V1−V1^E2=V2−V2^
Ahora, lo que es característico de PCA es que si calculamos E1 y E2 para cada punto en los datos y trazamos estas coordenadas, es decir, hacemos el diagrama de dispersión de los errores solos, los "datos de error" de la nube coincidirán con el componente descartado P2. Y lo hace: la nube se traza en la misma imagen que la nube beige, y se ve que en realidad forma el eje P2 (de la figura 1 ) en mosaico con las puntuaciones de los componentes P2.
No es de extrañar, se puede decir. Es muy obvio: en PCA , los componentes junior descartados son los que se descomponen con precisión en los errores de predicción E, en el modelo que explica (restaura) las variables originales V por las características latentes P1. Los errores E juntos constituyen los componentes excluidos. Aquí es donde el análisis factorial comienza a diferir de PCA.
La idea de FA común (característica latente)
Formalmente, el modelo que predice variables manifiestas por las características latentes extraídas es el mismo en FA que en PCA; [ Eq.3 ]:
V1=a1F+E1
V2=a2F+E2
donde F es el factor común latente extraído de los datos y reemplazando lo que era P1 en la ecuación 2 . La diferencia en el modelo es que en FA, a diferencia de PCA, se requiere que las variables de error (E1 y E2) no estén correlacionadas entre sí .
aaaaaaa
OK, volviendo al hilo. E1 y E2 no están correlacionados en el análisis factorial; por lo tanto, deberían formar una nube de errores, ya sea redonda o elíptica, pero no orientada en diagonal. Mientras estaban en PCA, su nube formó una línea recta que coincidía con P2 en diagonal. Ambas ideas se demuestran en la foto:
Tenga en cuenta que los errores son redondos (no alargados en diagonal) en la nube en FA. El factor (latente) en FA está orientado de manera algo diferente, es decir, no es correcto el primer componente principal que es el "latente" en PCA. En la imagen, la línea de factor es extrañamente cónica: al final quedará claro por qué.
¿Cuál es el significado de esta diferencia entre PCA y FA? Variables correlacionadas, lo que se ve en la forma diagonalmente elíptica de la nube de datos. P1 rozó la varianza máxima, por lo que la elipse se codirige a P1. En consecuencia, P1 explica por sí mismo la correlación; pero no explicaba la cantidad existente de correlación adecuadamente; buscó explicar la variación en los puntos de datos, no la correlación. En realidad, exageró la correlación, cuyo resultado fue la aparición de la nube de errores diagonal correlacionada que compensa la sobrecuenta. P1 por sí solo no puede explicar la fuerza de la correlación / covariación de manera integral. Factor F puedehazlo solo; y la condición cuando puede hacerlo es exactamente donde los errores pueden ser forzados a no estar correlacionados. Dado que la nube de error es redonda, no ha quedado ninguna correlación, positiva o negativa, después de que se extrajo el factor, por lo tanto, es el factor que lo desvió todo.
Como una reducción de dimensionalidad, PCA explica la varianza pero explica las correlaciones de manera imprecisa. FA explica las correlaciones pero no puede explicar (por los factores comunes) tanta variación de datos como PCA. Los factores en FA representan esa porción de variabilidad que es la porción correlacional neta, llamada comunalidad ; y, por lo tanto, los factores pueden interpretarse como fuerzas / características / rasgos reales pero no observables que se esconden "dentro" o "detrás" de las variables de entrada para que se correlacionen. Porque explican bien la correlación matemáticamente. Los componentes principales (algunos primeros) no lo explican matemáticamente tan bien y, por lo tanto, pueden llamarse "rasgo latente" (o tal) solo en algún momento y tentativamente .
La multiplicación de las cargas es lo que explica (restaura) la correlación, o la correlación en forma de covarianza, si el análisis se basó en la matriz de covarianza (como en nuestro ejemplo) en lugar de la matriz de correlación. El análisis factorial que hice con los datos arrojó a_1=.87352, a_2=.84528
, por lo que el producto a_1*a_2 = .73837
es casi igual a la covarianza .73915
. Por otro lado, las cargas de PCA fueron a1_1=.97497, a1_2=.89832
, por lo que se a1_1*a1_2 = .87584
sobreestima .73915
considerablemente.
Habiendo explicado la principal distinción teórica entre PCA y FA, volvamos a nuestros datos para ejemplificar la idea.
FA: solución aproximada (puntajes de factores)
A continuación se muestra el diagrama de dispersión que muestra los resultados del análisis que llamaremos provisionalmente "análisis factor subóptimo", Fig.3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
Ver salidas de la Fig.2 de PCA. La nube beige de los errores no es redonda, es diagonalmente elíptica, pero evidentemente es mucho más gruesa que la delgada línea diagonal que se ha producido en la PCA. Tenga en cuenta también que los conectores de error (mostrados para algunos puntos) ya no son paralelos (en PCA, por definición eran paralelos a P2). Además, si observa, por ejemplo, los puntos "F" y "E" que se encuentran simétricamente sobre el eje F del factor , encontrará, inesperadamente, que sus puntajes de factor correspondientes son valores bastante diferentes. En otras palabras, los puntajes de los factores no son solo puntajes de componentes principales transformados linealmente: el factor F se encuentra a su manera diferente de P1. Y sus ejes no coinciden completamente si se muestran juntos en la misma gráfica Fig.4 :
Además de que tienen una orientación un poco diferente, F (en mosaico con puntajes) es más corto, es decir, representa una variación menor que las cuentas P1. Como se señaló anteriormente, el factor solo tiene en cuenta la variabilidad que es responsable de la correlación de V1 V2, es decir, la porción de la varianza total que es suficiente para llevar las variables de la covarianza primitiva 0
a la covarianza objetiva .73915
.
FA: solución óptima (factor verdadero)
Una solución de factor óptima es cuando los errores son redondos o elípticos no diagonales: E1 y E2 no están correlacionados . El análisis factorial en realidad devuelve una solución tan óptima. No lo mostré en un diagrama de dispersión simple como los de arriba. ¿Por qué lo hice? Porque habría sido lo más interesante, después de todo.
La razón es que sería imposible mostrar en un diagrama de dispersión lo suficientemente adecuado, incluso adoptando un diagrama 3D. Es un punto bastante interesante en teoría. Para que E1 y E2 no estén correlacionados por completo, parece que estas tres variables, F, E1, E2 no tienen que estar en el espacio (plano) definido por V1, V2; y los tres no deben estar correlacionados entre sí . Creo que es posible dibujar un diagrama de dispersión en 5D (y tal vez con algún truco, en 4D), pero vivimos en el mundo 3D, por desgracia. El factor F no debe estar correlacionado con E1 y E2 (mientras que los dos tampoco están correlacionados) porque se supone que F es la única fuente de correlación (limpia) y completa en los datos observados. El análisis factorial divide la varianza total dep
variables de entrada en dos partes no correlacionadas (no superpuestas): la parte de comunalidad ( m
-dimensional, donde m
los factores comunes gobiernan) y la parte de unicidad ( p
-dimensional, donde los errores son, también llamados factores únicos, mutuamente no correlacionados).
Así que perdón por no mostrar el verdadero factor de nuestros datos en un diagrama de dispersión aquí. Podría visualizarse de manera bastante adecuada a través de vectores en el "espacio de sujeto" como se hace aquí sin mostrar puntos de datos.
Arriba, en la sección "La idea de FA común (característica latente)", visualicé el factor (eje F) como una cuña para advertir que el eje del factor verdadero no se encuentra en el plano V1 V2. Eso significa que, en contraste con el componente principal P1, el factor F como eje no es una rotación del eje V1 o V2 en su espacio, y F como variable no es una combinación lineal de las variables V1 y V2. Por lo tanto, F se modela (extrae de las variables V1 v2) como si fuera una variable externa e independiente, no una derivación de ellas. Las ecuaciones como la ecuación 1 desde donde comienza la PCA no son aplicables para calcular el factor verdadero (óptimo) en el análisis factorial, mientras que las ecuaciones formalmente isomórficas Eq.2 y Eq.3son válidos para ambos análisis. Es decir, en PCA las variables generan componentes y los componentes vuelven a predecir variables; en factor (es) FA (s) generan / predicen variables, y no regresan - el modelo de factor común conceptualmente asume que sí , aunque técnicamente los factores se extraen de las variables observadas.
No solo el factor verdadero no es una función de las variables manifiestas, los valores del factor verdadero no están definidos de manera exclusiva . En otras palabras, son simplemente desconocidos. Todo esto se debe al hecho de que estamos en el espacio analítico 5D excesivo y no en el espacio 2D de datos de nuestro hogar. Solo tenemos buenas aproximaciones ( existen varios métodos ) a valores de factores verdaderos, llamados puntajes de factores , para nosotros. Los puntajes de los factores se encuentran en el plano V1 V2, al igual que los puntajes de los componentes principales, también se calculan como las funciones lineales de V1, V2, y si fueranque tracé en la sección "FA: solución aproximada (puntajes de factores)". Los puntajes de los componentes principales son valores de componentes verdaderos; los puntajes de los factores son solo una aproximación razonable a los valores de los factores verdaderos indeterminados.
FA: resumen del procedimiento
a
Por lo tanto, la "solución factorial" mostrada por mí en la sección "FA: solución aproximada (puntajes factoriales)" se basó en realidad en cargas óptimas, es decir, en factores verdaderos. Pero los puntajes no fueron óptimos, por destino. Los puntajes se calculan como una función lineal de las variables observadas, como lo son los puntajes de los componentes, por lo que ambos podrían compararse en un diagrama de dispersión y lo hice en una búsqueda didáctica para mostrar como un paso gradual de la idea PCA hacia la idea FA.
Hay que tener cuidado al graficar en las mismas cargas de factores biplot con puntajes de factores en el "espacio de factores", tener en cuenta que las cargas pertenecen a factores verdaderos mientras que las puntuaciones pertenecen a factores sustitutos (vea mis comentarios a esta respuesta en este hilo).
La rotación de factores (cargas) ayuda a interpretar las características latentes. La rotación de las cargas se puede hacer también en PCA si usa PCA como si fuera un análisis factorial (es decir, vea PCA como predicción variable). PCA tiende a converger en los resultados con FA a medida que crece el número de variables (vea el hilo extremadamente rico en similitudes y diferencias prácticas y conceptuales entre los dos métodos). Vea mi lista de diferencias entre PCA y FA al final de esta respuesta . Aquí se encuentran los cálculos paso a paso de PCA vs FA en el conjunto de datos de iris . Hay un número considerable de buenos enlaces a las respuestas de otros participantes sobre el tema fuera de este hilo; Lo siento, solo usé algunos de ellos en la respuesta actual.
Vea también una lista con viñetas de las diferencias entre PCA y FA aquí .