PCA y análisis factorial exploratorio en el mismo conjunto de datos: diferencias y similitudes; modelo de factor vs PCA

Me gustaría saber si tiene sentido lógico realizar el análisis de componentes principales (PCA) y el análisis factorial exploratorio (EFA) en el mismo conjunto de datos. He escuchado a profesionales recomendar expresamente:

Comprenda cuál es el objetivo del análisis y elija PCA o EFA para el análisis de datos;
Habiendo hecho un análisis, no hay necesidad de hacer el otro análisis.

Entiendo las diferencias motivacionales entre los dos, pero me preguntaba si hay algo malo en interpretar los resultados proporcionados por PCA y EFA al mismo tiempo.

pca factor-analysis

— usuario42538
fuente

¿Por qué la inseguridad? Si comprende las diferencias motivacionales entre los dos, debe estar en una de dos posiciones: considérelos como complementarios y esté dispuesto a explorar ambos. Considera uno mucho más convincente por lo que quieres hacer. Parece que quiere que le digan que hay algo correcto que hacer, pero PCA con o contra FA es un área de controversia tan antigua que si dos expertos están de acuerdo, generalmente es solo que ambos están en desacuerdo con un tercer experto, pero por diferentes razones.

— Nick Cox

¿Qué estás estudiando? ¿Algunas ciencias sociales como la felicidad o datos objetivos como las tasas de interés?

— Aksakal

Ambos modelos, el componente principal y el factor común , son modelos regresivos lineales lineales similares que predicen las variables observadas por variables latentes. Tengamos las variables centradas V1 V2 ... Vp y elegimos extraer 2 componentes / factores FI y FII . Entonces el modelo es el sistema de ecuaciones:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

donde el coeficiente a es una carga, F es un factor o un componente, y la variable E son los residuos de regresión. Aquí, el modelo FA difiere del modelo PCA exactamente porque el FA impone el requisito: las variables E1 E2 ... Ep (los términos de error que no están correlacionados con las F s) no deben correlacionarse entre sí ( ver fotos ). Estas variables de error FA llaman "factores únicos"; se conocen sus variaciones ("unicidades") pero no se conocen sus valores de mayúsculas y minúsculas. Por lo tanto, los puntajes de factor F se calculan solo como buenas aproximaciones, no son exactos.

(Una presentación de álgebra matricial de este modelo de análisis factorial común se encuentra en la nota ). $^1$

Mientras que en PCA las variables de error de predecir diferentes variables pueden correlacionarse libremente: no se les impone nada. Representan esa "escoria" para la que hemos tomado las dimensiones p-2 omitidas. Conocemos los valores de E, por lo que podemos calcular las puntuaciones de los componentes F como valores exactos.

Esa fue la diferencia entre el modelo PCA y el modelo FA.

Es debido a la diferencia descrita anteriormente, que FA puede explicar correlaciones por pares (covarianzas). PCA generalmente no puede hacerlo (a menos que el número de componentes extraídos = p ); solo puede explicar la varianza multivariante . Por lo tanto, siempre que el término "Análisis factorial" se defina mediante el objetivo de explicar las correlaciones, PCA no es análisis factorial. Si el "análisis factorial" se define más ampliamente como un método que proporciona o sugiere "rasgos" latentes que podrían interpretarse, la PCA puede verse como una forma especial y más simple de análisis factorial. $^2$

A veces , en algunos conjuntos de datos bajo ciertas condiciones, PCA deja términos E que casi no se correlacionan. Entonces PCA puede explicar correlaciones y convertirse en FA. No es muy raro con conjuntos de datos con muchas variables. Esto hizo que algunos observadores afirmaran que los resultados de PCA se acercan a los resultados de FA a medida que crecen los datos. No creo que sea una regla, pero la tendencia puede serlo. De todos modos, dadas sus diferencias teóricas, siempre es bueno seleccionar el método conscientemente. FA es un modelo más realista si desea reducir las variables a latentes, que considerará como rasgos latentes reales detrás de las variables y hacerlas correlacionar.

Pero si tiene otro objetivo: reducir la dimensionalidad mientras mantiene las distancias entre los puntos de la nube de datos tanto como sea posible, PCA es mejor que FA. (Sin embargo, el procedimiento de escalamiento multidimensional iterativo (MDS) será aún mejor entonces. PCA equivale a MDS métrico no iterativo). Si además no se molesta demasiado con las distancias y está interesado solo en preservar la mayor parte de la varianza general de los datos como sea posible, por pocas dimensiones: PCA es una opción óptima.

Modelo de datos de análisis factorial: , donde esdatos analizados (columnas centradas o estandarizadas), sonvalores de factores comunes (los verdaderos desconocidos, no puntajes de factores) con unidad varianza, es unamatriz de cargas de factores comunes (matriz de patrones), sonvalores de factores únicos (desconocidos), es elvector de las cargas de factores únicos iguales a la raíz cuadrada de las unicidades ( ). Parte $^1$ $\mathbf {V=FA'+E}diag \bf(u)$ $\bf V$ n cases x p variables $\bf F$ n x m $\bf A$ p x m $\bf E$ n x p $\bf u$ p $\bf u^2$ podría simplemente etiquetarse como "E" por simplicidad, como lo es en las fórmulas que abren la respuesta. $\mathbf E diag \bf(u)$

Principales supuestos del modelo:

variables y (factores comunes y únicos, respectivamente) tienen medias cero y variaciones unitarias; Por lo general, se supone que es multivariante normal, pero en el caso general no necesita ser multivariante normal (si se supone que ambos son multivariados normales, entonces también lo es); $\bf F$ $\bf E$ $\bf E$ $\bf F$ $\bf V$
variables no están correlacionadas entre sí y no están correlacionadas con lasvariables $\bf E$ $\bf F$

Delmodelo deanálisis factorialcomún se deduceque las cargas demfactores comunes (m< $^2$ $\bf A$ p variables), también denotadas , deben reproducir de cerca las covarianzas observadas (o correlaciones) entre las variables, . De modo que si los factores son ortogonales, el teorema del factor fundamental establece que $\bf A_{(m)}$ $\bf \Sigma$

y $\bf \hat{\Sigma} = AA'$ , $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$

dónde es la matriz de covarianzas que se reproducen (o correlaciones) con varianzas comunes ( "comunalidad") en su diagonal; y las variaciones únicas ("unicidades"), que son variaciones menos comunalidades, son el vector. La discrepancia fuera de la diagonal () se debe a que los factores son un modelo teórico que genera datos y, como tal, es más simple que los datos observados sobre los que se construyó. Las principales causas de la discrepancia entre las covarianzas (o correlaciones) observadas y reproducidas pueden ser: (1) el número de factoresmno es estadísticamente óptimo; (2) correlaciones parciales (estas son $\bf \hat{\Sigma}$ $\bf u^2$ $\approx$ p(p-1)/2los factores que no pertenecen a factores comunes) son pronunciados; (3) comunalidades mal evaluadas, sus valores iniciales habían sido pobres; (4) las relaciones no son lineales, el uso del modelo lineal es cuestionable; (5) el "subtipo" modelo producido por el método de extracción no es óptimo para los datos (ver acerca de los diferentes métodos de extracción ). En otras palabras, algunos supuestos de datos de FA no se cumplen por completo.

En cuanto a la PCA simple , reproduce las covarianzas por las cargas exactamente cuando m = p (se utilizan todos los componentes) y generalmente no lo hace si m < p (solo se conservan algunos componentes). El teorema del factor para PCA es:

, $\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$

entonces, tanto las cargas cargas caídas son mezclas de comunalidades y unicidades, y ninguna de las dos puede ayudar individualmente a restaurar las covarianzas. Cuanto más cerca esté m de p , mejor PCA restaura las covarianzas, por regla general, pero una m pequeña (que a menudo es de nuestro interés) no ayuda. Esto es diferente de FA, que está destinado a restaurar las covarianzas con un número óptimo bastante pequeño de factores. Si acerca a la diagonalidad, PCA se convierte en FA, con $\bf A_{(m)}$ $\bf A_{(p-m)}$ $\bf AA'_{(p-m)}$ restaurar todas las covarianzas. Ocurre ocasionalmente con PCA, como ya he mencionado. Pero PCA carece de capacidad algorítmica para forzar tal diagonalización. Son los algoritmos FA quienes lo hacen. $\bf A_{(m)}$

FA, no PCA, es un modelo de generación de datos: supone pocos factores comunes "verdaderos" (de un número generalmente desconocido, por lo que prueba m dentro de un rango) que generan valores "verdaderos" para las covarianzas. Las covarianzas observadas son las "verdaderas" + ruido aleatorio pequeño. (Debido a la diagonalización realizada que dejó a como único restaurador de todas las covarianzas, el ruido anterior puede ser pequeño y aleatorio). Intentar ajustar más factores que cantidades óptimas al intento de sobreajuste, y no necesariamente a un intento de sobreajuste eficiente . $\bf A_{(m)}$

Tanto FA como PCA apuntan a maximizar , pero para PCA es el único objetivo; para FA es el objetivo concomitante, el otro es diagonalizar las singularidades. Ese rastro es la suma de valores propios en PCA. Algunos métodos de extracción en FA agregan objetivos más concomitantes a expensas de maximizar la traza, por lo que no es de importancia principal. $trace(\bf A'A_{(m)})$

Para resumir las diferencias explicadas entre los dos métodos. FA apunta ( directa o indirectamente ) a minimizar las diferencias entre los elementos individuales fuera de la diagonal correspondientes de y . Un modelo FA exitoso es el que deja errores para las covarianzas pequeñas y de tipo aleatorio (normal o uniforme alrededor de 0, sin valores atípicos / colas gruesas). PCA solo maximiza que es igual a (y $\bf \Sigma$ $\bf AA'$ $trace(\bf AA')$ $trace(\bf A'A)$ es igual a la matriz de covarianza de los componentes principales, que es una matriz diagonal). Por lo tanto, PCA no está "ocupado" con todas las covarianzas individuales: simplemente no puede, siendo simplemente una forma de rotación ortogonal de datos. $\bf A'A$

Gracias a la maximización de la traza - la varianza explicada por m componentes - PCA se Contabilización de las covarianzas, ya que la covarianza es compartida varianza. En este sentido, PCA es "aproximación de bajo rango" de toda la matriz de variables de covarianza. Y cuando se ve desde el punto de vista de las observaciones, esta aproximación es la aproximación de la matriz de observaciones de distancia euclidiana (razón por la cual PCA es un MDS métrico llamado "Análisis de coordenadas principal). Este hecho no debería excluirnos de la realidad de que PCA no modela matriz de covarianza (cada covarianza) generada por pocos rasgos latentes vivos que son imaginables como trascendentes hacia nuestras variables; la aproximación PCA permanece inmanente, incluso si es buena: es la simplificación de los datos.

Si desea ver los cálculos paso a paso realizados en PCA y FA, comentados y comparados, mire aquí .

— ttnphns
fuente

Es una excelente respuesta.

— Subhash C. Davar

+1 por traerme una nueva perspectiva de ver PCA. Ahora, según tengo entendido, tanto PCA como FA pueden explicar la varianza de las variables observadas, y dado que FA dicta que los términos de error para cada variable no deben estar correlacionados, mientras que PCA no hace dicho dictado, entonces FA puede capturar toda la covarianza en las variables observadas, pero PCA no puede hacer eso, porque en PCA los términos de error también pueden contener alguna covarianza de las variables observadas, a menos que usemos toda la PC para representar las variables observadas, ¿verdad?

— aguacate

Exactamente. PCA no solo puede subestimar un valor de covarianza (como probablemente piense), sino que también puede sobreestimarlo. En resumen, a1 * a2 <> Cov12, que es un comportamiento normal para PCA. Para FA, ese sería el signo de una solución subóptima (por ejemplo, un número incorrecto de factores extraídos).

— ttnphns

Σ = W W^{⊤} + σ^{2} I

$\Sigma = WW^\top+\sigma^2 I$

Σ = W W^{⊤} + Ψ

$\Sigma = WW^\top+\Psi$

Ψ

$\Psi$

— ameba dice Reinstate Monica

Σ

$\Sigma$

W W^{'}

$WW'$

W

$W$

Ψ

$\Psi$

σ^{2}

$\sigma^2$

Proporcioné mi propia cuenta de las similitudes y diferencias entre PCA y FA en el siguiente hilo: ¿Hay alguna buena razón para usar PCA en lugar de EFA? Además, ¿puede la PCA ser un sustituto del análisis factorial?

Tenga en cuenta que mi cuenta es algo diferente de la de @ttnphns (como se presenta en su respuesta anterior). Mi principal afirmación es que PCA y FA no son tan diferentes como a menudo se piensa. De hecho, pueden diferir mucho cuando el número de variables es muy bajo, pero tienden a producir resultados bastante similares una vez que el número de variables supera la docena. Vea mi respuesta [¡larga!] En el hilo vinculado para obtener detalles matemáticos y simulaciones de Monte Carlo. Para una versión mucho más concisa de mi argumento, vea aquí: ¿ Bajo qué condiciones PCA y FA producen resultados similares?

Aquí me gustaría responder explícitamente a su pregunta principal: ¿Hay algo de malo en realizar PCA y FA en el mismo conjunto de datos?Mi respuesta a esto es: No.

Cuando ejecuta PCA o FA, no está probando ninguna hipótesis. Ambos son exploratorios. técnicas que se utilizan para comprender mejor los datos. Entonces, ¿por qué no explorar los datos con dos herramientas diferentes? De hecho, ¡hagámoslo!

Ejemplo: conjunto de datos de vino

Como ilustración, utilicé un conjunto de datos de vino bastante conocido con $n=178$ vinos de tres uvas diferentes descritas por $p=13$ variables Vea mi respuesta aquí: ¿Cuáles son las diferencias entre el análisis factorial y el análisis de componentes principales? para detalles de modo, pero brevemente: ejecuté el análisis PCA y FA e hice biplots 2D para ambos. Uno puede ver fácilmente que la diferencia es mínima:

Análisis PCA y FA del conjunto de datos del vino.

— ameba dice Reinstate Monica
fuente

If the results turn out to be very similar, then you can decide to stick with only one approach. Seguro. ¿Qué tanto similar entonces? If the results turn out to be very different, then maybe it tells you something about your dataEso es perfectamente místico y esotérico.

— ttnphns

Hmmm, perdón si no estaba claro. Lo que quise decir es que si hay muchas variables y PCA produce cargas muy diferentes de FA, nos dice algo. Quizás, las comunalidades son muy bajas (es decir, la matriz de correlación está dominada por la diagonal, y los elementos fuera de la diagonal son pequeños). Esta puede ser una observación interesante. Si por alguna razón analizara el mismo conjunto de datos con PCA y FA y obtuviera resultados muy diferentes, lo investigaría más a fondo. ¿Tiene sentido?

— ameba dice Reinstate Monica

@ttnphns: hice una actualización con un ejemplo resuelto para un conjunto de datos en particular. ¡Espero que lo disfrute! Vea también mi respuesta vinculada (nueva). Es la primera vez que hice un biplot FA, y nuestras conversaciones anteriores me ayudaron mucho para eso.

— ameba dice Reinstate Monica