Ambos modelos, el componente principal y el factor común , son modelos regresivos lineales lineales similares que predicen las variables observadas por variables latentes. Tengamos las variables centradas V1 V2 ... Vp y elegimos extraer 2 componentes / factores FI y FII . Entonces el modelo es el sistema de ecuaciones:
V1=a1IFI+a1IIFII+E1
V2=a2IFI+a2IIFII+E2
...
Vp=…
donde el coeficiente a es una carga, F es un factor o un componente, y la variable E son los residuos de regresión. Aquí, el modelo FA difiere del modelo PCA exactamente porque el FA impone el requisito: las variables E1 E2 ... Ep (los términos de error que no están correlacionados con las F s) no deben correlacionarse entre sí ( ver fotos ). Estas variables de error FA llaman "factores únicos"; se conocen sus variaciones ("unicidades") pero no se conocen sus valores de mayúsculas y minúsculas. Por lo tanto, los puntajes de factor F se calculan solo como buenas aproximaciones, no son exactos.
(Una presentación de álgebra matricial de este modelo de análisis factorial común se encuentra en la nota 1 ).1
Mientras que en PCA las variables de error de predecir diferentes variables pueden correlacionarse libremente: no se les impone nada. Representan esa "escoria" para la que hemos tomado las dimensiones p-2 omitidas. Conocemos los valores de E, por lo que podemos calcular las puntuaciones de los componentes F como valores exactos.
Esa fue la diferencia entre el modelo PCA y el modelo FA.
Es debido a la diferencia descrita anteriormente, que FA puede explicar correlaciones por pares (covarianzas). PCA generalmente no puede hacerlo (a menos que el número de componentes extraídos = p ); solo puede explicar la varianza multivariante 2 . Por lo tanto, siempre que el término "Análisis factorial" se defina mediante el objetivo de explicar las correlaciones, PCA no es análisis factorial. Si el "análisis factorial" se define más ampliamente como un método que proporciona o sugiere "rasgos" latentes que podrían interpretarse, la PCA puede verse como una forma especial y más simple de análisis factorial.2
A veces , en algunos conjuntos de datos bajo ciertas condiciones, PCA deja términos E que casi no se correlacionan. Entonces PCA puede explicar correlaciones y convertirse en FA. No es muy raro con conjuntos de datos con muchas variables. Esto hizo que algunos observadores afirmaran que los resultados de PCA se acercan a los resultados de FA a medida que crecen los datos. No creo que sea una regla, pero la tendencia puede serlo. De todos modos, dadas sus diferencias teóricas, siempre es bueno seleccionar el método conscientemente. FA es un modelo más realista si desea reducir las variables a latentes, que considerará como rasgos latentes reales detrás de las variables y hacerlas correlacionar.
Pero si tiene otro objetivo: reducir la dimensionalidad mientras mantiene las distancias entre los puntos de la nube de datos tanto como sea posible, PCA es mejor que FA. (Sin embargo, el procedimiento de escalamiento multidimensional iterativo (MDS) será aún mejor entonces. PCA equivale a MDS métrico no iterativo). Si además no se molesta demasiado con las distancias y está interesado solo en preservar la mayor parte de la varianza general de los datos como sea posible, por pocas dimensiones: PCA es una opción óptima.
Modelo de datos de análisis factorial: V = F A ' + E d i a g ( u ) , donde V esdatos analizados (columnas centradas o estandarizadas), F sonvalores de factores comunes (los verdaderos desconocidos, no puntajes de factores) con unidad varianza, A es unamatriz de cargas de factores comunes (matriz de patrones), E sonvalores de factores únicos (desconocidos), u es elvector de las cargas de factores únicos iguales a la raíz cuadrada de las unicidades ( u 2 ). Parte1V = F A′+ E dsoy un g( u )Vn cases x p variables
Fn x m
UNp x m
min x p
tup
tu2 podría simplemente etiquetarse como "E" por simplicidad, como lo es en las fórmulas que abren la respuesta.E dsoy un g( u )
Principales supuestos del modelo:
- variables F y E (factores comunes y únicos, respectivamente) tienen medias cero y variaciones unitarias;
Por lo general, se supone que E es multivariante normal, pero F en el caso general no necesita ser multivariante normal (si se supone que ambos son multivariados normales, entonces V también lo es);FmiEFV
- variables E no están correlacionadas entre sí y no están correlacionadas con lasvariables F.EF
Delmodelo deanálisis factorialcomún se deduceque las cargas A demfactores comunes (m<2 A p variables), también denotadas , deben reproducir de cerca las covarianzas observadas (o correlaciones) entre las variables, Σ . De modo que si los factores son ortogonales, el teorema del factor fundamental establece queA(m)Σ
yΣ≈Σ^=AA′,Σ≈Σ^+diag(u2)
dónde es la matriz de covarianzas que se reproducen (o correlaciones) con varianzas comunes ( "comunalidad") en su diagonal; y las variaciones únicas ("unicidades"), que son variaciones menos comunalidades, son el vectoru2. La discrepancia fuera de la diagonal (≈) se debe a que los factores son un modelo teórico que genera datos y, como tal, es más simple que los datos observados sobre los que se construyó. Las principales causas de la discrepancia entre las covarianzas (o correlaciones) observadas y reproducidas pueden ser: (1) el número de factoresmno es estadísticamente óptimo; (2) correlaciones parciales (estas sonΣ^u2≈p(p-1)/2
los factores que no pertenecen a factores comunes) son pronunciados; (3) comunalidades mal evaluadas, sus valores iniciales habían sido pobres; (4) las relaciones no son lineales, el uso del modelo lineal es cuestionable; (5) el "subtipo" modelo producido por el método de extracción no es óptimo para los datos (ver acerca de los diferentes métodos de extracción ). En otras palabras, algunos supuestos de datos de FA no se cumplen por completo.
En cuanto a la PCA simple , reproduce las covarianzas por las cargas exactamente cuando m = p (se utilizan todos los componentes) y generalmente no lo hace si m < p (solo se conservan algunos componentes). El teorema del factor para PCA es:
,Σ=AA′(p)=AA′(m)+AA′(p−m)
entonces, tanto las cargas cargas A ( p - m ) caídas son mezclas de comunalidades y unicidades, y ninguna de las dos puede ayudar individualmente a restaurar las covarianzas. Cuanto más cerca esté m de p , mejor PCA restaura las covarianzas, por regla general, pero una m pequeña (que a menudo es de nuestro interés) no ayuda. Esto es diferente de FA, que está destinado a restaurar las covarianzas con un número óptimo bastante pequeño de factores. Si A A ' ( p - m ) se acerca a la diagonalidad, PCA se convierte en FA, con AA(m)A(p−m)AA′(p−m) restaurar todas las covarianzas. Ocurre ocasionalmente con PCA, como ya he mencionado. Pero PCA carece de capacidad algorítmica para forzar tal diagonalización. Son los algoritmos FA quienes lo hacen.A(m)
FA, no PCA, es un modelo de generación de datos: supone pocos factores comunes "verdaderos" (de un número generalmente desconocido, por lo que prueba m dentro de un rango) que generan valores "verdaderos" para las covarianzas. Las covarianzas observadas son las "verdaderas" + ruido aleatorio pequeño. (Debido a la diagonalización realizada que dejó a como único restaurador de todas las covarianzas, el ruido anterior puede ser pequeño y aleatorio). Intentar ajustar más factores que cantidades óptimas al intento de sobreajuste, y no necesariamente a un intento de sobreajuste eficiente .A(m)
Tanto FA como PCA apuntan a maximizar , pero para PCA es el único objetivo; para FA es el objetivo concomitante, el otro es diagonalizar las singularidades. Ese rastro es la suma de valores propios en PCA. Algunos métodos de extracción en FA agregan objetivos más concomitantes a expensas de maximizar la traza, por lo que no es de importancia principal.trace(A′A(m))
Para resumir las diferencias explicadas entre los dos métodos. FA apunta ( directa o indirectamente ) a minimizar las diferencias entre los elementos individuales fuera de la diagonal correspondientes de y A A ' . Un modelo FA exitoso es el que deja errores para las covarianzas pequeñas y de tipo aleatorio (normal o uniforme alrededor de 0, sin valores atípicos / colas gruesas). PCA solo maximiza t r a c e ( A A ′ ) que es igual a t r a c e ( A ′ A ) (yΣAA′trace(AA′)trace(A′A) es igual a la matriz de covarianza de los componentes principales, que es una matriz diagonal). Por lo tanto, PCA no está "ocupado" con todas las covarianzas individuales: simplemente no puede, siendo simplemente una forma de rotación ortogonal de datos.A′A
Gracias a la maximización de la traza - la varianza explicada por m componentes - PCA se Contabilización de las covarianzas, ya que la covarianza es compartida varianza. En este sentido, PCA es "aproximación de bajo rango" de toda la matriz de variables de covarianza. Y cuando se ve desde el punto de vista de las observaciones, esta aproximación es la aproximación de la matriz de observaciones de distancia euclidiana (razón por la cual PCA es un MDS métrico llamado "Análisis de coordenadas principal). Este hecho no debería excluirnos de la realidad de que PCA no modela matriz de covarianza (cada covarianza) generada por pocos rasgos latentes vivos que son imaginables como trascendentes hacia nuestras variables; la aproximación PCA permanece inmanente, incluso si es buena: es la simplificación de los datos.
Si desea ver los cálculos paso a paso realizados en PCA y FA, comentados y comparados, mire aquí .