PCA es principalmente una técnica de reducción de datos donde el objetivo es obtener una proyección de datos en un espacio dimensional inferior. Dos objetivos equivalentes son maximizar de manera iterativa la varianza o minimizar el error de reconstrucción. En realidad, esto se resuelve con algunos detalles en las respuestas a esta pregunta anterior .
En contraste, el análisis factorial es principalmente un modelo generativo de un -dimensional vector de datos diciendo que
donde es la vector dimensional de factores latentes, es con y es un vector de errores no correlacionados. La matriz es la matriz de cargas factoriales . Esto produce una parametrización especial de la matriz de covarianza como
El problema con este modelo es que está sobreparamizado. Se obtiene el mismo modelo si se reemplaza porpX
X=AS+ϵ
SqAp×kk<pϵAΣ=AAT+D
AAR para cualquier matriz ortogonal , lo que significa que los factores en sí no son únicos. Existen varias sugerencias para resolver este problema, pero hay
no una solución única que le da factores con el tipo de interpretación que pide. Una opción popular es la rotación
varimax . Sin embargo, el criterio utilizado solo determina la rotación. El espacio de columna abarcado por no cambia, y dado que esto es parte de la parametrización, se determina por cualquier método que se use para estimar , por ejemplo, por la máxima probabilidad en un modelo gaussiano.
k×kRAΣ
Por lo tanto, para responder la pregunta, los factores elegidos no se dan automáticamente al usar un modelo de análisis factorial, por lo que no hay una interpretación única de los primeros factores. Debe especificar el método utilizado para estimar (el espacio de columna de) y el método utilizado para elegir la rotación. Si (todos los errores tienen la misma varianza), la solución MLE para el espacio de la columna de es el espacio abarcado por los principales vectores componentes principales, que se pueden encontrar mediante una descomposición de valores singulares. Por supuesto, es posible elegir no rotar e informar estos vectores componentes principales como factores. kAD=σ2IAq
Editar: para enfatizar cómo lo veo, el modelo de análisis factorial es un modelo de la matriz de covarianza como una matriz de rango más una matriz diagonal. Por lo tanto, el objetivo con el modelo es explicar mejor la covarianza con dicha estructura en la matriz de covarianza. La interpretación es que dicha estructura en la matriz de covarianza es compatible con un factor dimensional no observado . Desafortunadamente, los factores no pueden recuperarse de manera única, y la forma en que pueden elegirse dentro del conjunto de posibles factores no se relaciona de ninguna manera con la explicación de los datos. Como es el caso con PCA, uno puede estandarizar los datos por adelantado y así ajustar un modelo que intenta explicar la matriz de correlación como un rango más una matriz diagonal. kkk