El análisis factorial es esencialmente un modelo de regresión lineal (restringido). En este modelo, cada variable analizada es la variable dependiente, los factores comunes son los IV y el factor único implícito sirve como término de error. (El término constante se establece en cero debido al centrado o la estandarización que están implicados en el cálculo de covarianzas o correlaciones). Entonces, exactamente como en la regresión lineal, podría existir una suposición "fuerte" de normalidad: los IV (factores comunes) son normales multivariados y los errores (factor único) son normales, lo que automáticamente lleva a que el DV sea normal; y suposición de normalidad "débil": los errores (factor único) son normales solamente, por lo tanto, el DV no necesita ser normal. Tanto en regresión como en FA generalmente admitimos suposición "débil" porque es más realista.
Entre los métodos clásicos de extracción de FA, solo el método de máxima verosimilitud, ya que se aparta de las características de la población, establece que las variables analizadas son multivariadas normales. Los métodos como los ejes principales o los residuos mínimos no requieren esta suposición "fuerte" (aunque puede hacerlo de todos modos).
Recuerde que incluso si sus variables son normales por separado, no necesariamente garantiza que sus datos sean multivariados normales.
Aceptemos la suposición "débil" de normalidad. ¿Cuál es la amenaza potencial que proviene de datos muy sesgados, como el suyo? Es un caso atípico. Si la distribución de una variable es fuertemente asimétrica, la cola más larga se vuelve más influyente en el cálculo de correlaciones o covarianzas, y simultáneamente provoca aprensión sobre si aún mide la misma construcción psicológica (el factor) que la cola más corta. Puede ser prudente comparar si las matrices de correlación construidas en la mitad inferior y la mitad superior de la escala de calificación son similares o no. Si son lo suficientemente similares, puede concluir que ambas colas miden lo mismo y no transforman sus variables. De lo contrario, debe considerar la transformación o alguna otra acción para neutralizar el efecto de la cola larga "atípica".
Las transformaciones son muchas. Por ejemplo, elevar a una potencia> 1 o exponenciación se utilizan para datos sesgados a la izquierda, y potencia <1 o logaritmo, para sesgos a la derecha. Mi propia experiencia dice que la llamada transformación óptima mediante PCA categórica realizada antes de FA es casi siempre beneficiosa, ya que generalmente conduce a factores más claros e interpretables en FA; bajo el supuesto de que se conoce el número de factores, transforma sus datos de forma no lineal para maximizar la varianza general que representa ese número de factores.