¿Cuáles son los supuestos del análisis factorial?

Quiero verificar si realmente entendí el análisis factorial [clásico, lineal] (FA), especialmente los supuestos que se hacen antes (y posiblemente después) de FA.

Algunos de los datos deben estar inicialmente correlacionados y existe una posible relación lineal entre ellos. Después de hacer el análisis factorial, los datos se distribuyen normalmente (distribución bivariada para cada par) y no hay correlación entre factores (comunes y específicos), y no hay correlación entre las variables de un factor y las variables de otros factores.

¿Es correcto?

— Sihem
fuente

Respuestas:

Supuestos de datos de entrada de FA lineal (no estoy hablando aquí sobre supuestos / propiedades internas del modelo FA o sobre la verificación de la calidad de ajuste de los resultados ).

Escala (intervalo o relación) variables de entrada . Eso significa que los ítems son medidas continuas o se conceptualizan como continuos mientras se miden en una escala cuantitativa discreta. No hay datos ordinales en FA lineal ( lectura ). Los datos binarios también deben evitarse (ver esto , esto ). La FA lineal supone que los factores comunes y únicos latentes son continuos . Por lo tanto, las variables observadas que cargan también deben ser continuas.
Las correlaciones son lineales . La FA lineal se puede realizar en base a cualquier matriz de asociación de tipo SSCP : correlación de Pearson, covarianza, coseno, etc. (aunque algunos métodos / implementaciones pueden restringirse únicamente a las correlaciones de Pearson). Tenga en cuenta que estos son todos productos de álgebra lineal. A pesar de que la magnitud de un coeficiente de covarianza refleja más que solo linealidad en relación, el modelado en FA lineal es de naturaleza lineal incluso cuando se usan covarianzas: las variables son combinaciones lineales de factoresy por lo tanto la linealidad está implícita en las asociaciones resultantes. Si ve / piensa que prevalecen las asociaciones no lineales, no haga FA lineal ni intente linealizarlas primero mediante algunas transformaciones de los datos. Y no base FA lineal en correlaciones de Spearman o Kendall (Pt. 4 allí ).
Sin valores atípicos : es como con cualquier método no robusto. La correlación de Pearson y asociaciones similares de tipo SSCP son sensibles a los valores atípicos, así que tenga cuidado.
Razones razonablemente altas están presentes . FA es el análisis de correlación, ¿de qué sirve cuando todas o casi todas las correlaciones son débiles? - es inútil. Sin embargo, lo que es una "correlación razonablemente alta" depende del campo de estudio. También hay una pregunta interesante y variada sobre si se deben aceptar correlaciones muy altas (el efecto de ellas en PCA, por ejemplo, se discute aquí ). Para probar estadísticamente si los datos no están correlacionados , se puede usar la prueba de esfericidad de Bartlett .
Las correlaciones parciales son débiles y el factor puede estar suficientemente definido . FA supone que los factores son más generales que simplemente cargar pares de elementos correlacionados. De hecho, incluso hay un consejo para no extraer factores que carguen decentemente menos de 3 artículos en FA explotatorio; y en FA confirmatorio solo 3+ es una estructura identificada garantizada . Un problema técnico de extracción llamado caso Heywood tiene, como una de las razones detrás, la situación de muy pocos elementos en el factor. La "medida de adecuación muestral" de Kaiser-Meyer-Olkin ( KMO ) estima para usted cuán débiles son las correlaciones parciales en los datos en relación con las correlaciones completas; Se puede calcular para cada elemento y para toda la matriz de correlación.
Sin multicolinealidad . El modelo FA supone que todos los elementos poseen un factor único y esos factores son ortogonales. Por lo tanto, 2 elementos deben definir un plano, 3 elementos: un espacio 3d, etc.: los pvectores correlacionados deben abarcar el espacio p-dim para acomodar sus p componentes únicos mutuamente perpendiculares. Entonces, no hay singularidad por razones teóricas (y por lo tanto automáticamente , sin decirlo; y mejor ). Sin embargo, no se permite la multicolinealidad completa ; sin embargo, puede causar problemas computacionales en la mayoría de los algoritmos FA ( ver también). $^1$ n observations > p variablesn>>p
Distribución . En general, FA lineal no requiere normalidad de los datos de entrada. Distribuciones moderadamente sesgadas son aceptables. La bimodalidad no es una contraindicación. De hecho, se asume la normalidad para factores únicos en el modelo (sirven como errores regresivos), pero no para los factores comunes y los datos de entrada ( ver también). Aún así, la normalidad multivariada de los datos puede ser requerida como suposición adicional por algunos métodos de extracción (a saber, la máxima probabilidad) y realizando algunas pruebas asintóticas.

$^1$ Los métodos ULS / minres de FA pueden funcionar con una matriz de correlación singular e incluso no psd, pero estrictamente teóricamente este análisis es dudoso, para mí.

— ttnphns
fuente

, podrías leer esta publicación , parecía un poco diferente.

— WhiteGirl

Si Binary data should also be avoided, ¿para qué otro método de análisis factorial podemos hacer binary data?

— kittygirl

queridos ttnphns; Noté que no menciona que los datos se suponen normales y otros en línea indican que no se requiere normalidad. Mi pregunta es si las variables latentes se suponen normales, y las observaciones se modelan como una suma ponderada de los factores, ¿entonces esto no implica una distribución normal en las observaciones? (Lo siento, estoy seguro de que esta es una pregunta tonta)

— user2957945

@ user2957945, el párrafo 7 dice acerca de la normalidad. El supuesto de normalidad es necesario para algunos métodos de extracción de factores y para realizar algunas pruebas estadísticas que acompañan facultativamente el análisis factorial. A su pregunta: Sí, si los factores se distribuyen normalmente y los errores también normalmente, eso significará que las variables de manifiesto también son normales.

— ttnphns

ah, gracias @ttnphns; lamento molestarlo, no sé cómo logré perder eso. Aprecio tu ayuda.

— user2957945

Gran parte del tiempo, el análisis factorial se realiza sin pruebas estadísticas per se. Es mucho más subjetivo e interpretativo que métodos como la regresión, el modelado de ecuaciones estructurales, etc. Y, en general, las pruebas inferenciales vienen con supuestos: para que los valores de p y los intervalos de confianza sean correctos, esos supuestos deben cumplirse.

Ahora, si el método para elegir el número de factores se establece como el método de máxima verosimilitud, entonces se supone que las variables introducidas en el análisis factorial tendrán distribuciones normales.

El hecho de que las variables de entrada tengan correlaciones distintas de cero es una especie de suposición, ya que sin ser cierto, los resultados del análisis factorial serán (probablemente) inútiles: no surgirá ningún factor como la variable latente detrás de un conjunto de variables de entrada.

En la medida en que "no haya correlación entre factores (comunes y específicos), y no haya correlación entre variables de un factor y variables de otros factores", estos no son supuestos universales que hacen los analistas de factores, aunque a veces sea una condición (o una aproximación) de eso) podría ser deseable. Este último, cuando se sostiene, se conoce como "estructura simple".

Hay otra condición que a veces se trata como una "suposición": que las correlaciones parciales de orden cero (vainilla) entre las variables de entrada no se vean afectadas por grandes correlaciones parciales. En pocas palabras, esto significa que las relaciones deben ser fuertes para algunas parejas y débiles para otras; de lo contrario, los resultados serán "turbios". Esto está relacionado con la conveniencia de una estructura simple y en realidad puede evaluarse (aunque no "probarse" formalmente) utilizando el estadístico Kaiser-Meyer-Olkin o el KMO. Los valores de KMO cercanos a .8 o .9 generalmente se consideran muy prometedores para los resultados de análisis de factores informativos, mientras que los KMO cercanos a .5 o .6 son mucho menos prometedores, y los que están por debajo de .5 podrían incitar a un analista a repensar su estrategia.

— rolando2
fuente

Mientras leo, ese análisis factorial comienza con cierta correlación con las variables y tratamos de hacer que esta correlación sea cada vez más clara

— Sihem

Después de la aplicación del análisis factorial, si hemos utilizado la rotación ortogonal, nos aseguraremos de que no haya correlación entre los factores

— Sihem

Los supuestos que subyacen al análisis factorial exploratorio son:
• Nivel de medición de intervalo o razón
• Muestreo aleatorio
• La relación entre las variables observadas es lineal
• Una distribución normal (cada variable observada)
• Una distribución normal bivariada (cada par de variables observadas)
• Normalidad multivariada
Arriba de el archivo SAS

— Chris Kelly
fuente