¿Siempre es mejor extraer más factores cuando existen?

A diferencia del análisis de componentes principales, las soluciones para los modelos de análisis factorial no están necesariamente anidadas. Es decir, las cargas (por ejemplo) para el primer factor no serán necesariamente idénticas cuando solo se extrae el primer factor frente a cuando lo son los dos primeros factores.

Con eso en mente, considere un caso en el que tenga un conjunto de variables manifiestas que estén altamente correlacionadas y (por el conocimiento teórico de su contenido) deba estar impulsado por un solo factor. Imagine que los análisis factoriales exploratorios (según la métrica que prefiera: análisis paralelo, diagrama de pantalla, valores propios> 1, etc.) sugieren fuertemente que hay factores: un factor primario grande y un factor secundario pequeño. Está interesado en utilizar las variables de manifiesto y la solución de factores para estimar (es decir, obtener puntajes de factores) los valores de los participantes para el primer factor. En este escenario, sería mejor: $2$

Ajuste un modelo de factor para extraer solo factor y obtenga puntajes de factor (etc.), o $1$
ajustar un modelo de factores para extraer ambos factores, obtener puntajes de factores para los factores, pero descartar / ignorar los puntajes del segundo factor?

Para cualquiera que sea la mejor práctica, ¿por qué? ¿Hay alguna investigación sobre este tema?

references factor-analysis psychometrics

— gung - Restablece a Monica
fuente

No se debe confiar solo en los dispositivos heurísticos preanalíticos al elegir la cantidad de factores a extraer. Reproducción de correlaciones (¿cuánto mejor es cuando extrae 2 factores en lugar de 1?) ¿Cómo se distribuyen los residuos de correlación en esta y aquella solución? (normalmente deben ser uniformes o normales, sin cola derecha larga / gorda). Si los datos son normales, las pruebas de ajuste y st.error de cargas son computables (con extracción ML). Sobre la base de todo eso más la capacidad de interpretación, uno podría decidir si (1) o (2) la forma es mejor en el caso actual.

— ttnphns

(cont.) Finalmente, solo las muestras nuevas / FA confirmatoria pueden juzgar el dilema hasta el final. Una noción, sin embargo. Si el segundo factor es realmente débil (pequeñas cargas de SS después de la extracción), entonces no espero que las dos soluciones (y, por lo tanto, las puntuaciones del factor 1) difieran mucho. (Lo digo sin mucha confianza porque estoy comentando sin revisión. Pero, lógicamente, si el plano de factor está listo para degenerar en línea, los resultados deberían ser casi como con solo línea ...)

— ttnphns

El título Q Is is always better to extract more factors when they exist?no está muy claro. Siempre es mejor extraer tantos como existan. La falta de ajuste o el exceso de ajuste distorsionan la estructura latente "verdadera" debido a la naturaleza multivariada y no anidada del análisis mencionado por usted. El problema es que no sabemos exactamente cuántos factores hay en nuestros datos. Y si estos datos tienen tantos como la población tiene.

— ttnphns

@ttnphns, creo que su último comentario llega al meollo de la pregunta. Asuma los métodos que desee para convencerlo de que realmente hay 2 factores, 1 de los cuales representa casi toda la variación compartida, hasta e incluyendo CFA en una muestra nueva. El ajuste con 2 es despreciablemente mejor, pero mejor. Este es un ejemplo falso y artificial en aras de resaltar el problema. El problema subyacente podría ser usar 2 de 5.

— gung - Restablecer Monica

La pregunta es, dado que las soluciones no están anidadas, ¿qué enfoque le da una mejor estimación de la puntuación de cada participante en la variable latente, y por qué? ¿Está usando solo 1 sesgado, varía más del valor verdadero o ambos? ¿Eso sucede porque usar solo 1 es "falta de ajuste"? ¿Qué significa eso exactamente? ¿Es posible caracterizar la naturaleza de la distorsión? Alternativamente, podría haber esperado que extraer solo 1 permita que el análisis enfoque todos sus grados de libertad para obtener el 1o con la mayor precisión posible.

— gung - Restablece a Monica

Respuestas:

El tema al que te estás refiriendo es el tema de la 'unidimensionalidad aproximada' al construir instrumentos de pruebas psicológicas, que se discutió bastante en la lituratura en los años 80. La inspiración existió en el pasado porque los profesionales querían usar los modelos tradicionales de teoría de respuesta a ítems (IRT) para sus ítems, y en ese momento estos modelos de IRT se limitaban exclusivamente a medir rasgos unidimensionales. Por lo tanto, se esperaba que la prueba de multidimensionalidad fuera una molestia que (con suerte) podría evitarse o ignorarse. Esto es también lo que llevó a la creación de las técnicas de análisis paralelo en el análisis factorial (Drasgow y Parsons, 1983) y los métodos DETECTAR.

Las consecuencias de ignorar rasgos / factores adicionales, además de obviamente ajustar el modelo incorrecto a los datos (es decir, ignorar la información sobre el posible desajuste del modelo; aunque, por supuesto, puede ser trivial), es que las estimaciones de rasgos sobre el factor dominante se sesgarán Por lo tanto, menos eficiente. Estas conclusiones, por supuesto, dependen de cómo las propiedades de los rasgos adicionales (por ejemplo, están correlacionadas con la dimensión primaria, tienen fuertes cargas, cuántas cargas cruzadas hay, etc.), pero el tema general es que las estimaciones secundarias para obtener puntajes de rasgos primarios será menos efectivo. Vea el informe técnico aquí para una comparación entre un modelo unidimensional mal ajustado y un modelo bi-factor; el informe técnico parece ser exactamente lo que busca.

Desde una perspectiva práctica, el uso de criterios de información puede ser útil al seleccionar el modelo más óptimo, así como las estadísticas de ajuste del modelo en general (RMSEA, CFI, etc.) porque las consecuencias de ignorar la información multidimensional afectarán negativamente el ajuste general de los datos . Pero, por supuesto, el ajuste general del modelo es solo una indicación del uso de un modelo inapropiado para los datos disponibles; es muy posible que se utilicen formas funcionales inadecuadas, como la no linealidad o la falta de monotonicidad, por lo que los elementos / variables respectivos siempre deben inspeccionarse también.

Ver también :

Drasgow, F. y Parsons, CK (1983). Aplicación de modelos de teoría de respuesta de ítems unidimensionales a datos multidimensionales. Medición psicológica aplicada, 7 (2), 189-199.

Drasgow, F. y Lissak, RI (1983). Análisis paralelo modificado: un procedimiento para examinar la dimensionalidad latente de respuestas de ítems dicotómicamente calificadas. Revista de Psicología Aplicada, 68, 363-373.

Levent Kirisci, Tse-chi Hsu y Lifa Yu (2001). Robustez de los programas de estimación de parámetros de ítems a supuestos de unidimensionalidad y normalidad. Medición psicológica aplicada, 25 (2), 146-162.

— philchalmers
fuente

Gracias por agregar esto. Esto parece ser justo lo que busco.

— gung - Restablece a Monica

¿Entiendo correctamente que su respuesta a la pregunta del título es "Sí"?

— ameba dice Reinstate Monica

@amoeba en general, diría que sí, o más que incluir la información adicional debería ser tan bueno o mejor que imponer una unidimensionalidad estricta. Ignorar la multidimensionalidad conocida puede ser muy problemático, pero, por supuesto, varios factores contribuirán a esto. El único momento en que la información adicional sobre la estructura puede ser mala es cuando el tamaño de la muestra es demasiado pequeño para estimar de manera estable los parámetros adicionales; entonces, compensación de sesgo-eficiencia. Pero, si el tamaño de la muestra no es un gran problema, diría que hay poco que perder al incluir información adicional (pero mucho que perder si no).

— philchalmers

Si realmente no desea usar el segundo factor, simplemente debe usar un modelo de un factor. Pero me sorprende su observación de que las cargas para el primer factor cambiarán si usa un segundo factor.

Tratemos con esa declaración primero. Si usa componentes principales para extraer los factores y no usa la rotación de factores, entonces las cargas no cambiarán, tal vez sujeto a escala (o volteo completo: si es un factor, entonces es una forma legítima de expresarlo como bien). Si usa la extracción de máxima probabilidad y / o rotaciones de factores, entonces las cargas pueden depender de la cantidad de factores que extrajo. $x$ $-x$

A continuación, para la explicación de los efectos de las rotaciones. No soy bueno dibujando, así que intentaré convencerte usando palabras. Asumiré que sus datos son (aproximadamente) normales, de modo que los puntajes de los factores también son aproximadamente normales. Si extrae un factor, obtiene una distribución normal unidimensional, si extrae dos factores, obtiene una distribución normal bivariada.

La densidad de una distribución bivariada parece más o menos como un sombrero, pero la forma exacta depende de la escala y del coeficiente de correlación. Así que supongamos que los dos componentes tienen una unidad de varianza. En el caso no correlacionado, obtienes un bonito sombrero, con curvas de nivel que parecen círculos. Una foto está aquí . La correlación "aplasta" el sombrero, de modo que se parece más a un sombrero de Napoleón .

Supongamos que su conjunto de datos original tenía tres dimensiones y desea extraer dos factores de eso. Sigamos también con la normalidad. En este caso, la densidad es un objeto de cuatro dimensiones, pero las curvas de nivel son tridimensionales y al menos se pueden visualizar. En el caso no correlacionado, las curvas de nivel son esféricas (como un balón de fútbol). En presencia de correlación, las curvas de nivel se distorsionarán nuevamente, en una pelota de fútbol, probablemente una desinflada, de modo que el grosor en las costuras sea menor que el grosor en las otras direcciones.

Si extrae dos factores usando PCA, aplana completamente el balón en una elipse (y proyecta cada punto de datos en el plano de la elipse). El primer factor no rotado corresponde al eje largo de la elipse, el segundo factor es perpendicular a él (es decir, el eje corto). Luego, la rotación elige un sistema de coordenadas dentro de esta elipse para satisfacer algunos otros criterios útiles.

Si extrae un solo factor, la rotación es imposible, pero tiene la garantía de que el factor PCA extraído corresponde al eje largo de la elipse.

— usuario3697176
fuente

Estoy desconcertado por esta respuesta. La pregunta se refiere explícitamente al análisis factorial, en oposición al análisis de componentes principales.

— ameba dice Reinstate Monica

Hay dos formas de extraer factores: componentes principales o probabilidad máxima. No he hecho ninguna estadística sobre esto, pero creo que el método del componente principal se usa con más frecuencia.

— user3697176

Hay muchos métodos diferentes, más de dos. Eje principal, ML, minas, mínimos cuadrados ponderados y más: no soy un experto aquí. PCA es quizás a veces (¡raramente!) También considerado un método de extracción de factores, pero eso es bastante descuidado, realmente no debería serlo. Se ajusta a un modelo diferente.

— ameba dice Reinstate Monica

Su primera oración se refiere a mi P. Sería bueno saber más sobre eso y por qué podría ser correcto. Con respecto a los métodos para extraer factores, @amoeba tiene razón: PCA y PAF eran comunes cuando otros algoritmos no estaban tan bien desarrollados o eran difíciles de implementar. Ahora son ampliamente considerados inferiores. R, fa()por ejemplo, no los ha usado en años. Otros métodos producirán soluciones no anidadas, lo que es fácil de verificar con software y un conjunto de datos FA. En aras de la comparabilidad, puede considerar ambas soluciones sin rotar. FWIW, estoy familiarizado con la idea de distribuciones esféricas y elípticas de MVN.

— gung - Restablece a Monica

@gung, un comentario. El método PAF también proporciona soluciones no anidadas. Es un método FA de buena fe (aunque basado en PCA como método) y, supongo, todavía se usa ampliamente.

— ttnphns

¿Por qué no usaría algo como lavaan o MPlus para ejecutar dos modelos (modelo unidimensional y un modelo de dos dimensiones alineado con los resultados de su EPT) y comparar los índices de ajuste relativo y absoluto de los diferentes modelos (es decir, criterios de información: AIC y BIC, RMSEA, SRMR, CFI / TLI)? Tenga en cuenta que si sigue este camino, no querrá utilizar PCA para la EPT, sino más bien los factores principales. Alguien realmente preocupado por la medición integraría el CFA en un modelo de ecuación estructural completo.

Editar: El enfoque que te pido que consideres es más sobre descubrir cuántas variables latentes realmente explican el conjunto de elementos. Si desea obtener la mejor estimación del factor mayor, votaría por utilizar los puntajes de factor del modelo CFA con el mejor ajuste, lo que sea.

— Erik Ruzek
fuente