¿Cuál es la razón intuitiva detrás de hacer rotaciones en Factor Analysis / PCA y cómo seleccionar la rotación adecuada?

Mis preguntas

¿Cuál es la razón intuitiva detrás de hacer rotaciones de factores en el análisis factorial (o componentes en PCA)?

Según tengo entendido, si las variables se cargan casi por igual en los componentes (o factores) superiores, entonces obviamente es difícil diferenciar los componentes. Entonces, en este caso, se podría usar la rotación para obtener una mejor diferenciación de los componentes. ¿Es esto correcto?
¿Cuáles son las consecuencias de hacer rotaciones? ¿Qué cosas afecta esto?
¿Cómo seleccionar la rotación adecuada? Hay rotaciones ortogonales y rotaciones oblicuas. ¿Cómo elegir entre estos y cuáles son las implicaciones de esta elección?

Por favor explique intuitivamente con las menos ecuaciones matemáticas. Pocas de las respuestas extendidas eran pesadas en matemáticas, pero estoy buscando más por razones intuitivas y reglas generales.

— GeorgeOfTheRF
fuente

Motivo de la rotación . Las rotaciones se realizan en aras de la interpretación de los factores extraídos en el análisis factorial (o componentes en PCA, si se aventura a utilizar PCA como técnica analítica de factores). Tiene razón cuando describe su comprensión. La rotación se realiza en busca de alguna estructura de la matriz de carga, que se puede llamar estructura simple . Es cuando diferentes factores tienden a cargar diferentes variables $^1$ . [Creo que es más correcto decir que "un factor carga una variable" que "una variable carga un factor", porque es el factor que está "dentro" o "detrás" de las variables para hacer que se correlacionen, pero puede decir como desee.] En cierto sentido, la estructura simple típica es donde aparecen "grupos" de variables correlacionadas. Luego interpretas un factor como el significado que se encuentra en la intersección del significado de las variables que están suficientemente cargadas por el factor; por lo tanto, para recibir un significado diferente, los factores deben cargar variables de manera diferencial. Una regla general es que un factor debe cargar decentemente al menos 3 variables.
Consecuencias . La rotación no cambia la posición de las variables entre sí en el espacio de los factores, es decir, se conservan las correlaciones entre las variables. Lo que se cambia son las coordenadas de los puntos finales de los vectores variables en los ejes del factor: las cargas (busque en este sitio "plot de carga" y "biplot", para obtener más información) . Después de una rotación ortogonal de la matriz de carga, las variaciones de los factores cambian, pero los factores permanecen sin correlación y se preservan las comunalidades variables. $^2$

En una rotación oblicua, los factores pueden perder su falta de correlación si eso produce una "estructura simple" más clara. Sin embargo, la interpretación de factores correlacionados es un arte más difícil porque hay que derivar el significado de un factor para que no contamine el significado de otro con el que se correlaciona. Eso implica que tienes que interpretar los factores, digamos, en paralelo, y no uno por uno. Rotación que las hojas oblicuas con dos matrices de cargas en lugar de uno: patrón de la matriz $\bf P$ y la matriz de estructura $\bf S$ . ( $\bf S=PC$ , donde $\bf C$ es la matriz de correlaciones entre los factores; $\bf C=Q'Q$ , donde $\bf Q$ es la matriz de rotación oblicua: $\bf S=AQ$ , donde era la matriz de carga antes de cualquier rotación.) La matriz de patrón es la matriz de pesos regresivos por la cual los factores predicen variables, mientras que la matriz de estructura son las correlaciones (o covarianzas) entre factores y variables. La mayoría de las veces interpretamos factores por cargas de patrones porque estos coeficientes representan la inversión individual única del factor en una variable. La rotación oblicua conserva comunalidades variables, pero las comunalidades ya no son iguales a las sumas de cuadrados de la fila en o en $\bf A$ $\bf P$ $\bf S$ . Además, debido a que los factores se correlacionan, sus variaciones se superponen en parte . $^3$

Las rotaciones ortogonales y oblicuas, por supuesto, afectan los puntajes de factores / componentes que quizás desee calcular (busque "puntajes de factores" en este sitio). La rotación, en efecto, le proporciona otros factores además de los que tenía justo después de la extracción . Heredan su poder predictivo (para las variables y sus correlaciones) pero obtendrán un significado sustancial diferente de usted. Después de la rotación, es posible que no diga "este factor es más importante que ese" porque se rotaron uno frente al otro (para ser sincero, en FA, a diferencia de PCA, es difícil decirlo incluso después de la extracción porque los factores se modelan como ya "importantes"). $^4$
Elección . Hay muchas formas de rotaciones ortogonales y oblicuas. ¿Por qué? Primero, porque el concepto de "estructura simple" no es unívoco y puede formularse de manera algo diferente. Por ejemplo, varimax , el método ortogonal más popular, intenta maximizar la varianza entre los valores al cuadrado de las cargas de cada factor; el método ortogonal a veces utilizado Quartimax minimiza el número de factores necesarios para explicar una variable, y a menudo produce el llamado "factor general". En segundo lugar, diferentes rotaciones apuntan a objetivos secundarios diferentes, aparte de la estructura simple. No entraré en detalles sobre estos temas complejos, pero es posible que desee leer sobre ellos por sí mismo.

¿Debería preferirse la rotación ortogonal u oblicua? Bueno, los factores ortogonales son más fáciles de interpretar y todo el modelo de factores es estadísticamente más simple (predictores ortogonales, por supuesto). Pero allí impones la ortogonalidad a los rasgos latentes que quieres descubrir; ¿estás seguro de que no deberían estar correlacionados en el campo que estudias? ¿Y si no lo son? Métodos de rotación oblicua $^5$ (aunque cada uno tiene sus propias inclinaciones) permiten, pero no fuerzan, que los factores se correlacionen, y por lo tanto son menos restrictivos. Si la rotación oblicua muestra que los factores solo están débilmente correlacionados, puede estar seguro de que "en realidad" es así, y luego puede recurrir a la rotación ortogonal con buena conciencia. Si los factores, por otro lado, están muy correlacionados, no parece natural (para rasgos latentes conceptualmente distintos, especialmente si está desarrollando un inventario en psicología o algo así), recuerde que un factor es en sí mismo un rasgo univariante, no un lote de fenómenos), y es posible que desee extraer menos factores o, alternativamente, utilizar los resultados oblicuos como fuente del lote para extraer los llamados factores de segundo orden.

$^1$ Thurstone presentó cinco condiciones ideales de estructura simple. Los tres más importantes son: (1) cada variable debe tener al menos una carga cercana a cero; (2) cada factor debe tener cargas cercanas a cero para al menos m variables ( m es el número de factores); (3) para cada par de factores, hay al menos m variables con cargas cercanas a cero para uno de ellos, y lo suficientemente lejos de cero para el otro. En consecuencia, para cada par de factores, su diagrama de carga debería verse idealmente como:

ingrese la descripción de la imagen aquí

Esto es para AF puramente exploratorio, mientras que si está haciendo y rehaciendo FA para desarrollar un cuestionario, eventualmente querrá eliminar todos los puntos, excepto los azules, siempre que tenga solo dos factores. Si hay más de dos factores, querrá que los puntos rojos se vuelvan azules para algunos de los gráficos de carga de otros factores.

$^2$

ingrese la descripción de la imagen aquí

$^3$ $\bf S$ $\bf S$ $\bf A$ $1-R_i^2$ $\bf C^{-1}$

$^4$

$^5$ (generalmente) o sin ella. La normalización hace que todas las variables sean igualmente importantes en la rotación.

Algunos hilos para leer más:

¿Puede haber alguna razón para no rotar los factores?

¿Qué matriz interpretar después de la rotación oblicua - patrón o estructura?

¿Qué significan los nombres de las técnicas de rotación de factores (varimax, etc.)?

¿La PCA con componentes rotados sigue siendo PCA o es un análisis factorial?

— ttnphns
fuente

+1. Desde que vi esta pregunta, esperaba que contribuyeras con una respuesta. Por cierto, me sorprendió que tal pregunta no se haya hecho aquí antes (al menos no en una forma tan clara).

— ameba dice Reinstate Monica

+1. ¡Gracias por la respuesta! 1) Entiendo el análisis factorial y PCA por separado, pero ¿qué quiere decir con "PCA como técnica analítica de factores"? PCA y FA son 2 cosas diferentes para cumplir con 2 objetivos separados ¿verdad? ¿Significa esto que cuando los componentes de PCA tienen una estructura compleja, no puedo usar la rotación para simplificar?

— GeorgeOfTheRF

2) "Varimax intenta maximizar la varianza entre las cargas de cada factor" ¿Cuál es la ventaja de maximizar la varianza entre las cargas?

— GeorgeOfTheRF

Para su (1) en los comentarios: Sí, los dos métodos de análisis son diferentes. Sin embargo, las personas usan PCA con el propósito de FA a veces. Vea mi respuesta y todo el hilo relevante allí. Puede usar rotaciones de factores en PCA exactamente como y en los mismos grupos que en FA. Con respecto a la rotación, no hay diferencia.

— ttnphns

Para tu comentario (2). Varimax maximiza la varianza de la magnitud absoluta de las cargas: en consecuencia, las cargas factoriales para cada factor se "dividen" claramente en (absolutamente) grandes y pequeñas. Quartimax intenta hacerlo para que cada variable se cargue mucho solo por un factor.

— ttnphns