¿Cómo explica el análisis factorial la covarianza mientras que PCA explica la varianza?

Aquí hay una cita del libro de Bishop "Reconocimiento de patrones y aprendizaje automático", sección 12.2.4 "Análisis factorial":

ingrese la descripción de la imagen aquí

De acuerdo con la parte resaltada, el análisis factorial captura la covarianza entre las variables en la matriz $W$ . Me pregunto ¿CÓMO ?

Así es como lo entiendo. Digamos que es la variable dimensional observada , es la matriz de carga del factor y es el vector de puntuación del factor. Luego tenemos es decir y cada columna en es un vector de carga factorial Aquí, como escribí, tiene $x$ $p$ $W$ $z$

x = μ + W z + ϵ,

$x=\mu+Wz+\epsilon,$

\begin{aligned} (\begin{matrix} x_{1} \\ ⋮ \\ x_{p} \end{matrix}) = (\begin{matrix} μ_{1} \\ ⋮ \\ μ_{p} \end{matrix}) + (\begin{matrix} | & | \\ w_{1} & \dots & w_{m} \\ | & | \end{matrix}) (\begin{matrix} z_{1} \\ ⋮ \\ z_{m} \end{matrix}) + ϵ, \end{aligned}

$\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} \begin{pmatrix} z_1\\ \vdots\\ z_m \end{pmatrix} +\epsilon, \end{align*}$

W

$W$

w_{i} = (\begin{matrix} w_{i 1} \\ ⋮ \\ w_{i p} \end{matrix}) .

$w_i=\begin{pmatrix}w_{i1}\\ \vdots\\ w_{ip}\end{pmatrix}.$

W

$W$

m

$m$ columnas, lo que significa que hay

m

$m$ factores bajo consideración.

Ahora aquí está el punto, de acuerdo con la parte resaltada, creo que las cargas en cada columna $w_i$ explican la covarianza en los datos observados, ¿verdad?

Por ejemplo, echemos un vistazo al primer vector de carga $w_1$ , para $1\le i,j,k\le p$ , si $w_{1i}=10$ , $w_{1j}=11$ y $w_{1k}=0.1$ , luego Yo diría que $x_i$ y $x_j$ están altamente correlacionados, mientras que $x_k$ parece no estar correlacionado con ellos , ¿estoy en lo cierto?

Y si así es como el análisis factorial explica la covarianza entre las características observadas, entonces yo diría que PCA también explica la covarianza, ¿verdad?

pca factor-analysis geometry

— aguacate
fuente

Como la trama de @ ttnphns se refiere a la representación del espacio temático , aquí hay un tutorial sobre el espacio variable y el espacio temático: por cierto, no sabía sobre la trama del espacio temático antes, ahora lo entiendo y aquí hay un tutorial al respecto: amstat.org/ Publicaciones / jse / v10n1 / yu / biplot.html . ;-)

— aguacate

También destacaría que la gráfica de carga que muestra las cargas es en realidad espacio sujeto. Mostrar espacios variables y sujetos en uno es biplot. Algunas imágenes que lo demuestran stats.stackexchange.com/a/50610/3277 .

— ttnphns

Aquí hay una pregunta sobre qué es "varianza común" y "varianza compartida" terminológicamente: stats.stackexchange.com/q/208175/3277 .

— ttnphns

La distinción entre el análisis de componentes principales y el análisis factorial se discute en numerosos libros de texto y artículos sobre técnicas multivariadas. Puede encontrar el hilo completo , y uno más nuevo , y respuestas extrañas, también en este sitio.

No voy a hacerlo detallado. Ya he dado una respuesta concisa y más larga y me gustaría aclararla ahora con un par de imágenes.

Representación grafica

La siguiente imagen explica PCA . (Esto se tomó prestado de aquí, donde se compara PCA con regresión lineal y correlaciones canónicas. La imagen es la representación vectorial de variables en el espacio temático ; para comprender qué es, es posible que desee leer el segundo párrafo allí).

enter image description here

La configuración de PCA en esta imagen se describió allí . Repetiré la mayoría de las cosas principales. Los componentes principales y encuentran en el mismo espacio que abarcan las variables y , "plano X". La longitud al cuadrado de cada uno de los cuatro vectores es su varianza. La covarianza entre y es , donde es igual al coseno del ángulo entre sus vectores. $P_1$ $P_2$ $X_1$ $X_2$ $X_1$ $X_2$ $cov_{12}= |X_1||X_2|r$ $r$

Las proyecciones (coordenadas) de las variables en los componentes, las 's, son las cargas de los componentes en las variables: las cargas son los coeficientes de regresión en las combinaciones lineales de variables de modelado por componentes estandarizados . "Estandarizado": porque la información sobre las variaciones de los componentes ya se absorbe en las cargas (recuerde, las cargas son vectores propios normalizados a los valores propios respectivos). Y debido a eso, y al hecho de que los componentes no están correlacionados, las cargas son las covarianzas entre las variables y los componentes. $a$

El uso de PCA para el objetivo de dimensionalidad / reducción de datos nos obliga a retener solo y a considerar como el resto, o error. es la varianza capturada (explicada) por . $P_1$ $P_2$ $a_{11}^2+a_{21}^2= |P_1|^2$ $P_1$

La siguiente imagen muestra el análisis factorial realizado en las mismas variables y con las que hicimos PCA arriba. (Hablaré del modelo de factor común , porque existen otros: modelo de factor alfa, modelo de factor de imagen). Smiley sun ayuda con la iluminación. $X_1$ $X_2$

El factor común es . Es lo que es análogo al componente principal anterior. ¿Puedes ver la diferencia entre estos dos? Sí, claramente: el factor no reside en el espacio "plano X" de las variables . $F$ $P_1$

¿Cómo obtener ese factor con un dedo, es decir, hacer un análisis factorial? Intentemos. En la imagen anterior, enganche el extremo de la flecha por la punta de la uña y aléjese del "plano X", mientras visualiza cómo aparecen dos nuevos planos, "plano U1" y "plano U2"; estos conectan el vector enganchado y los dos vectores variables. Los dos planos forman una campana, X1 - F - X2, arriba del "plano X". $P_1$

enter image description here

Continúe tirando mientras contempla el capó y pare cuando el "avión U1" y el "avión U2" se formen 90 grados entre ellos. Listo, el análisis factorial está hecho. Bueno, sí, pero aún no de manera óptima. Para hacerlo bien, como hacen los paquetes, repita todo el ejercicio de tirar de la flecha, ahora agregando pequeños movimientos de izquierda a derecha de su dedo mientras tira. Al hacerlo, encuentre la posición de la flecha cuando la suma de las proyecciones cuadradas de ambas variables se maximiza , mientras alcanza ese ángulo de 90 grados. Detener. Usted hizo el análisis factorial, que se encuentra la posición del factor común . $F$

Nuevamente para observar, a diferencia del componente principal , el factor no pertenece al espacio "plano X" de las variables. Por lo tanto, no es una función de las variables (el componente principal sí lo es, y puede asegurarse a partir de las dos imágenes superiores aquí que PCA es fundamentalmente bidireccional: predice las variables por componentes y viceversa). Por lo tanto, el análisis factorial no es un método de descripción / simplificación, como PCA, es un método de modelado mediante el cual el factor latente dirige las variables observadas, unidireccionalmente. $P_1$ $F$

Cargas de 's de los factores sobre las variables son como cargas en PCA; son las covarianzas y son los coeficientes de las variables de modelado por el factor (estandarizado). es la varianza capturado (explicado) por . Se descubrió que el factor maximiza esta cantidad, como si fuera un componente principal. Sin embargo, esa varianza explicada ya no es la varianza bruta de las variables , sino que es su varianza por la que co-varían (correlacionan). ¿Porque? $a$ $a_{1}^2+a_{2}^2= |F|^2$ $F$

Vuelve a la foto. Extrajimos bajo dos requisitos. Uno era la suma maximizada de cargas cuadradas que acabamos de mencionar. El otro fue la creación de los dos planos perpendiculares, "plano U1" que contiene y , y "plano U2" que contiene y . De esta manera, cada una de las variables X apareció descompuesta. se descompuso en las variables y , mutuamente ortogonales; también se descompuso en las variables y , también ortogonales. Y es ortogonal a . Sabemos lo que es $F$ $F$ $X_1$ $F$ $X_2$ $X_1$ $F$ $U_1$ $X_2$ $F$ $U_2$ $U_1$ $U_2$ $F$ - el factor común . se llaman factores únicos . Cada variable tiene su factor único. El significado es el siguiente. detrás de y detrás de son las fuerzas que dificultan la correlación de y . Pero , el factor común, es la fuerza detrás de y que los hace correlacionar. Y la varianza que se explica se encuentra en ese factor común. Entonces, es pura varianza de colinealidad. Es esa varianza la que hace que ; el valor real de $U$ $U_1$ $X_1$ $U_2$ $X_2$ $X_1$ $X_2$ $F$ $X_1$ $X_2$ $cov_{12}>0$ $cov_{12}$ determinado por inclinaciones de las variables hacia el factor, por 's. $a$

La varianza de una variable (longitud del vector al cuadrado) consta de dos partes disjuntas aditivas: unicidad y comunalidad . Con dos variables, como nuestro ejemplo, podemos extraer como máximo un factor común, entonces comunalidad = carga simple al cuadrado. Con muchas variables podríamos extraer varios factores comunes, y la comunalidad de una variable será la suma de sus cargas al cuadrado. En nuestra imagen, el espacio de factores comunes es unidimensional (solo ); cuando existen factores comunes m , ese espacio es m $u^2$ $a^2$ $F$ -dimensional, con las comunalidades como proyecciones de variables en el espacio y las cargas como variables ', así como las proyecciones de esas proyecciones sobre los factores que abarcan el espacio. La varianza explicada en el análisis factorial es la varianza dentro del espacio de los factores comunes, diferente del espacio de las variables en el que los componentes explican la varianza. El espacio de las variables está en el vientre del espacio combinado: m factores comunes + p únicos.

Solo mira la foto actual por favor. Hubo varias variables (digamos, , , ) con las que se realizó el análisis factorial, extrayendo dos factores comunes. Los factores y abarcan el espacio común de factores "factor factor". Del conjunto de variables analizadas, solo una ( ) se muestra en la figura. El análisis lo descompuso en dos partes ortogonales, comunalidad y factor único . La comunalidad se encuentra en el "plano de factores" y sus coordenadas en los factores son las cargas por las cuales los factores comunes cargan (= coordenadas de $X_1$ $X_2$ $X_3$ $F_1$ $F_2$ $X_1$ $C_1$ $U_1$ $X_1$ $X_1$ en sí mismo sobre los factores). En la imagen, también se muestran las comunalidades de las otras dos variables, proyecciones de y de . Sería interesante observar que los dos factores comunes pueden, en cierto sentido, ser vistos como los componentes principales de todas esas "variables" de comunidad . Mientras que los componentes principales habituales resumen por antigüedad la varianza total multivariada de las variables, los factores resumen también su varianza común multivariada. $X_2$ $X_3$ $^1$

¿Por qué necesitaba toda esa palabrería? Solo quería dar evidencia de la afirmación de que cuando descompone cada una de las variables correlacionadas en dos partes latentes ortogonales, una (A) representa la falta de correlación (ortogonalidad) entre las variables y la otra parte (B) representa su correlación (colinealidad), y si extrae factores de las B combinadas únicamente, se encontrará explicando las covarianzas por pares, por las cargas de esos factores. En nuestro modelo de factores, - restauración de factores $cov_{12} \approx a_1a_2$ covarianzas individuales mediante cargas. En el modelo PCA, no es así, ya que PCA explica la varianza nativa colineal + ortogonal mixta no descompuesta. Tanto los componentes fuertes que retiene como los posteriores que suelta son fusiones de partes (A) y (B); por lo tanto, PCA puede aprovechar, por sus cargas, covarianzas solo a ciegas y groseramente.

Lista de contraste PCA vs FA

PCA: opera en el espacio de las variables. FA: transmite el espacio de las variables.
PCA: toma la variabilidad tal como está. FA: segmenta la variabilidad en partes comunes y únicas.
PCA: explica la varianza no segmentada, es decir, la traza de la matriz de covarianza. FA: explica solo la varianza común, por lo tanto, explica (restaura por cargas) correlaciones / covarianzas, elementos fuera de la diagonal de la matriz. (PCA explica los elementos fuera de la diagonal demasiado - pero, de paso, de manera improvisada - simplemente porque las diferencias son compartidos en una forma de covarianzas.)
PCA: los componentes son funciones teóricamente lineales de las variables, las variables son funciones teóricamente lineales de los componentes. FA: las variables son funciones teóricamente lineales de factores, solo.
PCA: método de resumen empírico; que retiene m componentes. FA: método de modelado teórico ; que encaja número fijo m factores a los datos; El FA puede ser probado (FA confirmatorio).
PCA: es el MDS métrico más simple , tiene como objetivo reducir la dimensionalidad mientras preserva indirectamente las distancias entre los puntos de datos tanto como sea posible. FA: Los factores son rasgos latentes esenciales detrás de las variables que hacen que se correlacionen; El análisis tiene como objetivo reducir los datos a esas esencias solamente.
PCA: rotación / interpretación de componentes, a veces (PCA no es lo suficientemente realista como un modelo de rasgos latentes). FA: rotación / interpretación de factores - rutinariamente.
PCA: solo método de reducción de datos. FA: también un método para encontrar grupos de variables coherentes (esto se debe a que las variables no pueden correlacionarse más allá de un factor).
PCA: las cargas y los puntajes son independientes del número m de componentes "extraídos". FA: las cargas y las puntuaciones dependen del número m de factores "extraídos".
PCA: las puntuaciones de los componentes son valores exactos de los componentes. FA: los puntajes de los factores son aproximados a los valores de los factores verdaderos, y existen varios métodos computacionales . Los puntajes de los factores se encuentran en el espacio de las variables (como lo hacen los componentes), mientras que los factores verdaderos (como lo representan las cargas de factores) no.
PCA: generalmente no hay suposiciones. FA: suposición de correlaciones parciales débiles; a veces suposición de normalidad multivariante; algunos conjuntos de datos pueden ser "malos" para el análisis a menos que se transformen.
PCA: algoritmo no narrativo; Siempre exitoso. FA: algoritmo iterativo (típicamente); a veces problema de no convergencia; La singularidad puede ser un problema.

$^1$ Para meticuloso. Uno podría preguntarse dónde están las variables $X_2$ y $X_3$ en la imagen, ¿por qué no se dibujaron? La respuesta es que no podemos dibujarlos, ni siquiera teóricamente. El espacio en la imagen es 3d (definido por el "plano de factor" y el vector único $U_1$ ; $X_1$ acostado en su complemento mutuo, plano sombreado en gris, eso es lo que corresponde a una pendiente de la "capucha" en la imagen No.2 ), por lo que nuestros recursos gráficos están agotados. El espacio tridimensional atravesado por tres variables $X_1$ , $X_2$ , $X_3$ juntas esotroespacio. Ni "plano de factor" ni $U_1$ son sus subespacios. Es lo que es diferente de PCA: los factores no pertenecen al espacio de las variables. Cada variable se encuentra por separado en su plano gris separado ortogonal al "plano de factor", al igual que $X_1$ muestra en nuestra imagen, y eso es todo: si tuviéramos que agregar, digamos, $X_2$ a la gráfica, deberíamos haber inventado la cuarta dimensión. (Solo recuerde que todas las $U$ tienen que ser mutuamente ortogonales; por lo tanto, para agregar otra $U$ , debe expandir más la dimensionalidad).

Del mismo modo que en la regresión, los coeficientes son las coordenadas, en los predictores, tanto de la (s) variable (s) dependiente (s) como de la (s) predicción (es) ( ver foto en "Regresión múltiple", y aquí , también), en FAlas cargas son las coordenadas, en los factores, tanto de las variables observadas como de sus partes latentes: las comunalidades. Y exactamente como en la regresión, ese hecho no hizo que los dependientes y los predictores fueran subespacios entre sí; en FA, el hecho similar no hace que las variables observadas y los factores latentes sean subespacios entre sí. Un factor es "ajeno" a una variable en un sentido bastante similar a como un predictor es "ajeno" a una respuesta dependiente. Pero en PCA, es de otra manera: los componentes principales se derivan de las variables observadas y se limitan a su espacio.

Entonces, una vez más para repetir: m factores comunes de FA no son un subespacio de las variables de entrada p . Por el contrario: las variables forman un subespacio en el hiperespacio de unión m + p ( m factores comunes + p factores únicos). Cuando se ve desde esta perspectiva (es decir, con los factores únicos también atraídos), queda claro que la FA clásica no es una técnica de contracción de dimensionalidad , como la PCA clásica, sino una técnica de expansión de dimensionalidad . Sin embargo, prestamos nuestra atención solo a una pequeña parte ( m dimensional común) de esa hinchazón, ya que esta parte solo explica las correlaciones.

— ttnphns
fuente

Gracias y buena trama. Su respuesta ( stats.stackexchange.com/a/94104/30540 ) ayuda mucho.

— aguacate

(+11) ¡Gran respuesta y buenas ilustraciones! (Tengo que esperar dos días más antes de ofrecer la recompensa.)

— chl

@chl, estoy muy conmovido.

— ttnphns

@ttnphns: El "espacio sujeto" (su plano X) es un espacio con tantas coordenadas como puntos de datos en el conjunto de datos, ¿verdad? Entonces, si un conjunto de datos (con dos variables X1 y X2) tiene 100 puntos de datos, ¿entonces su plano X es de 100 dimensiones? Pero entonces, ¿cómo puede estar el factor F fuera de él? ¿No deberían todos los 100 puntos de datos tener algunos valores a lo largo del factor? Y como no hay otros puntos de datos, parece que el factor F tiene que estar en el mismo "espacio sujeto" de 100 dimensiones, es decir, en el plano X? ¿Qué me estoy perdiendo?

— ameba dice Reinstate Monica

@amoeba, tu pregunta es legítima y sí, te estás perdiendo una cosa. Consulte el primer párrafo: stats.stackexchange.com/a/51471/3277 . Se caen las dimensiones redundantes. El espacio sujeto tiene tantas dimensiones reales, no redundantes como el espacio variable correspondiente. Entonces "espacio X" es plano. Si agregamos una dimensión +1 (para cubrir F), toda la configuración será singular, insoluble. F siempre se extiende fuera del espacio variable.

— ttnphns

"Explicando la covarianza" vs. explicando la varianza

p (x | z) = N (x | W z + μ, Ψ)

$p(\mathbf x|\mathbf z) = \mathcal N(\mathbf x | \mathbf W \mathbf z + \boldsymbol \mu, \boldsymbol \Psi)$

x

$\mathbf x$

C = W W^{⊤} + Ψ .

$\mathbf C = \mathbf W \mathbf W^\top + \boldsymbol \Psi.$

Σ

$\boldsymbol \Sigma$

C

$\mathbf C$

Σ \approx W W^{⊤} + Ψ .

$\boldsymbol \Sigma \approx \mathbf W \mathbf W^\top + \boldsymbol \Psi.$

C

$\mathbf C$

Σ

$\boldsymbol \Sigma$

Ψ

$\boldsymbol \Psi$

W

$\mathbf W$

Σ

$\boldsymbol \Sigma$

$\boldsymbol \Sigma$ $\boldsymbol \Sigma$

$\widetilde {\mathbf W}$ $\boldsymbol \Sigma$ $m<k$

Σ \approx \tilde{W} {\tilde{W}}^{⊤},

$\boldsymbol \Sigma \approx \widetilde{\mathbf W} \widetilde{\mathbf W}^\top,$

Más comentarios

$2 \times 2$

¿Hay alguna buena razón para usar PCA en lugar de EFA? Además, ¿puede la PCA ser un sustituto del análisis factorial?

Entonces, aunque los dibujos de @ttnphns pueden dar la impresión de que PCA y FA son muy diferentes, mi opinión es que no es el caso, excepto con muy pocas variables o en algunas otras situaciones especiales.

Ver también:

Finalmente:

$w_1$ $1\le i,j,k\le p$ $w_{1i}=10$ $w_{1j}=11$ $w_{1k}=0.1$ $x_i$ $x_j$ $x_k$

$x_i$ $x_j$ $w_2$ $x_i$ $x_k$

— ameba dice Reinstate Monica
fuente

Sin embargo, reconociendo su experiencia algebraica y sin duda saludando su respuesta, no sería tan agudo como para etiquetar la respuesta geométrica anterior de alguien (la mía en este caso) como "potencialmente engañosa". Las palabras so hugely differentson tuyas, no mías. En segundo lugar, it is in fact not the case, except with very few variableses en sí una revelación que debe ser probada más profundamente de lo que alguna vez lo hizo.

— ttnphns

Hola @ttnphns, gracias por el comentario. No tengo absolutamente nada en contra de las respuestas geométricas, ¡y de hecho las prefiero cuando es posible! Sinceramente, me gusta mucho tu respuesta y tiene mi +1. Pero sí creo que considerar solo un caso con dos variables hace que las diferencias entre PCA y FA parezcan más fuertes de lo que son y que esto puede ser potencialmente (!) Engañoso. Sin embargo, tiene razón en que no debería haber usado esas palabras en mi respuesta. Pido disculpas, y lo he editado ahora. Para ser completamente claro: cualquier hostilidad (¡si es que la sintiste!) Fue puramente involuntaria.

— ameba dice Reinstate Monica

@amoeba ¿Por qué algunas personas dicen que FA preserva la covarianza y PCA preserva la varianza? Por su publicación, entiendo que, de hecho, FA conserva la covarianza, pero PA intenta preservar la varianza y la covarianza . ¿Decir que PCA preserva la variación proviene de su función objetivo y no de explicaciones en su publicación?

— user_anon