¿Hay alguna buena razón para usar PCA en lugar de EFA? Además, ¿puede la PCA ser un sustituto del análisis factorial?


73

En algunas disciplinas, PCA (análisis de componentes principales) se usa sistemáticamente sin ninguna justificación, y PCA y EFA (análisis factorial exploratorio) se consideran sinónimos.

Por lo tanto, recientemente utilicé PCA para analizar los resultados de un estudio de validación de escala (21 ítems en la escala Likert de 7 puntos, se supone que compone 3 factores de 7 ítems cada uno) y un revisor me pregunta por qué elegí PCA en lugar de EFA. Leí sobre las diferencias entre ambas técnicas, y parece que EFA se ve favorecida contra PCA en la mayoría de sus respuestas aquí.

¿Tiene alguna buena razón por la cual PCA sería una mejor opción? ¿Qué beneficios podría proporcionar y por qué podría ser una buena elección en mi caso?


1
Gran pregunta Tiendo a estar en desacuerdo con la respuesta de ttnphns, e intentaré proporcionar una visión alternativa más tarde hoy.
ameba dice Reinstate Monica

55
@amoeba Te estoy apoyando por adelantado. PCA es solo una técnica de transformación que puede ser (a veces, muy) útil. No hay necesidad de demonizarlo o atribuirle una intención espuria o inapropiada. También podrías excoriar un logaritmo.
Nick Cox

44
No parece ser que la respuesta de ttnphns demonice PCA. Para mí, él simplemente parece estar argumentando que el PCA no se basa en la suposición de variables latentes que generan sus datos, por lo que si eso es lo que está tratando de hacer, FA es una mejor opción.
gung - Restablece a Monica

1
FWIW, no estaba comentando específicamente sobre la respuesta de ttphns, pero en los comentarios y críticas a menudo encuentro qué cantidad de cargos de que PCA no hace algo para lo que nunca fue destinado o no es adecuado.
Nick Cox

3
@NeilG: PCA no es un modelo generativo [probabilístico], porque no incluye un término de ruido y, por lo tanto, no hay probabilidad asociada con él. Sin embargo, hay una generalización probabilística (PPCA), y está muy relacionada con PCA, vea mi respuesta aquí.
ameba dice Reinstate Monica

Respuestas:


95

Descargo de responsabilidad: @ttnphns tiene mucho conocimiento sobre PCA y FA, ​​y respeto su opinión y he aprendido mucho de muchas de sus excelentes respuestas sobre el tema. Sin embargo, tiendo a estar en desacuerdo con su respuesta aquí, así como con otras (numerosas) publicaciones sobre este tema aquí en CV, no solo la suya; o más bien, creo que tienen una aplicabilidad limitada.


Creo que la diferencia entre PCA y FA está sobrevalorada.

Míralo así: ambos métodos intentan proporcionar una aproximación de bajo rango de una matriz de covarianza (o correlación) dada. "Rango bajo" significa que solo se utiliza un número limitado (bajo) de factores latentes o componentes principales. Si la matriz de covarianza de los datos es C , entonces los modelos son:n×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Aquí es una matriz con columnas (donde generalmente se elige como un número pequeño, ), que representa componentes o factores principales, es una matriz de identidad y es una diagonal matriz. Cada método puede formularse como encontrar (y el resto) minimizando la [norma de la] diferencia entre los lados izquierdo y derecho.Wk k < n k I Ψ Wkkk<nkIΨW

PPCA significa PCA probabilístico , y si no sabe qué es eso, no importa tanto por ahora. Quería mencionarlo, porque encaja perfectamente entre PCA y FA, ​​ya que tiene una complejidad de modelo intermedia. También pone en perspectiva la supuesta gran diferencia entre PCA y FA: aunque es un modelo probabilístico (exactamente como FA), en realidad resulta ser casi equivalente a PCA ( abarca el mismo subespacio).W

Lo más importante, tenga en cuenta que los modelos sólo se diferencian en la forma en que tratan a la diagonal de . A medida que aumenta la dimensionalidad , la diagonal se vuelve cada vez menos importante (porque solo hay elementos en la diagonal fuera de la diagonal). Como resultado, para la gran generalmente no hay mucha diferencia entre PCA y FA, ​​una observación que rara vez se aprecia. Para pequeños , de hecho, pueden diferir mucho. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Ahora para responder a su pregunta principal de por qué las personas en algunas disciplinas parecen preferir PCA. Supongo que se reduce al hecho de que es matemáticamente mucho más fácil que FA (esto no es obvio por las fórmulas anteriores, así que tienes que creerme aquí):

  1. PCA, así como PPCA, que es solo ligeramente diferente, tiene una solución analítica, mientras que FA no. Por lo tanto, la FA debe ajustarse numéricamente, existen varios algoritmos para hacerlo, dando respuestas posiblemente diferentes y operando bajo diferentes supuestos, etc. etc. Para PCA, realiza una descomposición propia y ya está; FA es mucho más desordenado.

    Técnicamente, PCA simplemente rota las variables, y es por eso que uno puede referirse a ella como una mera transformación, como lo hizo @NickCox en su comentario anterior.

  2. La solución de PCA no depende de : puede encontrar las primeras tres PC ( ) y las dos primeras serán idénticas a las que encontraría si configurara inicialmente . Eso no es cierto para FA: la solución para no está necesariamente contenida dentro de la solución para . Esto es contrario a la intuición y confuso.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Por supuesto, FA es un modelo más flexible que PCA (después de todo, tiene más parámetros) y a menudo puede ser más útil. No estoy discutiendo en contra de eso. Lo que estoy argumentando es la afirmación de que son conceptualmente muy diferentes, ya que PCA se trata de "describir los datos" y FA de "encontrar variables latentes". Simplemente no veo que esto sea tan cierto [casi] en absoluto.

Para comentar algunos puntos específicos mencionados anteriormente y en las respuestas vinculadas:

  • "en PCA, el número de dimensiones para extraer / retener es fundamentalmente subjetivo, mientras que en EFA el número es fijo, y generalmente debe verificar varias soluciones" - bueno, la elección de la solución sigue siendo subjetiva, por lo que no Vea cualquier diferencia conceptual aquí. En ambos casos, se elige (subjetiva u objetivamente) para optimizar el equilibrio entre el ajuste del modelo y la complejidad del modelo.k

  • "FA es capaz de explicar las correlaciones por pares (covarianzas). PCA generalmente no puede hacerlo" , no realmente, ambos explican las correlaciones mejor y mejor a medida que crece.k

  • A veces surge una confusión adicional (¡pero no en las respuestas de @ ttnphns!) Debido a las diferentes prácticas en las disciplinas que usan PCA y FA. Por ejemplo, es una práctica común rotar factores en FA para mejorar la interpretabilidad. Esto rara vez se hace después de PCA, pero en principio nada lo impide. Por lo tanto, las personas tienden a pensar que la FA te da algo "interpretable" y la PCA no, pero esto a menudo es una ilusión.

Finalmente, permítanme enfatizar nuevamente que, para muy pequeñas las diferencias entre PCA y FA pueden ser realmente grandes, y tal vez algunas de las afirmaciones a favor de FA se hacen con pequeña en mente. Como un ejemplo extremo, para un solo factor siempre puede explicar perfectamente la correlación, pero una PC puede no hacerlo bastante mal.n n = 2nnn=2


Actualización 1: modelos generativos de los datos

Por la cantidad de comentarios, puede ver que lo que digo se considera controvertido. A riesgo de inundar aún más la sección de comentarios, aquí hay algunos comentarios sobre los "modelos" (ver comentarios de @ttnphns y @gung). A @ttnphns no le gusta que use la palabra "modelo" [de la matriz de covarianza] para referirme a las aproximaciones anteriores; Es una cuestión de terminología, pero lo que él llama "modelos" son modelos probabilísticos / generativos de los datos :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Tenga en cuenta que PCA no es un modelo probabilístico y no puede formularse de esta manera.

La diferencia entre PPCA y FA está en el término de ruido: PPCA asume la misma varianza de ruido para cada variable, mientras que FA asume diferentes varianzas ("singularidades"). Esta pequeña diferencia tiene importantes consecuencias. Ambos modelos pueden ajustarse con un algoritmo general de maximización de expectativas. Para FA no se conoce una solución analítica, pero para PPCA se puede derivar analíticamente la solución a la que EM convergerá (tanto como ). Resulta que tiene columnas en la misma dirección pero con una longitud menor que las cargas PCA estándar (omito las fórmulas exactas). Por esa razón, pienso en PPCA como "casi" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW en ambos casos abarca el mismo "subespacio principal".

La prueba ( Tipping y Bishop 1999 ) es un poco técnica; La razón intuitiva de por qué la variación de ruido homogénea conduce a una solución mucho más simple es que tiene los mismos vectores propios que para cualquier valor de , pero esto no es cierto para .C σ 2 C - ΨCσ2ICσ2CΨ

Entonces, sí, @gung y @ttnphns tienen razón en que FA se basa en un modelo generativo y PCA no, pero creo que es importante agregar que PPCA también se basa en un modelo generativo, pero es "casi" equivalente a PCA . Entonces deja de parecer una diferencia tan importante.


Actualización 2: ¿cómo es que PCA proporciona la mejor aproximación a la matriz de covarianza, cuando se sabe que está buscando la varianza máxima?

PCA tiene dos formulaciones equivalentes: por ejemplo, la primera PC es (a) la que maximiza la varianza de la proyección y (b) la que proporciona un error de reconstrucción mínimo. De manera más abstracta, la equivalencia entre maximizar la varianza y minimizar el error de reconstrucción se puede ver usando el teorema de Eckart-Young .

Si es la matriz de datos (con observaciones como filas, variables como columnas y se supone que las columnas están centradas) y su descomposición SVD es , entonces es bien sabido que las columnas de son vectores propios de la matriz de dispersión (o matriz de covarianza, si se divide por el número de observaciones) y son ejes que maximizan la varianza (es decir, ejes principales). Pero según el teorema de Eckart-Young, las primeras PC proporcionan la mejor aproximación de rango a :X = U S VV C = XX = V S 2 V k k X X k = U k S k V k k X - X k 2XX=USVVC=XX=VS2VkkXXk=UkSkVk(esta notación significa tomar solo valores / vectores singulares más grandes) minimiza .kXXk2

Los primeros PCs no sólo proporcionan la mejor Rank- aproximación a , sino también a la matriz de covarianza . De hecho, , y la última ecuación proporciona la descomposición SVD de (porque es ortogonal y es diagonal). Entonces, el teorema de Eckert-Young nos dice que la mejor aproximación de rango a viene dada por . Esto se puede transformar al notar quek X C C = XX = V S 2 VC V S 2 k C C k = V k S 2 k V k W = V S C k = V k S 2 k V k = ( V S ) k ( V S ) k = WkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS son cargas de PCA, por lo que

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

La conclusión aquí es que como se indicó al principio.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Actualización 3: demostración numérica que PCA FA cuandon n

@Ttnphns me animó a proporcionar una demostración numérica de mi afirmación de que a medida que crece la dimensionalidad, la solución PCA se acerca a la solución FA. Aquí va.

Generé una matriz de correlación aleatoria de con algunas correlaciones fuertes fuera de la diagonal. Luego tomé el bloque cuadrado superior de esta matriz con variables para investigar el efecto de la dimensionalidad. Para cada , realicé PCA y FA con número de componentes / factores , y para cada calculé el error de reconstrucción fuera de la diagonal (tenga en cuenta que en la diagonal, FA reconstruye perfectamente , debido aln × n C n = 25 , 50 , 200 n k = 1 5 k i j [ C - W W] 2 i j C Ψ n k 1200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨtérmino, mientras que PCA no; pero la diagonal se ignora aquí). Luego, para cada y , I calculado la relación de la PCA error fuera de la diagonal de la FA error fuera de la diagonal. Esta relación tiene que ser superior a , porque FA proporciona la mejor reconstrucción posible.nk1

PCA vs FA error de reconstrucción fuera de diagonal

A la derecha, diferentes líneas corresponden a diferentes valores de , se muestra en el eje horizontal. Tenga en cuenta que a medida que crece, las relaciones (para todos los ) se aproximan a , lo que significa que PCA y FA producen aproximadamente las mismas cargas, PCA FA . Con un relativamente pequeño , por ejemplo, cuando , el PCA tiene un rendimiento [esperado] peor, pero la diferencia no es tan fuerte para pequeño , e incluso para la relación es inferior a .n n k 1 n n = 25 k k = 5 1.2knnk1nn=25kk=51.2

La relación puede llegar a ser grande cuando el número de factores vuelve comparable con el número de variables . En el ejemplo que di arriba con y , FA alcanza error de reconstrucción, mientras PCA no lo hace, es decir, la relación sería infinito. Pero volviendo a la pregunta original, cuando y , PCA sólo moderadamente perderán a FA en la explicación de la parte de fuera de la diagonal .n n = 2 k = 1 0 n = 21 k = 3 Cknn=2k=10n=21k=3C

Para ver un ejemplo ilustrado de PCA y FA aplicado a un conjunto de datos real (conjunto de datos de vino con ), vea mis respuestas aquí:n=13


2
Estaba a punto de hacer una pregunta sobre la diferencia matemática entre las técnicas, ya que la mayoría de las respuestas (por lo demás excelentes) sobre el tema aquí no hacen comparaciones matemáticas explícitas. Esta respuesta es exactamente lo que estaba buscando.
shadowtalker

2
Esta es una cuenta muy valiosa, desplegada con una perspectiva fresca. La colocación de PPCA como una técnica intermedia es crucial, es desde donde crece su opinión. ¿Puedo pedirle que deje más líneas sobre PPCA? - Qué es , cómo se estima (brevemente) y qué lo hace diferente de para que los PPC (a diferencia de los factores) llenen el subespacio de las variables y un PPC no dependa de . Ψ kσ2Ψk
ttnphns

3
Sigo de acuerdo con w / ttnphns aquí, y la distinción de que FA se basa en variables latentes, mientras que PCA es solo una transformación de los datos. Sin embargo, esto está muy bien razonado y es una posición contraria útil. Contribuye a la calidad de este hilo. +1
gung - Restablece a Monica

55
@amoeba SU RESPUESTA ES GRANDE. Es muy claro y gratificante. Gracias por compartir tu visión.
Subhash C. Davar

2
@ user795305 Disculpas, olvidé responder. El modelo FA escrito en la Actualización 1 es correcto. Se supone que la latente es de e independiente de . La solución ML para y hecho NO está minimizando la norma de como escribí en la Actualización 2; eso fue descuidado e incorrecto. Debería arreglarlo, gracias. Sin embargo, creo que está bien decir que la solución ML es tal que ; es solo que la función de pérdida aquí no es la norma de la diferencia sino una expresión más complicada (probabilidad de que dada ). zN(0,I)ϵWΨCWWΨCWW+ΨW W + ΨCWW+Ψ
ameba dice Reinstate Monica

27

Como dijiste, estás familiarizado con respuestas relevantes ; ver también : So, as long as "Factor analysis..."+ un par de últimos párrafos; y la lista de abajo aquí . En resumen, PCA es principalmente una técnica de reducción de datos, mientras que FA es una técnica de modelado de rasgos latentes. A veces dan resultados similares; pero en su caso, porque probablemente tenga ganas de construir / validar rasgos latentes como si fueran entidades reales, usar FA sería más honesto y no debería preferir PCA con la esperanza de que sus resultados converjan. Por otro lado, cada vez que intente resumir / simplificar los datos, para un análisis posterior, por ejemplo, preferiría PCA, ya que no impone ningún modelo fuerte (que podría ser irrelevante) en los datos.

Para reiterar de otra manera, PCA le brinda dimensiones que pueden corresponder a algunas construcciones subjetivamente significativas , si lo desea, mientras que EFA plantea que esas son incluso funciones encubiertas que realmente generaron sus datos, y su objetivo es encontrar esas características. En FA, la interpretación de las dimensiones (factores) está pendiente: si puede adjuntar un significado a una variable latente o no, "existe" (FA es esencialista), de lo contrario, debe eliminarlo del modelo u obtener más datos para respaldar eso. En PCA, el significado de una dimensión es opcional.

Y, una vez más, en otras palabras: cuando extrae m factores ( factores separados de los errores), estos pocos factores explican (casi) toda la correlación entre las variables, de modo que las variables no tienen margen para correlacionarse de todos modos. Por lo tanto, siempre que los "factores" se definan como rasgos latentes que generan / enlazan los datos correlacionados, tiene pistas completas para interpretar eso, lo que es responsable de las correlaciones. En PCA (extraer componentes como si fueran "factores"), los errores (pueden) aún se correlacionan entre las variables; así que no puedes afirmar que has extraído algo lo suficientemente limpio y exhaustivo como para ser interpretado de esa manera.

Es posible que desee leer mi otra respuesta más larga en la discusión actual, para algunos detalles teóricos y de experimentos de simulación sobre si PCA es un sustituto viable de FA. Por favor, preste atención también a las respuestas sobresalientes de @amoeba dadas en este hilo.


Upd : En su respuesta a esta pregunta, @amoeba, quien se opuso allí, introdujo una técnica (no conocida) PPCA como a medio camino entre PCA y FA. Naturalmente, esto lanzó la lógica de que PCA y FA están en una línea en lugar de ser opuestas. Ese valioso enfoque expande los horizontes teóricos de uno. Pero puede enmascarar la importante diferencia práctica acerca de que FA reconstruye (explica) todas las covarianzas por pares con algunos factores, mientras que PCA no puede hacerlo con éxito (y cuando ocasionalmente lo hace, es porque sucedió a mime FA).


¡Gracias por tu respuesta! Los resultados de FA en realidad convergen principalmente con el obtenido a través de PCA. Lo único es: los autores del estudio inicial (el mío es una traducción + validación) utilizaron un análisis de PCA. ¿Es esto suficiente para mantener el análisis de PCA en mi trabajo y quizás para agregar una oración que explique que los resultados de la FA convergen, o debería reemplazar la PCA por la FA? Tenga en cuenta que el revisor en realidad no nos pide explícitamente que lo hagamos, solo pide justificar por qué elegimos un PCA en lugar de FA.
Carine

Creo: si los autores utilizaron PCA pero un enfoque más estricto / honesto requiere EFA en su caso, debe dejar una línea de crítica y luego realizar PCA o PCA y EFA, para comparar los resultados.
ttnphns

2
Tenga en cuenta también la diferencia de que en PCA el número de dimensiones para extraer / retener es fundamentalmente subjetivo, mientras que en EFA el número es fijo, y generalmente tiene que verificar varias soluciones, por ejemplo, 3 a 5 factores, por el grado de cómo reproducir la matriz de correlación y qué tan bien son interpretables. FA es más tedioso, es por eso que las personas a menudo prefieren hacer PCA en aquellos casos en los que un enfoque de conciencia exige probar varios pases de EFA.
ttnphns

También vea la entrada de Wikipedia: en.wikipedia.org/wiki/…
RobertF

15

En esta mi respuesta (una segunda y adicional a la mía aquí) intentaré mostrar en imágenes que PCA no restaura bien una covarianza (mientras que restaura, maximiza, la varianza de manera óptima).

Como en varias de mis respuestas sobre PCA o análisis factorial, recurriré a la representación vectorial de variables en el espacio temático . En este caso, no es más que un gráfico de carga que muestra variables y sus cargas de componentes. Entonces obtuvimos y las variables (solo teníamos dos en el conjunto de datos), su primer componente principal, con las cargas y . El ángulo entre las variables también está marcado. Las variables se centraron en forma preliminar, por lo que sus longitudes al cuadrado, y son sus respectivas variaciones.X1X2Fa1a2h12h22

ingrese la descripción de la imagen aquí

La covarianza entre y es, es su producto escalar, (por cierto, este coseno es el valor de correlación). Las cargas de PCA, por supuesto, capturan el máximo posible de la varianza global por , la varianza del componenteX1X2h1h2cosϕh12+h22a12+a22F

Ahora, la covarianza , donde es la proyección de la variable en la variable (la proyección que es la predicción de regresión de la primera por la segunda). Y así, la magnitud de la covarianza podría representarse por el área del rectángulo a continuación (con los lados y ).h1h2cosϕ=g1h2g1X1X2g1h2

ingrese la descripción de la imagen aquí

De acuerdo con el llamado "teorema del factor" (puede saber si lee algo sobre el análisis factorial), las covarianzas entre las variables deben reproducirse (de cerca, si no exactamente) mediante la multiplicación de las cargas de las variables latentes extraídas ( leer ) Es decir, , en nuestro caso particular (si reconocer el componente principal como nuestra variable latente). Ese valor de la covarianza reproducida podría representarse por el área de un rectángulo con los lados y . Dibujemos el rectángulo, alineado por el rectángulo anterior, para comparar. Ese rectángulo se muestra sombreado a continuación, y su área se denomina cov * ( cov reproducido ).a1a2a1a2

ingrese la descripción de la imagen aquí

Es obvio que las dos áreas son bastante diferentes, con cov * siendo considerablemente más grande en nuestro ejemplo. La covarianza se sobreestimó por las cargas de , el primer componente principal. Esto es contrario a alguien que podría esperar que PCA, por el primer componente solo de los dos posibles, restablezca el valor observado de la covarianza.F

¿Qué podríamos hacer con nuestra trama para mejorar la reproducción? Podemos, por ejemplo, girar un poco el haz sentido horario, incluso hasta que se superponga con . Cuando sus líneas coinciden, eso significa que a a ser nuestra variable latente. Luego, cargar (proyección de en él) será , y cargar (proyección de en él) será . Luego, dos rectángulos son el mismo: el que fue etiquetado como cov , por lo que la covarianza se reproduce perfectamente. Sin embargo, , la varianza explicada por la nueva "variable latente", es menor queFX2X2a2X2h2a1X1g1g12+h22a12+a22 , la varianza explicada por la antigua variable latente, el primer componente principal (cuadrar y apilar los lados de cada uno de los dos rectángulos en la imagen, para comparar). Parece que logramos reproducir la covarianza, pero a expensas de explicar la cantidad de varianza. Es decir, seleccionando otro eje latente en lugar del primer componente principal.

Nuestra imaginación o suposición puede sugerir (no lo probaré y posiblemente no pueda demostrarlo con las matemáticas, no soy matemático) que si liberamos el eje latente del espacio definido por y , el plano, lo que le permite oscilar un un poco hacia nosotros, podemos encontrar una posición óptima de él, llámelo, digamos, , por el cual la covarianza se reproduce de nuevo perfectamente por las cargas emergentes ( ) mientras se explica la varianza ( ) será más grande que , aunque no tan grande como del componente principal .X1X2Fa1a2a12+a22g12+h22a12+a22F

Creo que esta condición se puede lograr, particularmente en ese caso cuando el eje latente se dibuja extendiéndose fuera del plano de tal manera que tire de una "capucha" de dos planos ortogonales derivados, uno que contiene el eje y y el otro contiene el eje y . Entonces, a este eje latente lo llamaremos factor común , y todo nuestro "intento de originalidad" se denominará análisis factorial .FX1X2


Una respuesta a la "Actualización 2" de @ amoeba con respecto a PCA.

@amoeba es correcto y relevante para recordar el teorema de Eckart-Young, que es fundamental para PCA y sus técnicas congenéricas (PCoA, biplot, análisis de correspondencia) basadas en SVD o descomposición propia. Según esto, primeros ejes principales de minimizan óptimamente - una cantidad igual a , - así como . Aquí representa los datos reproducidos por los ejes principales. Se sabe que es igual a , siendo las cargas variables de lakX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk componentes.

¿Significa que la minimización sigue siendo verdadera si consideramos solo porciones fuera de la diagonal de ambas matrices simétricas? Inspeccionémoslo experimentando.||XXXkXk||2

Se generaron 500 10x6matrices aleatorias (distribución uniforme). Para cada uno, después de centrar sus columnas, se realizó PCA y se calcularon dos matrices de datos reconstruidas : una reconstruida por los componentes 1 a 3 ( primero, como es habitual en PCA), y la otra como reconstruida por los componentes 1, 2 y 4 (es decir, el componente 3 fue reemplazado por un componente más débil 4). El error de reconstrucción (suma de la diferencia al cuadrado = distancia euclidiana al cuadrado) se calculó para una , para la otra . Estos dos valores son un par para mostrar en un diagrama de dispersión.XXkk||XXXkXk||2XkXk

El error de reconstrucción se calculó cada vez en dos versiones: (a) se compararon matrices enteras y ; (b) solo fuera de las diagonales de las dos matrices comparadas. Por lo tanto, tenemos dos diagramas de dispersión, con 500 puntos cada uno.XXXkXk

ingrese la descripción de la imagen aquí

Vemos que en la gráfica de "matriz completa" todos los puntos se encuentran por encima de la y=xlínea. Lo que significa que la reconstrucción de toda la matriz del producto escalar es siempre más precisa por "1 a 3 componentes" que por "1, 2, 4 componentes". Esto está en consonancia con el teorema Eckart-Young dice: primero componentes principales son los mejores montadores.k

Sin embargo, cuando observamos el diagrama "solo fuera de diagonales", notamos una cantidad de puntos debajo de la y=xlínea. Parecía que a veces la reconstrucción de porciones fuera de la diagonal por "1 a 3 componentes" era peor que por "1, 2, 4 componentes". Lo que automáticamente lleva a la conclusión de que los primeros componentes principales no son regularmente los mejores adaptadores de productos escalares fuera de diagonal entre los adaptadores disponibles en PCA. Por ejemplo, tomar un componente más débil en lugar de uno más fuerte a veces puede mejorar la reconstrucción.k

Por lo tanto, incluso en el dominio de la PCA , los componentes principales de alto nivel, que sabemos aproximar la varianza general, como sabemos, e incluso toda la matriz de covarianza, no necesariamente se aproximan a las covarianzas fuera de la diagonal . Por lo tanto, se requiere una mejor optimización de esos; y sabemos que el análisis factorial es la técnica (o entre las) que puede ofrecerlo.


Un seguimiento de la "Actualización 3" de @ amoeba: ¿PCA se acerca a FA a medida que crece el número de variables? ¿Es PCA un sustituto válido de FA?

He realizado una red de estudios de simulación. Algunas estructuras de factores de población, matrices de carga se construyeron con números aleatorios y se convirtieron en sus correspondientes matrices de covarianza de población como , siendo un ruido diagonal (único variaciones). Estas matrices de covarianza se hicieron con todas las varianzas 1, por lo tanto, eran iguales a sus matrices de correlación.AR=AA+U2U2

Se diseñaron dos tipos de estructura factorial: aguda y difusa . La estructura afilada es una que tiene una estructura simple y clara: las cargas son "altas" o "bajas", no intermedias; y (en mi diseño) cada variable está altamente cargada exactamente por un factor. Correspondiente es, por lo tanto, notablemente como un bloque. La estructura difusa no diferencia entre cargas altas y bajas: pueden ser cualquier valor aleatorio dentro de un límite; y no se concibe ningún patrón dentro de las cargas. En consecuencia, el correspondiente viene más suave. Ejemplos de matrices de población:RR

ingrese la descripción de la imagen aquí

El número de factores fue o . El número de variables se determinó por la razón k = número de variables por factor ; k corrió valores en el estudio.264,7,10,13,16

Para cada una de las pocas poblaciones construidas , se generaron sus realizaciones aleatorias de la distribución de Wishart (bajo el tamaño de la muestra ). Estas fueron matrices de covarianza de muestra . Cada uno fue analizado por factor por FA (por extracción del eje principal) así como por PCA . Además, cada matriz de covarianza se convirtió en la matriz de correlación de muestra correspondiente que también se analizó (factorizó) de la misma manera. Por último, también realicé la factorización de la matriz de covarianza de población (= correlación) "primaria". La medida de adecuación muestral de Kaiser-Meyer-Olkin siempre fue superior a 0,7.50R50n=200

Para los datos con 2 factores, los análisis extrajeron 2 y también 1 y 3 factores ("subestimación" y "sobreestimación" del número correcto de regímenes de factores). Para los datos con 6 factores, los análisis también extrajeron 6, y también 4 y 8 factores.

El objetivo del estudio fue las cualidades de restauración de covarianzas / correlaciones de FA vs PCA. Por lo tanto, se obtuvieron residuos de elementos fuera de la diagonal. Registré los residuos entre los elementos reproducidos y los elementos de la matriz de la población, así como los residuos entre los primeros y los elementos de la matriz de la muestra analizada. Los residuos del primer tipo fueron conceptualmente más interesantes.

Los resultados obtenidos después de los análisis realizados sobre la covarianza de la muestra y las matrices de correlación de la muestra tuvieron ciertas diferencias, pero todos los hallazgos principales ocurrieron para ser similares. Por lo tanto, estoy discutiendo (mostrando resultados) solo de los análisis del "modo de correlaciones".

1. Ajuste general fuera de diagonal por PCA vs FA

Los gráficos a continuación trazan, contra varios números de factores y diferentes k, la relación del residuo cuadrado fuera de la diagonal promedio producido en PCA a la misma cantidad producida en FA . Esto es similar a lo que mostró @amoeba en la "Actualización 3". Las líneas en el gráfico representan tendencias promedio en las 50 simulaciones (omito mostrar barras de error de st en ellas).

(Nota: los resultados son sobre la factorización de matrices de correlación de muestras aleatorias , no sobre la factorización de la matriz de población parental a ellos: es una tontería comparar PCA con FA en cuanto a cómo explican una matriz de población: FA siempre ganará, y si el se extrae el número correcto de factores, sus residuos serán casi cero, por lo que la relación se precipitará hacia el infinito).

ingrese la descripción de la imagen aquí

Comentando estas tramas:

  • Tendencia general: a medida que k (número de variables por factor) crece, la relación de subfit PCA / FA se desvanece hacia 1. Es decir, con más variables, PCA se acerca a FA al explicar las correlaciones / covarianzas fuera de la diagonal. (Documentado por @amoeba en su respuesta.) Presumiblemente, la ley que aproxima las curvas es ratio = exp (b0 + b1 / k) con b0 cerca de 0.
  • La relación es mayor de residuos de wrt "muestra menos muestra reproducida" (gráfico de la izquierda) que los residuos de wrt "población menos muestra reproducida" (gráfico de la derecha). Es decir (trivialmente), PCA es inferior a FA en el ajuste de la matriz que se analiza inmediatamente. Sin embargo, las líneas en el gráfico de la izquierda tienen una tasa de disminución más rápida, por lo que en k = 16 la relación también es inferior a 2, como en el gráfico de la derecha.
  • Con los residuos "población menos muestra reproducida", las tendencias no siempre son convexas o incluso monótonas (los codos inusuales se muestran en un círculo). Por lo tanto, siempre que el discurso se trate de explicar una matriz de coeficientes de población mediante la factorización de una muestra, el aumento del número de variables no acerca regularmente a PCA a FA en su calidad de ajuste, aunque la tendencia está ahí.
  • La relación es mayor para m = 2 factores que para m = 6 factores en la población (las líneas rojas en negrita están debajo de las líneas verdes en negrita). Lo que significa que con más factores que actúan en los datos, PCA pronto se pone al día con FA. Por ejemplo, en la gráfica de la derecha, k = 4 produce una relación de alrededor de 1.7 para 6 factores, mientras que el mismo valor para 2 factores se alcanza en k = 7.
  • La relación es mayor si extraemos más factores relativos al número verdadero de factores. Es decir, PCA es un poco peor que AF si en la extracción subestimamos el número de factores; y pierde más si el número de factores es correcto o sobreestimado (compare líneas delgadas con líneas en negrita).
  • Hay un efecto interesante de la nitidez de la estructura factorial que aparece solo si consideramos los residuos "población menos muestra reproducida": compare las parcelas grises y amarillas a la derecha. Si los factores de población cargan las variables difusamente, las líneas rojas (m = 6 factores) se hunden hasta el fondo. Es decir, en una estructura difusa (como cargas de números caóticos), el PCA (realizado en una muestra) es solo unos pocos peores que el FA en la reconstrucción de las correlaciones de la población, incluso bajo una pequeña k, siempre que el número de factores en la población no sea muy pequeña. Esta es probablemente la condición cuando PCA está más cerca de FA y está más garantizado como su sustituto más barato. Mientras que en presencia de una estructura factorial aguda, PCA no es tan optimista en la reconstrucción de las correlaciones (o covarianzas) de la población: se acerca a FA solo en una gran perspectiva k.

2. Ajuste a nivel de elemento por PCA vs FA: distribución de residuos

Para cada experimento de simulación en el que se realizó la factorización (por PCA o FA) de 50 matrices de muestras aleatorias de la matriz de población, se obtuvo la distribución de los residuos "correlación de la población menos la correlación de la muestra reproducida (por la factorización)" para cada elemento de correlación fuera de la diagonal. Las distribuciones siguieron patrones claros, y los ejemplos de distribuciones típicas se muestran a continuación. Los resultados después de la factorización de PCA son lados izquierdos azules y los resultados después de la factorización FA son lados derechos verdes.

ingrese la descripción de la imagen aquí

El principal hallazgo es que

  • Pronunciada, por magnitud absoluta, las correlaciones de población son restauradas por PCA de manera inadecuada: los valores reproducidos se sobreestiman por magnitud.
  • Pero el sesgo se desvanece a medida que aumenta k (relación número de variables a número de factores). En la imagen, cuando solo hay k = 4 variables por factor, los residuos de PCA se extienden en compensación desde 0. Esto se ve tanto cuando existen 2 factores como 6 factores. Pero con k = 16 apenas se ve el desplazamiento: casi desapareció y el ajuste PCA se acerca al ajuste FA. No se observa diferencia en la dispersión (varianza) de los residuos entre PCA y FA.

También se ve una imagen similar cuando el número de factores extraídos no coincide con el número verdadero de factores: solo la variación de los residuos cambia algo.

Las distribuciones que se muestran arriba en el fondo gris pertenecen a los experimentos con una estructura factorial aguda (simple) presente en la población. Cuando todos los análisis se realizaron en una situación de estructura difusa del factor de población, se descubrió que el sesgo de PCA se desvanece no solo con el aumento de k, sino también con el aumento de m (número de factores). Consulte los adjuntos de fondo amarillo a escala reducida en la columna "6 factores, k = 4": casi no se observa compensación de 0 para los resultados de PCA (la compensación aún está presente con m = 2, que no se muestra en la imagen )

Pensando que los hallazgos descritos son importantes, decidí inspeccionar esas distribuciones residuales más profundamente y tracé los diagramas de dispersión de los residuos (eje Y) contra el valor del elemento (correlación de población) (eje X). Estos diagramas de dispersión combinan los resultados de todas las muchas (50) simulaciones / análisis. La línea de ajuste LOESS (50% de puntos locales para usar, núcleo Epanechnikov) está resaltada. El primer conjunto de parcelas es para el caso de la estructura de factores agudos en la población (por lo tanto, la trimodalidad de los valores de correlación es evidente):

ingrese la descripción de la imagen aquí

Comentando:

  • Vemos claramente el sesgo de reconstrucción (descrito anteriormente) que es característico de PCA como la línea de tendencia negativa, sesgada: grandes en correlaciones de población de valor absoluto son sobreestimadas por PCA de conjuntos de datos de muestra. FA es imparcial (loess horizontal).
  • A medida que k crece, el sesgo de PCA disminuye.
  • La PCA está sesgada independientemente de cuántos factores haya en la población: con 6 factores existentes (y 6 extraídos en los análisis), es igualmente defectuoso que con 2 factores existentes (2 extraídos).

El segundo conjunto de gráficos a continuación es para el caso de la estructura de factores difusos en la población:

ingrese la descripción de la imagen aquí

Nuevamente observamos el sesgo por PCA. Sin embargo, a diferencia del caso de la estructura de factores agudos, el sesgo se desvanece a medida que aumenta el número de factores: con 6 factores de población, la línea de loess de PCA no está muy lejos de ser horizontal, incluso bajo k solo 4. Esto es lo que hemos expresado por " histogramas amarillos "antes.

Un fenómeno interesante en ambos conjuntos de diagramas de dispersión es que las líneas de loess para PCA tienen una curva en S. Esta curvatura se muestra bajo otras estructuras de factores de población (cargas) construidas aleatoriamente por mí (verifiqué), aunque su grado varía y a menudo es débil. Si se sigue de la forma S, entonces ese PCA comienza a distorsionar las correlaciones rápidamente a medida que rebotan desde 0 (especialmente bajo k pequeño), pero desde algún valor en - alrededor de .30 o .40 - se estabiliza. No especularé en este momento por la posible razón de ese comportamiento, aunque creo que la "sinusoide" proviene de la naturaleza triginométrica de la correlación.

Fit by PCA vs FA: Conclusiones

Como el ajustador general de la porción fuera de la diagonal de una matriz de correlación / covarianza, la PCA, cuando se aplica para analizar una matriz de muestra de una población, puede ser un sustituto bastante bueno para el análisis factorial. Esto sucede cuando la relación número de variables / número de factores esperados es lo suficientemente grande. (La razón geométrica del efecto beneficioso de la relación se explica en la nota al pie de página ). Con más factores existentes, la relación puede ser menor que con pocos factores. La presencia de una estructura de factor agudo (existe una estructura simple en la población) dificulta que la PCA se acerque a la calidad de la FA.1

El efecto de la estructura de factor agudo en la capacidad de ajuste general de PCA es aparente solo mientras se consideren los residuos "población menos muestra reproducida". Por lo tanto, uno puede dejar de reconocerlo fuera de un entorno de estudio de simulación: en un estudio observacional de una muestra no tenemos acceso a estos residuos importantes.

A diferencia del análisis factorial, PCA es un estimador sesgado (positivamente) de la magnitud de las correlaciones de población (o covarianzas) que están lejos de cero. Sin embargo, el sesgo de la PCA disminuye a medida que aumenta la relación número de variables / número de factores esperados. El sesgo también disminuye a medida que crece el número de factores en la población, pero esta última tendencia se ve obstaculizada por una fuerte estructura de factores presente.

Quisiera señalar que el sesgo de ajuste de PCA y el efecto de la estructura afilada en él se pueden descubrir también al considerar los residuos "muestra menos muestra reproducida"; Simplemente omití mostrar tales resultados porque parecen no agregar nuevas impresiones.

Mi consejo tentativo y amplio al final podría ser abstenerse de usar PCA en lugar de FA para fines analíticos de factores típicos (es decir, con 10 o menos factores esperados en la población) a menos que tenga unas 10 veces más variables que los factores. Y cuantos menos son factores, más severa es la proporción necesaria. Me gustaría continuar no recomienda el uso de PCA en lugar de la FA en absoluto siempre que los datos con bien establecida factor de estructura, fuerte, se analizaron - por ejemplo, cuando se realiza un análisis factorial para validar la están desarrollando o ya en marcha examen psicológico o un cuestionario con construcciones / escalas articulados . El PCA puede usarse como una herramienta de selección inicial y preliminar de elementos para un instrumento psicométrico.

Limitaciones del estudio. 1) Utilicé solo el método PAF de extracción de factores. 2) Se fijó el tamaño de la muestra (200). 3) Se asumió la población normal en el muestreo de las matrices de muestra. 4) Para una estructura aguda, se modeló el mismo número de variables por factor. 5) Construyendo cargas de factores de población Los tomé prestados de una distribución más o menos uniforme (para estructura afilada - trimodal, es decir, uniforme de 3 piezas). 6) Podría haber descuidos en este examen instantáneo, por supuesto, como en cualquier otro lugar.


Nota al pie . PCA imitará los resultados de FA y se convertirá en el ajustador equivalente de las correlaciones cuando, como se dijo aquí , las variables de error del modelo, llamadas factores únicos , no estén correlacionadas. FA busca para que sean correlacionadas, pero no PCA, que puede ocurrir no esté correlacionada en PCA. La condición principal cuando puede ocurrir es cuando el número de variables por número de factores comunes (componentes mantenidos como factores comunes) es grande.1

Considere las siguientes fotos (si primero necesita aprender a entenderlas, lea esta respuesta ):

ingrese la descripción de la imagen aquí

Por el requisito del análisis factorial para poder restaurar exitosamente las correlaciones con pocos mfactores comunes, los factores únicos , que caracterizan porciones estadísticamente únicas de las variables manifiestas , no deben estar correlacionados. Cuando se utiliza PCA, las tienen que estar en el subespacio del espacio-abarcado por las s porque PCA no deja el espacio de las variables analizadas. Por lo tanto, vea la imagen de la izquierda, con (componente principal es el factor extraído) y ( , ) analizados, factores únicos ,X U X P 1 X 1 X 2 U 1 U 2 r = - 1UpXp Up-mpXm=1P1p=2X1X2U1U2se superponen obligatoriamente en el segundo componente restante (que sirve como error del análisis). En consecuencia, deben correlacionarse con . (En la imagen, las correlaciones equivalen a cosenos de ángulos entre vectores). La ortogonalidad requerida es imposible, y la correlación observada entre las variables nunca puede restaurarse (a menos que los factores únicos sean vectores cero, un caso trivial).r=1

Pero si agrega una variable más ( ), foto derecha y extrae aún una pr. componente como el factor común, las tres tienen que estar en un plano (definido por los dos componentes pr. restantes). Tres flechas pueden atravesar un plano de manera que los ángulos entre ellas sean menores de 180 grados. Allí emerge la libertad para los ángulos. Como posible caso particular, los ángulos pueden ser aproximadamente iguales, 120 grados. Eso ya no está muy lejos de los 90 grados, es decir, de la falta de correlación. Esta es la situación que se muestra en la foto. UX3U

A medida que agreguemos la cuarta variable, 4 s abarcarán el espacio 3d. Con 5, 5 para abarcar 4d, etc. Se ampliará el espacio para muchos ángulos simultáneamente para alcanzar más cerca de 90 grados. Lo que significa que también se ampliará el espacio para que PCA se acerque a FA en su capacidad de ajustar triángulos fuera de la diagonal de la matriz de correlación.U

Pero la verdadera FA generalmente puede restaurar las correlaciones incluso con una pequeña relación "número de variables / número de factores" porque, como se explica aquí (y vea la segunda foto allí), el análisis de factores permite todos los vectores de factores (factores comunes y únicos) unos) para desviarse de estar en el espacio de las variables. Por lo tanto, hay espacio para la ortogonalidad de incluso con solo 2 variables y un factor.XUX

Las fotos anteriores también dan una pista obvia de por qué PCA sobreestima las correlaciones. En la imagen de la izquierda, por ejemplo, , donde las s son las proyecciones de las s en (cargas de ) y las s son las longitudes de las s (cargas de ) Pero esa correlación reconstruida por solo es igual a , es decir, más grande que . a X P 1 P 1 u U P 2 P 1 a 1 a 2 r X 1 X 2rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Me encantan tus dibujos de PCA / FA / CCA, así que felizmente +1. Esta forma de pensar es algo a lo que no estoy completamente acostumbrado, por lo que requiere un poco de pensamiento mapearlo a las matemáticas que conozco ... Sin embargo, tenga en cuenta que aquí (así como en su otra respuesta famosa de FA-vs-PCA con dibujos) solo tiene dos variables. Como dije en mi respuesta, cuando solo hay dos variables, un factor en FA es suficiente para reproducir perfectamente la covarianza (100%) (porque solo hay un grado de libertad en la matriz de covarianza, aparte de la diagonal), pero una PC generalmente no puede hacerlo. Entonces no hay contradicción con mi respuesta.
ameba dice Reinstate Monica

Hmm, espero no haber entendido mal el punto de reproducción diferente por FA y PCA. El lugar aquí es demasiado corto para mi punto, lo pondría en otra respuesta
Gottfried Helms

2
En respuesta a su actualización (que es su respuesta a mi actualización 2): ¡Estoy absolutamente de acuerdo con todo lo que escribió aquí! Las cargas de PCA son la mejor aproximación de bajo rango a toda la matriz de covarianza (incluida la diagonal), pero no necesariamente la mejor aproximación de bajo rango a la parte fuera de la diagonal; Esta última aproximación viene dada por el análisis factorial. Parece que llegamos a un acuerdo mutuo aquí; ¿o todavía sientes que algunas partes de mi respuesta contradicen tu pensamiento?
ameba dice Reinstate Monica

1
@ttnphns: releí nuestra discusión anterior y me permití volver a un punto que hice en mi respuesta original. PCA intenta encontrar cargas que se aproximen a toda la matriz de covarianza; FA intenta encontrar cargas que se aproximen a la parte fuera de la diagonal. Pero cuanto mayor es la dimensionalidad, la parte más pequeña de la matriz de covarianza se toma por su diagonal, lo que significa que, en grandes dimensiones, el PCA comienza a preocuparse principalmente por la parte fuera de la diagonal (porque la parte diagonal se vuelve muy pequeña). Entonces, en general, cuanto mayor es la dimensionalidad, más se acerca PCA a FA. ¿Estás de acuerdo?
ameba dice Reinstate Monica

1
Gracias por el ping, ttnphns. Wow, esto se ve interesante. Lo leeré detenidamente pero no ahora; Puede que tenga que posponerlo hasta enero. Voy a comentar aquí una vez que lo lea. Por cierto, he estado pensando (en la parte de atrás de mi cabeza) en volver a este hilo y editar mi respuesta un poco para hacerlo más "reconciliador". Esta podría ser una buena oportunidad para hacerlo (pero déjame leer lo que escribiste primero). С наступающим!
ameba dice Reinstate Monica

4

(Esto es realmente un comentario a la segunda respuesta de @ ttnphns)
En lo que respecta a los diferentes tipos de reproducción de covarianza suponiendo un error por PC y por FA, simplemente imprimí las cargas / componentes de la varianza que ocurren en los dos procedimientos anteriores. ; solo para los ejemplos tomé 2 variables.

Asumimos la construcción de los dos ítems a partir de un factor común y factores específicos de ítems. Aquí está esa matriz de factor de carga:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

La matriz de correlación por esto es

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Si observamos la matriz de cargas L_fa e interpretamos como de costumbre en FA que f2 y f3 son términos de error / error específico del elemento, reproducimos C sin ese error, recibiendo

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Así que hemos reproducido perfectamente el elemento fuera de la diagonal, que es la covarianza (y la diagonal se reduce)

Si observamos la solución pca (puede hacerse mediante rotaciones simples) obtenemos los dos factores de la misma matriz de correlación:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Asumiendo el segundo factor como error, obtenemos la matriz reproducida de covarianzas

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

donde hemos sobreestimado la verdadera correlación. Esto se debe a que ignoramos la corrección de la covarianza parcial negativa en el segundo factor = error. Tenga en cuenta que la PPCA sería idéntica al primer ejemplo.

Con más elementos, esto ya no es tan obvio, sino que sigue siendo un efecto inherente. Por lo tanto, también existe el concepto de extracción MinRes (¿o rotación?) Y también he visto algo así como la extracción de máxima determinante y ...


[actualización] En cuanto a la pregunta de @amoeba:

Entendí el concepto de "Residuos mínimos" ("MinRes") - rotación como un método concurrente a los métodos anteriores de cálculo CFA, para lograr la mejor reproducción de los elementos fuera de la diagonal de una matriz de correlación. Aprendí esto en los años 80 y 90 y no seguí el desarrollo del análisis factorial (tan profundo como antes en los últimos años), por lo que posiblemente "MinRes" esté pasado de moda.

Para compararlo con la solución PCA : se puede pensar en encontrar la solución pc mediante rotaciones de los factores cuando se consideran ejes en un espacio euclidiano y las cargas son las coordenadas de los elementos en ese espacio vectorial.
Luego, para un par de ejes, digamos x, y se calculan las sumas de cuadrados de las cargas del eje xy las del eje y.
A partir de este se puede encontrar un ángulo de rotación, por el cual deberíamos rotar, para obtener las sumas de cuadrados en los ejes rotados máximas en el eje x ° y mínimas en el eje y ° (donde el círculo pequeño indica los ejes rotados) .

Hacer esto para todos los pares de ejes (donde solo siempre el eje x es la izquierda y el eje y es la derecha (por lo que para 4 factores tenemos solo 6 pares de rotación)) y luego repetir todo el proceso para un resultado estable realiza el llamado "método de Jacobi" para encontrar la solución de componentes principales: ubicará el primer eje de tal manera que recolecte la suma máxima posible de cuadrados de cargas ("SSqL") (que significa también "de la varianza ") en un eje en la configuración correlacional actual.

Por lo que he entendido, " MinRes " debería mirar las correlaciones parciales en lugar de SSqL; por lo tanto, no resume los cuadrados de las cargas (como se hizo en la rotación Jacobi-pc), sino que resume los productos cruzados de las cargas en cada factor, excepto los "productos cruzados" (= cuadrados) de las cargas de cada uno Artículo consigo mismo.
Después de calcular los criterios para el eje xy para el eje y, procede de la misma manera que se describe para la rotación iterativa de jacobi.

Como el criterio de rotación es numéricamente diferente del criterio de SSqL máximo, el resultado / la posición de rotación será diferente de la solución PCA. Si converge, debería proporcionar la máxima correlación parcial posible en un eje en el primer factor, la siguiente correlación máxima en el siguiente factor y así sucesivamente. La idea parece ser, entonces, asumir tantos ejes / factores que la covarianza parcial restante / residual se vuelve marginal.

(Tenga en cuenta que esto es solo cómo interpreté las cosas, no he visto ese procedimiento escrito explícitamente (o no puedo recordar en este momento); una descripción en mathworld parece expresarlo más bien en términos de las fórmulas como en la respuesta de ameba) y es probablemente más autoritario. Acabo de encontrar otra referencia en la documentación del proyecto R y una muy buena referencia en el libro de Gorsuch sobre análisis de facto, página 116, disponible a través de google-books )


¿Puedes explicar a qué te refieres en tu última oración? ¿Qué es la extracción "MinRes" o "máximo determinante" y cómo se relaciona eso con lo que escribió anteriormente?
ameba dice Reinstate Monica

"MinRes" es un método de extracción o rotación que encontré hace años, ya sea en las monografías de S. Mulaik o K. Überla sobre el Factoranálisis. Se enfoca en minimizar los elementos residuales fuera del diagnóstico. Debido a que se había mencionado explícitamente en el contexto de muchos otros métodos, asumí que es, posiblemente un poco diferente, de las implementaciones de CFA de esa época. Traté de implementar su justificación como criterio de rotación, pero de alguna manera no tuve un resultado concluyente. También esperaba que aquí se conociera "Maximizar el determinante"; Veré qué descripción recibí hace 20 años ...
Gottfried Helms

Ahh, tengo ambas partes. Una descripción de la rotación-criterio para la -rationale "minres" está en go.helms-net.de/stat/fa/minres.htm . El "determinante máximo" es el modelo matemático bajo un método de extracción / rotación de algún corresponsal Jeffrey Owen Katz que lo llamó "oblicuo" y posiblemente se desarrolló después de nuestra correspondencia. Para entonces ya estaba sobre mi cabeza; de todos modos intenté entender el método y lo formateé y reorganicé en un archivo de palabras. Ver go.helms-net.de/stat/fa/oblisim.zip Google para "oblisim" dio una entrada de grupo de noticias que parece haberla introducido.
Gottfried Helms

@amoeba: Aquí es posiblemente la primera entrada, donde Jeff Katz introdujo su conjunto de métodos: mathforum.org/kb/message.jspa?messageID=1516627 Es de 1998, por lo que creo que hace 20 años fue un poco impreciso ...
Gottfried Helms

2

En mi opinión, las nociones de "PCA" y "FA" están en una dimensión diferente de las nociones de "exploratorio", "confirmatorio" o tal vez "inferencial". Por lo tanto, cada uno de los dos métodos matemáticos / estadísticos se puede aplicar con uno de los tres enfoques.

Por ejemplo, ¿por qué no tendría sentido tener una hipótesis, que mis datos tienen un factor general y también la estructura de un conjunto de componentes principales (porque mi experimento con mi aparato electrónico me dio datos casi sin errores) y pruebo mi hipótesis, que los valores propios de los factores posteriores ocurren con una proporción del 75%? Esto es entonces PCA en un marco confirmatorio.

Por otro lado, parece ridículo que en nuestro equipo de investigación creamos con mucho trabajo una batería de elementos para medir la violencia entre los alumnos y asumir 3 comportamientos principales (agresión física, depresión, búsqueda de ayuda por parte de las autoridades / padres) y formular las preguntas pertinentes. en esa batería ... y "exploratoriamente" calculamos cuántos factores tenemos ... En lugar de mirar, qué tan bien nuestra escala contiene tres factores reconocibles (además de elementos descuidados específicos y posiblemente incluso errores falsamente correlacionados). Y después de eso, cuando he confirmado, que de hecho nuestra batería de ítems sirve para la intención, podríamos probar la hipótesis, que en las clases de niños más pequeños las cargas sobre el factor que indica "buscar-ayuda-por-autoridades" son más altas que el de los alumnos mayores. Hmmm, nuevamente confirmatorio ...

¿Y exploratorio? Tengo un conjunto de medidas tomadas de una investigación sobre microbiología de 1960 y no tenían mucha teoría, pero tomaron muestras de todo lo que podían manejar porque su campo de investigación era muy joven, y volví a explorar la estructura de factores dominante, suponiendo (por ejemplo) , que todos los errores son de la misma cantidad debido a la precisión óptica del microscopio utilizado (el ppca-ansatz como acabo de aprender). Luego uso el modelo estadístico (y posteriormente el matemático) para la FA, pero en este caso de manera exploratoria.

Al menos así es como entiendo los términos.
Tal vez estoy completamente en el camino equivocado aquí, pero no lo asumo.


PD. En los años 90 escribí un pequeño programa interactivo para explorar el método de PCA y análisis de facto hasta el fondo. Fue escrito en Turbo-Pascal, todavía se puede ejecutar en una ventana de dos ("Dos-box" en Win7) pero tiene un atractivo muy agradable: cambiar de forma interactiva los factores que se incluirán o no, luego rotar, separar el error específico del elemento. varianza (de acuerdo con el criterio SMC o el criterio de igualdad de varianzas (ppca?)), active y desactive la opción Kaiser, el uso de las covarianzas activado y desactivado, todo mientras la matriz de carga de factores es visible como en una hoja de cálculo y puede rotarse para los diferentes métodos básicos de rotación.
No es muy sofisticado: no hay prueba de chisquare, por ejemplo, solo destinada al autoaprendizaje de la mecánica matemática interna. También tiene un "modo de demostración", donde el programa se ejecuta solo, mostrando comentarios explicativos en la pantalla y simulando las entradas del teclado, lo que normalmente haría el usuario.
Quien esté interesado en hacer un autoestudio o enseñar con él, puede descargarlo de mis pequeñas páginas de software dentro de (R) .zip Simplemente expanda los archivos en el zip en un directorio accesible por el Dos-Box y llame a "demoall.bat". En la tercera parte de la "demostración", hice una demostración de cómo modelar errores específicos de ítems mediante rotaciones desde una solución inicialmente pca ...


Un puerto R de su programa sería interesante. Por cierto, mi primer lenguaje de programación (y uno de los favoritos) fue [Turbo] Pascal. Incluso lo usé para escribir software para mi trabajo de diploma BS. Luego, algún tiempo después, usé Delphi por un tiempo, junto con otros lenguajes y sistemas. :-)
Aleksandr Blekh

1
@ Aleksandr: Bueno, tal importación seguramente sería una buena idea; sin embargo ... mientras tanto recibo los "boletos de Senior" para el sistema de tráfico local y, aunque todavía no estoy cansado, estoy un poco cansado de la programación ... Creo que "Delphi" fue un reemplazo natural para Turbo Pascal ; Había mejorado mucho ese Inside- [r] hasta una calculadora matricial "MatMate" usando Delphi 6 en el que incorporé Inside- [r] como una herramienta auxiliar. Sin embargo, a veces pienso que esa característica realmente agradable con apuntar y hacer clic en Inside- [r] también debería volver a realizarse, además de cualquier guión sofisticado o lenguaje de intérprete ...
Gottfried Helms

2

Solo un comentario adicional para la larga (y realmente genial) respuesta de @ amoebas sobre el carácter de la estimación . Ψ

En sus declaraciones iniciales tiene tres : para PCA es , para PPCA es y para FA dejó indeterminado. Ψ = 0 Ψ = σ 2 I ΨΨΨ=0Ψ=σ2IΨ

Pero debe mencionarse que hay un número infinito de varios posibles (seguramente restringidos) pero exactamente uno solo que minimiza el rango de la matriz de factores. Llamemos a esto La estimación estándar (automática) para es la matriz diagonal basada en los SMC, así que escribamos esto como (e incluso algunos programas (parecen) no intentan optimizar hacia abajo desde mientras que es (generalmente) requerido para prevenir los casos de Heywood / definición negativa). Y, además, incluso ese optimizadoΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2no garantizaría un rango mínimo de las covarianzas restantes, por lo tanto, generalmente tenemos esto no igual: en general . Encontrar realmente a es un juego muy difícil, y que yo sepa (pero eso no es tan "tan lejos" como, digamos, hace 20 años, cuando estaba más involucrado y más cerca de los libros) esto todavía es Un problema sin resolver. ΨstdΨopt
Ψopt


Bueno, esto refleja el lado matemático ideal del problema, y ​​mi distinción entre y también podría ser realmente pequeña. Sin embargo, una advertencia más general es que discute toda la maquinaria de factorización desde el punto de vista de que estudio solo mi muestra o tengo datos de toda la población ; en el modelo de estadística inferencial, donde infiero de una muestra imperfecta en la población, mi covarianza empírica, y por lo tanto también la matriz de factores es solo una estimación, es solo una sombra de la matriz de covarianza / factor "verdadera". Por lo tanto, en dicho marco / modelo incluso deberíamos considerar que nuestros "errores" no son idealesΨstdΨopt, y por lo tanto podría estar falsamente correlacionado. Entonces, de hecho, en tales modelos deberíamos / deberíamos dejar atrás la suposición de algún modo idealista de error no correlacionado y, por lo tanto, de una forma estrictamente diagonal de .Ψ


Hola, no estoy seguro de poder seguir completamente tus comentarios aquí. ¿Entiendo correctamente que por te refieres a una matriz tan diagonal con elementos positivos que tiene el rango más bajo posible (donde es la matriz cov / corr)? Creo que para general de tamaño este rango más bajo posible no es mucho menor que (tal vez o algo así), por lo que encontrar no parece muy interesante. Estaba basando mi respuesta en el supuesto de que FA intenta encontrar y (de tamaño de para un dadoΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) para minimizar. CWWΨ
ameba dice Reinstate Monica

La diferencia de los puntos de vista podría basarse en el orden de los pasos para resolver el problema y estimar dos parámetros que también dependen uno del otro. En mi comentario, comienzo con el punto, que hay un para el cual el rango restante, digamos , de es mínimo y , aunque puede ser que tengamos algunos factores con en mente. Si entonces a la posición minres, cualquier número de factores cortados desde la derecha elimina solo la covarianza mínima (parcial). ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms

(...) Si comienza con lugar, tiene en general al menos un rango más y, por lo tanto, el número de factores s tendrá . Entonces, encontrar la mínima cantidad posible de covarianza removible cortando factores (incluso después de la rotación por algunos criterios como pc o minas) será subóptimo. Descargo de responsabilidad : esto sigue siendo una hipótesis: es difícil encontrar para covarianzas, cuya estructura no es de fabricación propia y todos los experimentos pseudoaleatorios con ejemplos de fabricación propia son menos confiables que los casos empíricos. ΨstdCstds>rs+1kΨopt
Gottfried Helms

OK, entiendo lo que estás diciendo. Mi punto es que para la mayoría de los reales, el rango de será casi el mismo que , es decir, . Si uno simplemente gira después de eso, esto probablemente sea casi equivalente o muy cercano a hacer PCA en y no molestarse en absoluto con FA. C = C - Ψ o p t C r n k W r CCC=CΨoptCrnkWrC
ameba dice Reinstate Monica

Cierto. Bueno, pensé en hacerlo más explícito donde el caso "ideal" tiene que encontrarse desde donde reducimos a aproximaciones prácticamente computables. <br> Y ahora aún más a favor de PCA ;-): Permitir una correlación espuria en el error (en el segundo modo de aplicación / estadística inferencial) permite que el resultado se acerque nuevamente a uno del tipo que comenzó con la extracción de PC ...
Gottfried Helms
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.