¿Puedo usar PCA para hacer una selección de variables para el análisis de conglomerados?


12

Tengo que reducir la cantidad de variables para realizar un análisis de conglomerados. Mis variables están fuertemente correlacionadas, así que pensé en hacer un análisis factorial PCA (análisis de componentes principales). Sin embargo, si uso las puntuaciones resultantes, mis grupos no son del todo correctos (en comparación con las clasificaciones anteriores en la literatura).

Pregunta:

¿Puedo usar la matriz de rotación para seleccionar las variables con las mayores cargas para cada componente / factor y usar solo estas variables para mi agrupación?

Cualquier referencia bibliográfica también sería útil.

Actualizar:

Algunas aclaraciones:

  • Mi objetivo: tengo que ejecutar un análisis de clústeres con algoritmo de dos pasos por SPSS, pero mis variables no son independientes, así que pensé en descartar algunas de ellas.

  • Mi conjunto de datos: estoy trabajando en 15 parámetros escalares (mis variables) de 100,000 casos. Algunas variables están fuertemente correlacionadas ( Pearson)>0.9

  • Mi duda: dado que solo necesito variables independientes, pensé en ejecutar un Análisis de componentes principales (lo siento: hablé erróneamente sobre el Análisis factorial en mi pregunta original, mi error) y seleccioné solo las variables con las mayores cargas para cada componente. Sé que el proceso de PCA presenta algunos pasos arbitrarios, pero descubrí que esta selección es en realidad similar al " método B4 " propuesto por IT Jolliffe (1972 y 2002) para seleccionar variables y sugerido también por JR King y DA Jackson en 1999 .

    Entonces estaba pensando en seleccionar de esta manera algunos subgrupos de variables independientes. Luego usaré los grupos para ejecutar diferentes análisis de conglomerados y compararé los resultados.


1
Si conoce la respuesta correcta, ¿por qué hacer el análisis?
StasK

1
En otra nota, ¿por qué cree que necesita reducir el número de variables para el análisis de conglomerados? No creo que ninguna de las herramientas modernas de análisis de clúster tenga limitaciones en cuanto al número de variables de entrada. Por supuesto, si tiene una prueba con 120 artículos, las cosas se complicarán con ella.
StasK


Me parece que la adición del aspecto de análisis de clúster de esta Q lo hace lo suficientemente distinto como para permanecer abierto.
gung - Restablece a Monica

Parece que aplica criterios más estrictos a los duplicados que yo, @gung; quizás tengas razón (y la votación tampoco va bien en este caso). Sin embargo, en este caso particular, el OP estaba preguntando acerca de la selección de características basada en PCA más simple (como se aclaró en su actualización) que se cubre en el hilo que sugerí. Por otro lado, StasK publicó aquí una respuesta interesante que trata específicamente sobre la agrupación ...
ameba dice Reinstate Monica

Respuestas:


7

Como es mi costumbre, daré un paso atrás y preguntaré qué es exactamente lo que estás tratando de hacer. El análisis factorial está diseñado para encontrar variables latentes. Si desea encontrar variables latentes y agruparlas, entonces lo que está haciendo es correcto. Pero usted dice que simplemente quiere reducir el número de variables, lo que sugiere un análisis de componentes principales.

Sin embargo, con cualquiera de ellos, debe interpretar el análisis de conglomerados en nuevas variables, y esas nuevas variables son simplemente sumas ponderadas de las antiguas.

¿Cuántas variables tienes? ¿Qué tan correlacionados están? Si hay demasiados, y están muy fuertemente correlacionados, entonces podría buscar todas las correlaciones sobre un número muy alto y eliminar aleatoriamente una variable de cada par. Esto reduce el número de variables y deja las variables como están.

Permítanme también hacer eco de @StasK sobre la necesidad de hacer esto, y @ rolando2 sobre la utilidad de encontrar algo diferente de lo que se ha encontrado antes. Como solía decir mi profesor favorito en la escuela de posgrado "Si no estás sorprendido, no has aprendido nada".


1
en primer lugar, lo siento: en realidad me estoy refiriendo a un análisis de componentes principales, no al análisis factorial, mi error. Además, estaba buscando encontrar una manera de no seleccionar arbitrariamente la variable correlacionada con la bruja que mantendré. Añado más información sobre el problema anterior ... gracias de nuevo
es.

5

Una forma de realizar análisis factoriales y análisis de conglomerados al mismo tiempo es a través de modelos de mezcla de ecuaciones estructurales. En estos modelos, postula que hay modelos separados (en este caso, modelos factoriales) para cada grupo. Debería tener el análisis medio junto con el análisis de covarianza, y preocuparse en mayor medida por la identificación que en el análisis de factor de vainilla simple. La idea abordada desde el lado SEM aparece en Jedidi et. Alabama. (1997) , y desde el lado de la agrupación, en la agrupación basada en modelos de Adrian Raftery . Este tipo de análisis está, aparentemente, disponible en Mplus .


1
gracias por las entradas, especialmente por las referencias, pero me referí erróneamente al Análisis Factorial: en realidad estaba pensando en Componentes Principales para reducir mi conjunto de variables a un subgrupo de variables independientes. mi error
es.

2

No creo que sea una cuestión de "corrección" pura y simple, sino más bien si logrará lo que está buscando hacer. El enfoque que describa terminará en una agrupación de acuerdo con ciertos factores, de forma diluida, ya que utilizará solo un indicador para representar cada factor. Cada uno de esos indicadores parece ser un sustituto imperfecto del factor subyacente latente. Ese es un problema.

Otro problema es que el análisis factorial en sí mismo, como he contado yo (y muchas otras personas) , está lleno de decisiones subjetivas que involucran cómo lidiar con los datos faltantes, la cantidad de factores para extraer, cómo extraer, si y cómo rotar, y así en. Por lo tanto, puede estar lejos de ser claro que los factores que puede haber extraído de manera rápida y predeterminada por software (como creo que ha implicado) son los "mejores" en cualquier sentido.

En total, entonces, es posible que haya utilizado versiones diluidas de factores que son discutibles como las mejores formas de caracterizar los temas subyacentes a sus datos. No esperaría que los grupos resultantes de tales variables de entrada fueran los más informativos o los más distintos.

En otra nota, parece interesante que consideres un problema tener membresías / perfiles de clúster que no se alineen con lo que otros investigadores han encontrado. ¡Algunas veces los hallazgos desconfirmadores pueden ser muy saludables!


muchas gracias, he agregado más información arriba para especificar mis dudas
es.

0

Lo que podría estar sucediendo en su caso es que los factores extraídos en el Análisis Factorial tienen cargas positivas y negativas compensadoras de las variables originales. Esto disminuiría la diferenciabilidad que es el propósito de la agrupación.

¿Puedes dividir cada factor extraído en 2, uno que tenga solo las cargas positivas y el otro solo las negativas?

Reemplace los puntajes de los factores para cada caso para cada factor por puntajes positivos y negativos e intente agrupar en este nuevo conjunto de puntajes.

Ponga una línea si esto funciona para usted.


0

Puede buscar valores altos y también valores bajos y dejar todas las variables en los factores. De esta manera, no hay necesidad de cortar los factores. Si divide el Factor 1 (digamos) de cierta manera en función de los signos de las cargas, en el Factor 2, los signos pueden ser bastante diferentes. ¿Cortarías entonces el Factor 2 de manera diferente al Factor 1? Esto parece ser confuso.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.