Tengo que reducir la cantidad de variables para realizar un análisis de conglomerados. Mis variables están fuertemente correlacionadas, así que pensé en hacer un análisis factorial PCA (análisis de componentes principales). Sin embargo, si uso las puntuaciones resultantes, mis grupos no son del todo correctos (en comparación con las clasificaciones anteriores en la literatura).
Pregunta:
¿Puedo usar la matriz de rotación para seleccionar las variables con las mayores cargas para cada componente / factor y usar solo estas variables para mi agrupación?
Cualquier referencia bibliográfica también sería útil.
Actualizar:
Algunas aclaraciones:
Mi objetivo: tengo que ejecutar un análisis de clústeres con algoritmo de dos pasos por SPSS, pero mis variables no son independientes, así que pensé en descartar algunas de ellas.
Mi conjunto de datos: estoy trabajando en 15 parámetros escalares (mis variables) de 100,000 casos. Algunas variables están fuertemente correlacionadas ( Pearson)
Mi duda: dado que solo necesito variables independientes, pensé en ejecutar un Análisis de componentes principales (lo siento: hablé erróneamente sobre el Análisis factorial en mi pregunta original, mi error) y seleccioné solo las variables con las mayores cargas para cada componente. Sé que el proceso de PCA presenta algunos pasos arbitrarios, pero descubrí que esta selección es en realidad similar al " método B4 " propuesto por IT Jolliffe (1972 y 2002) para seleccionar variables y sugerido también por JR King y DA Jackson en 1999 .
Entonces estaba pensando en seleccionar de esta manera algunos subgrupos de variables independientes. Luego usaré los grupos para ejecutar diferentes análisis de conglomerados y compararé los resultados.