La selección de un número "apropiado" de componentes en PCA se puede realizar de manera elegante con el Análisis paralelo de Horn (PA). Los documentos muestran que este criterio supera constantemente las reglas generales, como el criterio del codo o la regla de Kaiser. El paquete R "paran" tiene una implementación de PA que requiere solo un par de clics del mouse.
Por supuesto, cuántos componentes retiene depende de los objetivos de la reducción de datos. Si solo desea retener la varianza que es "significativa", la PA dará una reducción óptima. Sin embargo, si desea minimizar la pérdida de información de los datos originales, debe retener suficientes componentes para cubrir una variación explicada del 95%. Obviamente, esto mantendrá muchos más componentes que PA, aunque para conjuntos de datos de alta dimensión, la reducción de dimensionalidad seguirá siendo considerable.
Una nota final sobre PCA como un problema de "selección de modelo". No estoy totalmente de acuerdo con la respuesta de Peter. Ha habido una serie de documentos que reformularon PCA como un problema de tipo de regresión, como Sparse PCA, Sparse Probabilistic PCA o ScotLASS. En estas soluciones PCA "basadas en modelos", las cargas son parámetros que se pueden establecer en 0 con los términos de penalización apropiados. Presumiblemente, en este contexto, también sería posible calcular estadísticas de tipo AIC o BIC para el modelo en consideración.
Este enfoque podría incluir teóricamente un modelo en el que, por ejemplo, dos PC no tienen restricciones (todas las cargas no son cero), en comparación con un modelo en el que PC1 no tiene restricciones y PC2 tiene todas las cargas en 0. Esto sería equivalente a inferir si PC2 es redundante en conjunto.
Referencias (PA) :
- Dinno, A. (2012). paran: Prueba de Horn de componentes / factores principales. Paquete R versión 1.5.1. http://CRAN.R-project.org/package=paran
- Horn JL 1965. Una justificación y una prueba para el número de factores en el análisis factorial. Psychometrika . 30: 179-185
- Hubbard, R. y Allen SJ (1987). Una comparación empírica de métodos alternativos para la extracción de componentes principales. Journal of Business Research, 15 , 173-190.
- Zwick, WR & Velicer, WF 1986. Comparación de cinco reglas para determinar el número de componentes a retener. Boletín psicológico. 99 : 432–442