Tengo un conjunto de datos con 11 variables y se realizó PCA (ortogonal) para reducir los datos. Decidir sobre el número de componentes para mantener fue evidente para mí, por mi conocimiento sobre el tema y el diagrama de pantalla (ver más abajo), que dos componentes principales (PC) fueron suficientes para explicar los datos y los componentes restantes solo fueron menos informativos.
Gráfico de pantalla con análisis paralelo: valores propios observados (verde) y valores propios simulados basados en 100 simulaciones (rojo). Scree plot sugiere 3 PC, mientras que la prueba paralela sugiere solo las dos primeras PC.
Como puede ver, solo el 48% de la variación podría ser capturada por las dos primeras PC.
Las observaciones de trazado en el primer plano realizadas por las primeras 2 PC revelaron tres grupos diferentes usando el agrupamiento jerárquico aglomerativo (HAC) y el agrupamiento K-means. Estos 3 grupos resultaron ser muy relevantes para el problema en cuestión y también fueron consistentes con otros hallazgos. Entonces, excepto el hecho de que solo se capturó el 48% de la varianza, todo lo demás estuvo tremendamente bien.
Uno de mis dos revisores dijo: no se puede confiar mucho en estos hallazgos ya que solo se podría explicar el 48% de la varianza y es menos de lo requerido.
Pregunta
¿Hay algún valor requerido de cuánta varianza debe capturar PCA para que sea válido? ¿No depende del conocimiento del dominio y la metodología en uso? ¿Alguien puede juzgar el mérito de todo el análisis solo en función del mero valor de la varianza explicada?
Notas
- Los datos son 11 variables de genes medidos por una metodología muy sensible en biología molecular llamada Reacción en cadena de la polimerasa cuantitativa en tiempo real (RT-qPCR).
- Los análisis se realizaron con R.
- Las respuestas de analistas de datos basadas en su experiencia personal trabajando en problemas de la vida real en los campos de análisis de microarrays, quimiometría, análisis espectométricos o similares son muy apreciadas.
- Considere apoyar su respuesta con referencias tanto como sea posible.