¿Hay alguna cantidad requerida de variación capturada por PCA para hacer análisis posteriores?

Tengo un conjunto de datos con 11 variables y se realizó PCA (ortogonal) para reducir los datos. Decidir sobre el número de componentes para mantener fue evidente para mí, por mi conocimiento sobre el tema y el diagrama de pantalla (ver más abajo), que dos componentes principales (PC) fueron suficientes para explicar los datos y los componentes restantes solo fueron menos informativos.

ingrese la descripción de la imagen aquí
Gráfico de pantalla con análisis paralelo: valores propios observados (verde) y valores propios simulados basados en 100 simulaciones (rojo). Scree plot sugiere 3 PC, mientras que la prueba paralela sugiere solo las dos primeras PC.

ingrese la descripción de la imagen aquí

Como puede ver, solo el 48% de la variación podría ser capturada por las dos primeras PC.

Las observaciones de trazado en el primer plano realizadas por las primeras 2 PC revelaron tres grupos diferentes usando el agrupamiento jerárquico aglomerativo (HAC) y el agrupamiento K-means. Estos 3 grupos resultaron ser muy relevantes para el problema en cuestión y también fueron consistentes con otros hallazgos. Entonces, excepto el hecho de que solo se capturó el 48% de la varianza, todo lo demás estuvo tremendamente bien.

Uno de mis dos revisores dijo: no se puede confiar mucho en estos hallazgos ya que solo se podría explicar el 48% de la varianza y es menos de lo requerido.

Pregunta
¿Hay algún valor requerido de cuánta varianza debe capturar PCA para que sea válido? ¿No depende del conocimiento del dominio y la metodología en uso? ¿Alguien puede juzgar el mérito de todo el análisis solo en función del mero valor de la varianza explicada?

Notas

Los datos son 11 variables de genes medidos por una metodología muy sensible en biología molecular llamada Reacción en cadena de la polimerasa cuantitativa en tiempo real (RT-qPCR).
Los análisis se realizaron con R.
Las respuestas de analistas de datos basadas en su experiencia personal trabajando en problemas de la vida real en los campos de análisis de microarrays, quimiometría, análisis espectométricos o similares son muy apreciadas.
Considere apoyar su respuesta con referencias tanto como sea posible.

variance pca

— doctorado
fuente

La distribución de los valores propios es bastante importante para la teoría de matrices aleatorias. La distribución Marcenko-Pastur a veces se usa para aplicaciones similares.

— John

¿Qué muestra el verde y qué muestran las líneas naranja / parduzco? Solo hay en el eje.

— usεr11852 dice Reinstate Monic

@ usεr11852, consulte el título actualizado.

— doctorado

Con respecto a sus preguntas particulares:

¿Hay algún valor requerido de cuánta varianza debe capturar PCA para que sea válido?

No, no la hay (que yo sepa). Creo firmemente que no hay un valor único que pueda usar; sin umbral mágico del porcentaje de varianza capturado. El artículo de Cangelosi y Goriely: la retención de componentes en el análisis de componentes principales con la aplicación de datos de microarrays de ADNc ofrece una visión general bastante buena de media docena de reglas generales estándar para detectar la cantidad de componentes en un estudio. (Gráfico de pantalla, Proporción de la varianza total explicada, Regla de valor propio promedio, Diagrama de valor propio log, etc.) Como reglas generales , no confiaría en ninguno de ellos.

¿No depende del conocimiento del dominio y la metodología en uso?

Idealmente debería ser dependiente, pero debe tener cuidado de cómo lo dice y qué quiere decir.

Por ejemplo: En Acústica existe la noción de Diferencia Justificable ( JND ). Suponga que está analizando una muestra acústica y que una PC en particular tiene una variación de escala física muy por debajo de ese umbral JND. Nadie puede argumentar fácilmente que para una aplicación Acoustics debería haber incluido esa PC. Estarías analizando el ruido inaudible. Puede haber algunas razones para incluir esta PC, pero estas razones deben presentarse no al revés. ¿Son nociones similares a JND para el análisis RT-qPCR?

Del mismo modo, si un componente se parece al polinomio Legendre de noveno orden y tiene una fuerte evidencia de que su muestra consiste en protuberancias gaussianas individuales, tiene buenas razones para creer que está modelando nuevamente una variación irrelevante. ¿Qué muestran estos modos de variación ortogonales? ¿Qué está "mal" con la tercera PC en su caso, por ejemplo?

El hecho de que usted diga " Estos 3 grupos resultaron ser muy relevantes para el problema en cuestión " no es realmente un argumento sólido. Puede dragar datos simples (lo cual es algo malo ). Hay otras técnicas, por ejemplo. Isomaps e incrustación localmente lineal , que también son geniales, ¿por qué no usarlos? ¿Por qué elegiste PCA específicamente?

La consistencia de sus hallazgos con otros hallazgos es más importante, especialmente si estos hallazgos se consideran bien establecidos. Profundiza en esto. Intente ver si sus resultados concuerdan con los hallazgos de PCA de otros estudios.

¿Alguien puede juzgar sobre el mérito de todo el análisis simplemente basado en el mero valor de la varianza explicada?

En general no se debe hacer eso. Sin embargo, no pienses que tu crítico es un bastardo o algo así; De hecho, el 48% es un pequeño porcentaje para retener sin presentar justificaciones razonables.

— usεr11852 dice Reinstate Monic
fuente

Gracias por su respuesta. No hay nada especial sobre RT-qPCR como con JND. De hecho, RT-qPCR es solo la técnica por la cual medimos las variables genéticas mismas. Probablemente se refería a las PC, que son las nuevas variables hechas de la combinación lineal de las 11. Dadas otras variables descriptivas, las primeras 2 PC resultaron estar relacionadas con las células de la respuesta inmune, mientras que la tercera PC no. De lo contrario, no hay nada malo en la tercera PC

— doctorado

Echaré un vistazo a las técnicas de dragado de datos y aprenderé más sobre ellas. Pero, ¿sabe por casualidad si esto ha sido implementado por algún paquete R?

— doctorado

@doctorate: la idea es evitar el dragado de datos. Lo siento, pero no conozco ningún paquete que lo pruebe explícitamente.

— usεr11852 dice Reinstate Monic

+1, pero su oración sobre el dragado de datos ("podría ser simple dragado de datos") no es muy clara y quizás es por eso que @doctorate estaba confundido. De hecho, encuentro que todo el párrafo no está muy claro: ¿qué tienen que ver Isomap y LLE con el dragado de datos? ¿El dragado de datos es bueno o malo? El artículo wiki al que se vinculó comienza describiéndolo como algo bueno. ¿Quizás podrías editar para ser un poco más explícito en ese párrafo?

— ameba dice Reinstate Monica