Estoy familiarizado con el uso de las ideas de Random Matrix Theory para determinar el número de componentes principales del PCA de una matriz de covarianza / correlación para usar para formar factores.
Si el valor propio asociado con la primera PC es grande, significa que los valores propios restantes deben ser pequeños (ya que la suma de los valores propios debe ser igual a la traza de la matriz de correlación). Cuando la primera PC es lo suficientemente grande, es posible que todos estos valores propios estén por debajo de los límites inferiores en la distribución Marcenko-Pastur. Esto tiene sentido que sean bajos no debido a una posibilidad aleatoria, sino porque el primer valor propio es muy grande. Sin embargo, eso no significa que contengan información significativa. Más bien, tendría sentido hacer la pregunta "dado que la primera PC es un gran número, ¿cómo sería la distribución de los valores propios restantes si los datos aleatorios fueran responsables de ellos?"
¿Hay alguna investigación que aborde este problema? Si es posible obtener la distribución de Marcenko-Pastur condicional al conocimiento de uno o más valores propios, entonces sería posible proceder de forma iterativa para determinar si los factores reflejan información significativa.