Supongo que parte de esta pregunta es si existen otras métricas además de la varianza porcentual acumulada (CPV) y el enfoque de diagrama de pantalla similar. La respuesta a esto es, sí, muchas .
Un excelente artículo sobre algunas opciones es Valle 1999:
Repasa el CPV, pero también el análisis paralelo, la validación cruzada, la varianza del error de reconstrucción (VRE), los métodos basados en criterios de información y más. Puede seguir la recomendación hecha por el documento después de comparar y usar el VRE, pero la validación cruzada basada en PRESS también funciona bien en mi experiencia y también obtienen buenos resultados con eso. En mi experiencia, el CPV es conveniente y fácil, y hace un trabajo decente, pero esos dos métodos suelen ser mejores.
Hay otras formas de evaluar qué tan bueno es su modelo de PCA si sabe más sobre los datos. Una forma es comparar las cargas de PCA estimadas con las verdaderas si las conoce (lo que haría en simulaciones). Esto se puede hacer calculando el sesgo de las cargas estimadas a las verdaderas. Cuanto mayor sea su sesgo, peor será su modelo. Para saber cómo hacerlo, puede consultar este documento donde utilizan este enfoque para comparar métodos. Sin embargo, no se puede usar en casos de datos reales, donde no se conocen las verdaderas cargas de PCA. Esto habla menos de cuántos componentes eliminó, que del sesgo de su modelo debido a la influencia de las observaciones externas, pero aún sirve como una métrica de calidad del modelo.