Usualmente usamos PCA como técnica de reducción de dimensionalidad para datos donde se supone que los casos son iid
Pregunta: ¿Cuáles son los matices típicos en la aplicación de PCA para datos dependientes que no son iid? ¿Qué propiedades agradables / útiles de PCA que se mantienen para los datos de iid se ven comprometidas (o se pierden por completo)?
Por ejemplo, los datos podrían ser una serie temporal multivariada en cuyo caso podría esperarse la autocorrelación o la heterocedasticidad condicional autorregresiva (ARCH).
Ya se han hecho varias preguntas relacionadas sobre la aplicación de PCA a datos de series temporales, por ejemplo, 1 , 2 , 3 , 4 , pero estoy buscando una respuesta más general e integral (sin la necesidad de ampliar mucho en cada punto individual).
Editar: Como señaló @ttnphns, la PCA en sí no es un análisis inferencial. Sin embargo, uno podría estar interesado en el rendimiento de generalización de PCA, es decir, centrarse en la contraparte de la población de la PCA de muestra. Por ejemplo, como está escrito en Nadler (2008) :
Suponiendo que los datos dados son una muestra finita y aleatoria de una distribución (generalmente desconocida), una pregunta teórica y práctica interesante es la relación entre los resultados de PCA de la muestra calculados a partir de datos finitos y los del modelo de población subyacente.
Referencias
- Nadler, Booz. "Resultados de aproximación de muestra finita para el análisis de componentes principales: un enfoque de perturbación matricial". The Annals of Statistics (2008): 2791-2817.