Además de las respuestas que ya se centran en las propiedades matemáticas, me gustaría comentar desde un punto de vista experimental.
Resumen: los procesos de generación de datos a menudo se optimizan de manera que los datos sean adecuados para la regresión de componentes principales (PCR) o mínimos cuadrados parciales (PLS).
Soy químico analítico. Cuando diseño un experimento / método para medir (regresión o clasificación) algo, utilizo mi conocimiento sobre la aplicación y los instrumentos disponibles para obtener datos que llevan una buena relación señal / ruido con respecto a la tarea en cuestión. Eso significa que los datos que genero están diseñados para tener una gran covarianza con la propiedad de interés.
Esto conduce a una estructura de variación donde la variación interesante es grande, y las PC posteriores llevarán solo el ruido (pequeño).
También preferiría métodos que produzcan información redundante sobre la tarea en cuestión, para tener resultados más sólidos o más precisos. PCA concentra canales de medición redundantes en una PC, que luego tiene mucha variación y, por lo tanto, es una de las primeras PC.
Si existen factores de confusión conocidos que conducirán a una gran variación que no está correlacionada con la propiedad de interés, generalmente intentaré corregirlos tanto como sea posible durante el preprocesamiento de los datos: en muchos casos, estos factores de confusión son conocidos naturaleza física o química, y este conocimiento sugiere formas apropiadas de corregir los factores de confusión. Por ejemplo, mido los espectros de Raman bajo el microscopio. Su intensidad depende de la intensidad de la luz láser, así como de qué tan bien puedo enfocar el microscopio. Ambos conducen a cambios que pueden corregirse normalizando, por ejemplo, a una señal que se sabe que es constante.
Por lo tanto, los grandes contribuyentes de la varianza que no contribuyen a la solución pueden haber sido eliminados antes de que los datos ingresen a la PCA, dejando una variación mayormente significativa en las primeras PC.
Por último, pero no menos importante, aquí hay un poco de una profecía autocumplida: obviamente, la PCR se realiza con datos donde la suposición de que la variación que transporta la información es grande tiene sentido. Si, por ejemplo, creo que podría haber factores de confusión importantes que no sé cómo corregir, inmediatamente elegiría PLS, que es mejor para ignorar las grandes contribuciones que no ayudan con la tarea de predicción.