Aquí hay un extracto interesante de Jolliffe (1982) que no incluí en mi respuesta anterior a la pregunta muy similar, " Componentes de baja varianza en PCA, ¿son realmente solo ruido? ¿Hay alguna forma de probarlo? " Es bastante intuitivo.
Suponga que es necesario predecir la altura de la base de la nube, , un problema importante en los aeropuertos. Diversas variables climáticas se miden incluyendo la temperatura de superficie T s , y punto de rocío superficie, T d . Aquí, T d es la temperatura a la cual el aire de la superficie estaría saturado con vapor de agua, y la diferencia T s - T d , es una medida de la humedad de la superficie. Ahora T s , T d están generalmente correlacionados positivamente, por lo que un análisis de componentes principales de las variables climáticas tendrá un componente de alta varianza que está altamente correlacionado con THTsTdTdTs−TdTs, Tre , y un componente de baja varianza que se correlaciona de manera similar con T s - T d . Pero H está relacionada con la humedad y por lo tanto a T s - T d , es decir, a un mínimo de varianza en lugar de un componente de alta varianza, por lo que una estrategia que rechaza los componentes de baja varianza dará predicciones pobres para H .Ts+ TreTs- TreHTs- TreH
La discusión de este ejemplo es necesariamente vaga debido a los efectos desconocidos de cualquier otra variable climática que también se mide e incluye en el análisis. Sin embargo, muestra un caso físicamente plausible en el que una variable dependiente estará relacionada con un componente de baja varianza, lo que confirma los tres ejemplos empíricos de la literatura.
Además, el ejemplo de la base de la nube se ha probado en datos del aeropuerto de Cardiff (Gales) para el período 1966-1973 con una variable climática adicional, la temperatura de la superficie del mar, también incluida. Los resultados fueron esencialmente como se predijeron anteriormente. El último componente principal fue aproximadamente
, y representó solo el 0,4 por ciento de la variación total. Sin embargo, en una regresión de componente principal que era fácilmente el predictor más importante para H . [Énfasis añadido]Ts- TreH
Los tres ejemplos de la literatura mencionados en la última oración del segundo párrafo fueron los tres que mencioné en mi respuesta a la pregunta vinculada .
Referencia
Jolliffe, IT (1982). Nota sobre el uso de componentes principales en regresión. Estadísticas aplicadas, 31 (3), 300–303. Recuperado de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .