Una forma de probar la aleatoriedad de un pequeño componente principal (PC) es tratarlo como una señal en lugar de ruido: es decir, tratar de predecir otra variable de interés con él. Esto es esencialmente regresión de componentes principales (PCR) .
R2METROSmi
- Un modelo de ingeniería química que usa las PC 1, 3, 4, 6, 7 y 8 de un total de 9 ( Smith y Campbell, 1980 )
- Un modelo de monzón que usa las PC 8, 2 y 10 (en orden de importancia) de 10 ( Kung y Sharif, 1980 )
- Un modelo económico que usa las PC 4 y 5 de 6 (Hill, Fomby y Johnson, 1977)
Las PC en los ejemplos enumerados anteriormente están numeradas de acuerdo con los tamaños clasificados de sus valores propios. Jolliffe (1982) describe un modelo de nube en el que el último componente contribuye más. Él concluye:
Los ejemplos anteriores han demostrado que no es necesario encontrar datos oscuros o extraños para que los últimos componentes principales sean importantes en la regresión de componentes principales. Más bien parece que tales ejemplos pueden ser bastante comunes en la práctica. Hill y col. (1977) ofrecen una discusión exhaustiva y útil de las estrategias para seleccionar componentes principales que deberían haber ocultado para siempre la idea de la selección basada únicamente en el tamaño de la variación. Desafortunadamente, esto no parece haber sucedido, y la idea está quizás más extendida ahora que hace 20 años.
SS
( p - 1 )Y
X
Le debo esta respuesta a @Scortchi, quien corrigió mis propios conceptos erróneos sobre la selección de PC en PCR con algunos comentarios muy útiles, que incluyen: " Jolliffe (2010) revisa otras formas de seleccionar PC". Esta referencia puede ser un buen lugar para buscar más ideas.
Referencias
- Gunst, RF y Mason, RL (1977). Estimación sesgada en regresión: una evaluación que utiliza el error cuadrático medio. Revista de la Asociación Americana de Estadística, 72 (359), 616–628.
- Hadi, AS y Ling, RF (1998). Algunas notas de advertencia sobre el uso de regresión de componentes principales. El estadístico estadounidense, 52 (1), 15-19. Recuperado de http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, DM (1973). Sobre la investigación de regresiones alternativas por análisis de componentes principales. Estadísticas aplicadas, 22 (3), 275–286.
- Hill, RC, Fomby, TB y Johnson, SR (1977). Normas de selección de componentes para la regresión de componentes principales.Comunicaciones en estadística: teoría y métodos, 6 (4), 309–334.
- Hotelling, H. (1957). Las relaciones de los nuevos métodos estadísticos multivariados con el análisis factorial. British Journal of Statistical Psychology, 10 (2), 69–79.
- Jackson, E. (1991). Una guía del usuario para los componentes principales . Nueva York: Wiley.
- Jolliffe, IT (1982). Nota sobre el uso de componentes principales en regresión. Estadísticas aplicadas, 31 (3), 300–303. Recuperado de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Análisis de componentes principales (2ª ed.). Saltador.
- Kung, EC y Sharif, TA (1980). Predicción de la regresión del inicio del monzón de verano indio con antecedentes de las condiciones del aire superior. Revista de meteorología aplicada, 19 (4), 370-380. Recuperado de http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, WF (1973). El conjunto óptimo de restricciones de componentes principales en una regresión de mínimos cuadrados. Comunicaciones en Estadística - Teoría y Métodos, 2 (5), 449–464.
- Mason, RL y Gunst, RF (1985). Selección de componentes principales en regresión. Estadísticas y cartas de probabilidad, 3 (6), 299–301.
- Massy, WF (1965). Regresión de componentes principales en investigación estadística exploratoria. Revista de la Asociación Americana de Estadística, 60 (309), 234–256. Recuperado de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G. y Campbell, F. (1980). Una crítica de algunos métodos de regresión de crestas. Revista de la Asociación Americana de Estadística, 75 (369), 74-81. Recuperado de https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .