¿Se puede usar la regresión múltiple para predecir un componente principal (PC) de varias otras PC?

15

Hace un tiempo, un usuario en la lista de correo de R-help preguntó sobre la solidez del uso de las puntuaciones de PCA en una regresión. El usuario está tratando de usar algunas puntuaciones de PC para explicar la variación en otra PC (vea la discusión completa aquí ). La respuesta fue que no, esto no es bueno porque las PC son ortogonales entre sí.

¿Alguien puede explicar con un poco más de detalle por qué es así?

regression pca

— Roman Luštrik
fuente

1

¿Por qué pusiste retiqueta y qué quieres decir con "por qué esto es así"? Las PC no están correlacionadas, es decir, son ortogonales, aditivas, no se puede predecir una PC con la otra. ¿Estás buscando una fórmula?

— aL3xa

Me preguntaba sobre los principios detrás de la lógica (en mi búsqueda para entender PCA). Usé la etiqueta R porque las personas R podrían leer esto y tal vez mostrar ejemplos de R. :)

— Roman Luštrik

Oh, ¿por qué no lo dijiste? ¿Has visto statmethods.net/advstats/factor.html

— aL3xa

Esto está un poco fuera de tema, pero aquí hay algunas cosas buenas sobre PCA (principalmente en R): HTML statsoft.com/textbook/principal-components-factor-analysis/… ordenación. okstate.edu/PCA.htm astrostatistics.psu.edu/datasets/R/MV.html statmethods.net/advstats/factor.html <hr /> PDF cran.r-project.org/web/packages/HSAUR/vignettes/… /> uga.edu/strata/software/pdf/pcaTutorial.pdf cs.otago.ac.nz/cosc453/student_tutorials / ... /> www

— aL3xa

11

Un componente principal es una combinación lineal ponderada de todos sus factores (X).

ejemplo: PC1 = 0.1X1 + 0.3X2

Habrá un componente para cada factor (aunque en general se selecciona un número pequeño).

Los componentes se crean de tal manera que tienen correlación cero (son ortogonales), por diseño.

Por lo tanto, el componente PC1 no debe explicar ninguna variación en el componente PC2.

Es posible que desee hacer una regresión en su variable Y y la representación PCA de sus X, ya que no tendrán multicolinealidad. Sin embargo, esto podría ser difícil de interpretar.

Si tiene más X que observaciones, lo que rompe los MCO, puede retroceder en sus componentes y simplemente seleccionar un número menor de los componentes de mayor variación.

Análisis de componentes principales de Jollife, un libro muy profundo y muy citado sobre el tema

Esto también es bueno: http://www.statsoft.com/textbook/principal-components-factor-analysis/

— Neil McGuigan
fuente

11

Los componentes principales son ortogonales por definición, por lo que cualquier par de PC tendrá una correlación cero.

Sin embargo, PCA puede usarse en regresión si hay una gran cantidad de variables explicativas. Estos pueden reducirse a un pequeño número de componentes principales y usarse como predictores en una regresión.

— Rob Hyndman
fuente

¿No sería eso FA entonces?

— Roman Luštrik

33

No. FA no es regresión. Me refiero a una variable de respuesta regresada contra los componentes principales calculados a partir de una gran cantidad de variables explicativas. Los componentes principales en sí mismos están estrechamente relacionados con los factores de FA.

— Rob Hyndman el

Lo siento, debería haber sido más preciso en mi comentario. Su escrito de que las variables explicativas se pueden reducir a un pequeño número de PC me llamó "análisis factorial".

— Roman Luštrik

En el conjunto con n variables, se pueden extraer n PC, pero usted puede decidir cuántas desea conservar, por ejemplo, el criterio de Guttman-Keizer dice: mantenga todas las PC que tengan un valor propio (varianza) mayor que 1. Así que ... .

— aL3xa

7

Cuidado ... solo porque las PC son por construcción ortogonales entre sí no significa que no haya un patrón o que una PC no pueda "explicar" algo sobre las otras PC.

Considere los datos en 3D (X, Y, Z) que describen una gran cantidad de puntos distribuidos uniformemente en la superficie de un fútbol americano (es un elipsoide, no una esfera, para aquellos que nunca han visto fútbol americano). Imagine que la pelota de fútbol está en una configuración arbitraria de modo que ni X ni Y ni Z están a lo largo del eje largo de la pelota de fútbol.

Los componentes principales colocarán la PC1 a lo largo del eje largo de la pelota de fútbol, el eje que describe la mayor variación en los datos.

Para cualquier punto en la dimensión PC1 a lo largo del eje largo de la pelota de fútbol, el corte plano representado por PC2 y PC3 debe describir un círculo y el radio de este corte circular depende de la dimensión PC1. Es cierto que las regresiones de PC2 o PC3 en PC1 deberían dar un coeficiente cero a nivel mundial, pero no en secciones más pequeñas de la pelota de fútbol ... y está claro que un gráfico 2D de PC1 y PC2 mostraría un límite límite "interesante" eso es de dos valores, no lineal y simétrico.

— Pablo
fuente

3

Si sus datos son de alta dimensión y ruidosos, y no tiene una gran cantidad de muestras, corre el peligro de sobreajustar. En tales casos, tiene sentido usar PCA (que puede capturar una parte dominante de la variación de datos; la ortogonalidad no es un problema) o el análisis factorial (que puede encontrar las verdaderas variables explicativas subyacentes a los datos) para reducir la dimensionalidad de los datos y luego entrenar un modelo de regresión con ellos.

Para los enfoques basados en el análisis factorial, consulte este documento Modelo de regresión del factor bayesiano y una versión bayesiana no paramétrica de este modelo que no asume que a priori conoce el número "verdadero" de factores relevantes (o componentes principales en el caso de PCA).

Agregaría que en muchos casos, la reducción supervisada de la dimensionalidad (por ejemplo, Análisis discriminante de Fisher ) puede proporcionar mejoras sobre los enfoques simples basados en PCA o FA, porque puede utilizar la información de la etiqueta mientras realiza la reducción de la dimensionalidad.

— ébano1
fuente

0

usted puede ser que tire de ella si la puntuación PC predicho fue extraído de diferentes variables, o los casos, que las puntuaciones predictor de PC. si ese es el caso predicho y el predictor no será ortogonal, o al menos no es necesario, la correlación, por supuesto, no está garantizada.

— Tomás Boncompte
fuente