¿Cómo usar los componentes principales como predictores en GLM?

9

¿Cómo usaría el resultado de un análisis de componentes principales (PCA) en un modelo lineal generalizado (GLM), suponiendo que el PCA se use para la selección de variables para el GLM?

Aclaración: Quiero usar PCA para evitar el uso de variables correlacionadas en el GLM. Sin embargo, PCA me da resultados como .2*variable1+.5*variable3etc. Estoy acostumbrado a poner las variables 1 y 3 en el GLM. Entonces, dado que PCA me da una combinación lineal, ¿debería, por ejemplo, poner eso en el GLM como una nueva variable (para tener en cuenta la variación sistemática en la respuesta de las variables 1 y 3)?

pca generalized-linear-model feature-selection

— ciel
fuente

12

Es posible ya veces apropiado usar un subconjunto de los componentes principales como variables explicativas en un modelo lineal en lugar de las variables originales. Los coeficientes resultantes deben ser transformados para aplicarlos a las variables originales. Los resultados son sesgados, pero pueden ser superiores a las técnicas más directas.

PCA ofrece un conjunto de componentes principales que son combinaciones lineales de las variables originales. Si tiene variables originales, todavía tiene componentes principales al final, pero se han rotado a través del espacio -dimensional para que sean ortogonales (es decir, no correlacionados entre sí) (esto es más fácil de pensar con solo dos variables). $k$ $k$ $k$

El truco para usar los resultados de PCA en un modelo lineal es que usted toma la decisión de eliminar un cierto número de componentes principales. Esta decisión se basa en criterios similares a los procesos "habituales" de selección de variables de arte negro para construir modelos.

El método se utiliza para tratar la multicolinealidad. Es razonablemente común en la regresión lineal con una respuesta normal y una función de enlace de identidad desde el predictor lineal hasta la respuesta; pero menos común con un modelo lineal generalizado. Hay al menos un artículo sobre los problemas en la web.

No conozco ninguna implementación de software fácil de usar. Sería bastante sencillo hacer el PCA y utilizar los componentes principales resultantes como variables explicativas en un modelo lineal generalizado; y luego volver a traducir a la escala original. Sin embargo, estimar la distribución (varianza, sesgo y forma) de que sus estimadores hayan hecho esto sería complicado; el resultado estándar de su modelo lineal generalizado será incorrecto porque supone que se trata de observaciones originales. Podría crear un bootstrap alrededor de todo el procedimiento (PCA y glm combinados), lo que sería factible en R o SAS.

— Peter Ellis
fuente

5

Mi respuesta no es para la pregunta original, sino comentarios sobre su enfoque.

Primero aplique PCA, luego no se recomienda ejecutar el modelo lineal generalizado. La razón es que PCA seleccionará la importancia variable por "varianza variable" pero no "cómo se correlaciona la variable con el objetivo de predicción". En otras palabras, la "selección variable" puede ser totalmente engañosa, que selecciona variables no importantes.

Aquí hay un ejemplo: los shows futuros a la izquierda x1son importantes para clasificar dos tipos de puntos. Pero PCA muestra lo contrario.

Los detalles se pueden encontrar en mi respuesta aquí. ¿Cómo decidir entre PCA y regresión logística?

— Haitao Du
fuente

3

Te sugiero que leas este artículo. Hace un buen trabajo al mostrar la relación entre las distribuciones familiares gaussianas y los sistemas de aprendizaje similares a PCA.

http://papers.nips.cc/paper/2078-a-generalization-of-principal-components-analysis-to-the-exponential-family.pdf

EDITAR

Sinopsis: mientras muchos piensan en PCA a partir de la interpretación geométrica de encontrar los vectores ortogonales dentro de un conjunto de datos más responsable de la varianza y luego proporcionar parámetros para reorientar correctamente el espacio de uno a esos vectores, este artículo construye PCA usando funciones de probabilidad exponencial en el contexto de modelos lineales generalizados, y ofrece una extensión más poderosa de PCA para otras funciones de probabilidad dentro de la familia exponencial. Además, crean un algoritmo de aprendizaje similar a PCA utilizando las divergencias de bregman. Es bastante fácil de seguir y, para usted, parece que podría ayudarlo a comprender el vínculo entre PCA y los modelos lineales generalizados.

citación :

Collins, Michael y col. "Una generalización del análisis de componentes principales a la familia exponencial". Sistemas de procesamiento de información neuronal

— themantalope
fuente

Hola Gung, lo siento, lo entiendo totalmente.

— themantalope