¿Cómo pueden los principales componentes principales retener el poder predictivo en una variable dependiente (o incluso conducir a mejores predicciones)?

25

Supongamos que yo estoy corriendo una regresión . ¿Por qué al seleccionar los principales componentes principales de , el modelo conserva su poder predictivo en ? $Y \sim X$ $k$ $X$ $Y$

Entiendo que desde el punto de vista de reducción de dimensionalidad / selección de características, si son los vectores propios de la matriz de covarianza de con valores propios superiores , entonces son componentes principales superiores con máximas variaciones. Por lo tanto, podemos reducir el número de características a y retener la mayor parte del poder predictivo, según tengo entendido. $v_1, v_2, ... v_k$ $X$ $k$ $Xv_1, Xv_2 ... Xv_k$ $k$ $k$

Pero, ¿por qué los principales componentes retienen el poder predictivo en ? $k$ $Y$

Si hablamos de un general MCO , no hay ninguna razón para sugerir que si la función tiene varianza máxima, entonces tiene el mayor poder predictivo . $Y \sim Z$ $Z_i$ $Z_i$ $Y$

Actualización después de ver comentarios: creo que he visto toneladas de ejemplos de uso de PCA para la reducción de dimensionalidad. He estado asumiendo que eso significa que las dimensiones que nos quedan tienen el mayor poder predictivo. De lo contrario, ¿cuál es el punto de reducción de dimensionalidad?

— Vendetta
fuente

3

Tienes razón: no hay ninguna razón matemática para suponer que las mejores PC

de

tengan poder predictivo, así como tampoco hay una razón matemática para suponer que cualquier conjunto de covariables

tenga alguna relación con un

dado . Parece que te estás refiriendo a alguna afirmación que has encontrado: ¿exactamente qué dice y quién lo dijo?

K

$K$

X

$X$

X

$X$

Y

$Y$

— whuber

@whuber Supongo que me parecen toneladas de ejemplos de uso de PCA para la reducción de dimensiones. He estado asumiendo que eso significa que las dimensiones que nos quedan tienen los poderes más predictivos. De lo contrario, ¿ese es el punto de reducir las dimensiones?

— Vendetta

43

De hecho, no hay garantía de que los principales componentes principales (PC) tengan más poder predictivo que los de baja varianza.

Se pueden encontrar ejemplos del mundo real donde este no es el caso, y es fácil construir un ejemplo artificial donde, por ejemplo, solo la PC más pequeña tiene alguna relación con . $y$

Este tema se discutió mucho en nuestro foro, y en ausencia (desafortunada) de un hilo claramente canónico, solo puedo dar varios enlaces que juntos brindan varios ejemplos de la vida real y artificiales:

Y el mismo tema, pero en el contexto de la clasificación:

Sin embargo, en la práctica, los mejores ordenadores a menudo no tienen a menudo más poder predictivo que las de baja varianza, y por otra parte, utilizando sólo los mejores PCs puede rendir mejor poder predictivo de utilizar todos los PC.

En situaciones con muchos predictores y relativamente pocos puntos de datos (por ejemplo, cuando o incluso ), la regresión ordinaria se ajustará en exceso y debe ser regularizada. La regresión de componentes principales (PCR) puede verse como una forma de regularizar la regresión y tenderá a dar resultados superiores. Además, está estrechamente relacionado con la regresión de crestas, que es una forma estándar de regularización por contracción. Mientras que el uso de la regresión de cresta suele ser una mejor idea, la PCR a menudo se comportará razonablemente bien. Ver ¿Por qué funciona la contracción? para la discusión general sobre el equilibrio de sesgo-varianza y sobre cómo la contracción puede ser beneficiosa. $p$ $n$ $p \approx n$ $p>n$

En cierto modo, se puede decir que tanto la regresión de cresta como la PCR suponen que la mayoría de la información sobre está contenida en las grandes PC de , y esta suposición a menudo se justifica. $y$ $X$

Vea la respuesta posterior de @cbeleites (+1) para una discusión sobre por qué esta suposición a menudo se justifica (y también este hilo más reciente: ¿la reducción de la dimensionalidad casi siempre es útil para la clasificación? Para algunos comentarios adicionales).

Hastie y col. en Los elementos del aprendizaje estadístico (sección 3.4.1) comentan esto en el contexto de la regresión de crestas:

$\mathbf X$

Vea mis respuestas en los siguientes hilos para más detalles:

Línea de fondo

Para problemas de alta dimensión, el preprocesamiento con PCA (lo que significa reducir la dimensionalidad y mantener solo las mejores PC) puede verse como una forma de regularización y a menudo mejorará los resultados de cualquier análisis posterior, ya sea una regresión o un método de clasificación. Pero no hay garantía de que esto funcione, y a menudo hay mejores enfoques de regularización.

— ameba dice Reinstate Monica
fuente

Gracias por recopilar las referencias en su respuesta. Aquí hay otro reciente. Hay una respuesta con más enlaces.

— ttnphns

Gracias, @ttnphns! No he visto esa publicación, porque no tenía una etiqueta [pca] (solo sigo de cerca un puñado de etiquetas específicas). En realidad, estoy bastante descontento de que haya una colección suelta de 5-10 hilos relacionados, sin preguntas y respuestas realmente perfectas y sin duplicados reales entre ellas. Preferiría tener un hilo canónico que podría usarse para futuras referencias ...

— dice ameba Reinstate Monica

He agregado la etiqueta a esa pregunta. La respuesta enciclodédica "perfecta" sobre ese interesante tema está esperando a su autor. :-) Puedes decidir convertirte en uno.

— ttnphns

También relevante: la respuesta de onestop

— kjetil b halvorsen

11

Además de las respuestas que ya se centran en las propiedades matemáticas, me gustaría comentar desde un punto de vista experimental.

Resumen: los procesos de generación de datos a menudo se optimizan de manera que los datos sean adecuados para la regresión de componentes principales (PCR) o mínimos cuadrados parciales (PLS).

Soy químico analítico. Cuando diseño un experimento / método para medir (regresión o clasificación) algo, utilizo mi conocimiento sobre la aplicación y los instrumentos disponibles para obtener datos que llevan una buena relación señal / ruido con respecto a la tarea en cuestión. Eso significa que los datos que genero están diseñados para tener una gran covarianza con la propiedad de interés.
Esto conduce a una estructura de variación donde la variación interesante es grande, y las PC posteriores llevarán solo el ruido (pequeño).

También preferiría métodos que produzcan información redundante sobre la tarea en cuestión, para tener resultados más sólidos o más precisos. PCA concentra canales de medición redundantes en una PC, que luego tiene mucha variación y, por lo tanto, es una de las primeras PC.

Si existen factores de confusión conocidos que conducirán a una gran variación que no está correlacionada con la propiedad de interés, generalmente intentaré corregirlos tanto como sea posible durante el preprocesamiento de los datos: en muchos casos, estos factores de confusión son conocidos naturaleza física o química, y este conocimiento sugiere formas apropiadas de corregir los factores de confusión. Por ejemplo, mido los espectros de Raman bajo el microscopio. Su intensidad depende de la intensidad de la luz láser, así como de qué tan bien puedo enfocar el microscopio. Ambos conducen a cambios que pueden corregirse normalizando, por ejemplo, a una señal que se sabe que es constante.
Por lo tanto, los grandes contribuyentes de la varianza que no contribuyen a la solución pueden haber sido eliminados antes de que los datos ingresen a la PCA, dejando una variación mayormente significativa en las primeras PC.

Por último, pero no menos importante, aquí hay un poco de una profecía autocumplida: obviamente, la PCR se realiza con datos donde la suposición de que la variación que transporta la información es grande tiene sentido. Si, por ejemplo, creo que podría haber factores de confusión importantes que no sé cómo corregir, inmediatamente elegiría PLS, que es mejor para ignorar las grandes contribuciones que no ayudan con la tarea de predicción.

— cbeleites apoya a Monica
fuente

+1. Esta es una excelente adición, gracias por unirse a la discusión.

— ameba dice Reinstate Monica

@amoeba: gracias por las amables palabras. Como siempre, también su respuesta es muy completa. De hecho, ¡confío en que cuides de [pca]!

— cbeleites apoya a Mónica

6

La PCA a veces se usa para corregir problemas causados por variables colineales, de modo que la mayor parte de la variación en el espacio X es capturada por los componentes principales K.

Pero, por supuesto, este problema matemático no es lo mismo que capturar la mayor parte de la variación en el espacio X, Y de tal manera que la variación inexplicable sea lo más pequeña posible.

Los mínimos cuadrados parciales intentan hacer esto en el último sentido:

http://en.wikipedia.org/wiki/Partial_least_squares_regression

— Analista
fuente

3

Como ha señalado otro, no existe un vínculo directo entre los principales vectores propios y el poder predictivo. Al elegir la parte superior y usarla como base, está reteniendo algo de energía superior (o variación a lo largo de esos ejes).

Puede ser que el eje que explica la mayor variación sea realmente útil para la predicción, pero en general este no es el caso.

— Vladislavs Dovgalecs
fuente

Cuando dice "en general", ¿quiere decir en general en la práctica o en general en teoría?

— ameba dice Reinstate Monica

@amoeba En general, porque es fácil construir un conjunto de datos donde proyectar los datos en el eje de varianza máxima k superior no es predictivo / discriminatorio.

— Vladislavs Dovgalecs

-1

Déjame ofrecerte una explicación simple.

PCA equivale a eliminar ciertas funciones de forma intuitiva. Esto disminuye las posibilidades de sobreajuste.

— ciudadano del norte
fuente