En Métodos estadísticos en las ciencias atmosféricas , Daniel Wilks señala que la regresión lineal múltiple puede conducir a problemas si hay intercorrelaciones muy fuertes entre los predictores (3a edición, página 559-560):
Una patología que puede ocurrir en la regresión lineal múltiple es que un conjunto de variables predictoras que tienen fuertes correlaciones mutuas pueden resultar en el cálculo de una relación de regresión inestable.
(...)
Luego introduce la regresión del componente principal:
Un enfoque para remediar este problema es transformar primero los predictores en sus componentes principales, cuyas correlaciones son cero.
Hasta aquí todo bien. Pero a continuación, hace algunas declaraciones que no explica (o al menos no con suficiente detalle para que yo entienda):
Si todos los componentes principales se retienen en una regresión de componentes principales, entonces no se gana nada sobre el ajuste de mínimos cuadrados convencionales al conjunto completo de predictores.
(..) y:
Es posible volver a expresar la regresión del componente principal en términos de los predictores originales, pero el resultado en general involucrará todas las variables predictoras originales, incluso si solo se han utilizado uno o algunos predictores de componentes principales. Esta regresión reconstituida estará sesgada, aunque a menudo la varianza es mucho menor, lo que resulta en un MSE más pequeño en general.
No entiendo estos dos puntos.
Por supuesto, si se retienen todos los componentes principales, usamos la misma información que cuando utilizamos los predictores en su espacio original. Sin embargo, el problema de las correlaciones mutuas se elimina trabajando en el espacio del componente principal. Es posible que aún tengamos sobreajuste, pero ¿es ese el único problema? ¿Por qué no se gana nada?
En segundo lugar, incluso si truncamos los componentes principales (tal vez para la reducción de ruido y / o para evitar el sobreajuste), ¿por qué y cómo esto conduce a una regresión reconstituida sesgada? Sesgado de qué manera?
Fuente del libro: Daniel S. Wilks, Métodos estadísticos en las ciencias atmosféricas, tercera edición, 2011. Serie internacional de geofísica, volumen 100, Academic Press.