¿Por qué Daniel Wilks (2011) dice que la regresión del componente principal "estará sesgada"?

En Métodos estadísticos en las ciencias atmosféricas , Daniel Wilks señala que la regresión lineal múltiple puede conducir a problemas si hay intercorrelaciones muy fuertes entre los predictores (3a edición, página 559-560):

Una patología que puede ocurrir en la regresión lineal múltiple es que un conjunto de variables predictoras que tienen fuertes correlaciones mutuas pueden resultar en el cálculo de una relación de regresión inestable.

(...)

Luego introduce la regresión del componente principal:

Un enfoque para remediar este problema es transformar primero los predictores en sus componentes principales, cuyas correlaciones son cero.

Hasta aquí todo bien. Pero a continuación, hace algunas declaraciones que no explica (o al menos no con suficiente detalle para que yo entienda):

Si todos los componentes principales se retienen en una regresión de componentes principales, entonces no se gana nada sobre el ajuste de mínimos cuadrados convencionales al conjunto completo de predictores.

(..) y:

Es posible volver a expresar la regresión del componente principal en términos de los predictores originales, pero el resultado en general involucrará todas las variables predictoras originales, incluso si solo se han utilizado uno o algunos predictores de componentes principales. Esta regresión reconstituida estará sesgada, aunque a menudo la varianza es mucho menor, lo que resulta en un MSE más pequeño en general.

No entiendo estos dos puntos.

Por supuesto, si se retienen todos los componentes principales, usamos la misma información que cuando utilizamos los predictores en su espacio original. Sin embargo, el problema de las correlaciones mutuas se elimina trabajando en el espacio del componente principal. Es posible que aún tengamos sobreajuste, pero ¿es ese el único problema? ¿Por qué no se gana nada?

En segundo lugar, incluso si truncamos los componentes principales (tal vez para la reducción de ruido y / o para evitar el sobreajuste), ¿por qué y cómo esto conduce a una regresión reconstituida sesgada? Sesgado de qué manera?

Fuente del libro: Daniel S. Wilks, Métodos estadísticos en las ciencias atmosféricas, tercera edición, 2011. Serie internacional de geofísica, volumen 100, Academic Press.

regression pca bias

— gerrit
fuente

(+1) En la segunda cita, "estará sesgado" no sigue lógicamente: mejor sería una declaración más leve como "es probable que esté sesgado". Sospecho que el razonamiento detrás de esto puede ser algo similar a "porque la PCR impone relaciones lineales entre las estimaciones de los parámetros, esas estimaciones tenderán a diferir de las estimaciones de OLS; y debido a que las estimaciones de OLS son insesgadas, eso significa que las estimaciones de PCR serán sesgadas". Intuitivamente es una buena heurística, pero no es del todo correcta.

— whuber

¿podría decirse que "la PCR estará sesgada" si (a) los puntos de datos no ocupan una variedad dimensional lineal menor o igual que el número elegido de PC y (b) los puntos de datos no están perfectamente correlacionados? ¿o como?

— Soren Havelund Welling

¿Qué sucede cuando se usan todas las PC?

Si se utilizan todas las PC, los coeficientes de regresión resultantes serán idénticos a los obtenidos con la regresión OLS, por lo que este procedimiento no debería llamarse "regresión de componentes principales". Es una regresión estándar, solo realizada de forma indirecta.

$Z$ $Z$ $X$ $X_i$

Entonces no se gana nada.

¿Qué sucede cuando solo se usan pocas PC?

$\hat \beta_\mathrm{PCR}$ $\hat \beta_\mathrm{OLS}$ $\hat \beta$

Este es un ejemplo de la compensación de sesgo-varianza . Ver ¿Por qué funciona la contracción? para alguna discusión general adicional.

$y$ $y$ $y$

¿Por qué usar PC de alta variación es una buena idea?

Esto no era parte de la pregunta, pero podría estar interesado en el siguiente hilo para la lectura adicional: ¿cómo pueden los principales componentes principales retener el poder predictivo en una variable dependiente (o incluso conducir a mejores predicciones)?

— ameba dice reinstalar Monica
fuente

Y

$Y$

Y

$Y$

@whuber, de hecho. He reescrito ese párrafo, espero que tenga más sentido ahora. Gracias.

— ameba dice Reinstate Monica

Mmm, cierto. Básicamente significa que algunos puntos son más iguales que otros, que es exactamente lo que queremos si queremos reducir la influencia del ruido y los valores atípicos (que todavía no estoy seguro de si PCA es la mejor herramienta para).

— gerrit

@gerrit Escribes como si el sesgo fuera equivalente a la ponderación, pero son cosas separadas. El sesgo en este contexto se refiere a cualquier diferencia entre los valores esperados de las estimaciones de coeficientes y sus valores verdaderos.

— whuber

El modelo supone que las respuestas son variables aleatorias. Esto hace que los coeficientes estimados, usando cualquier procedimiento, también sean variables aleatorias. Sus valores esperados se definen como para cualquier variable aleatoria. Por definición, el sesgo es la diferencia entre el valor esperado y el valor verdadero. Las estimaciones del coeficiente MCO tienen sesgos de cero. El sesgo de algún otro procedimiento aún podría ser cero. La lógica de la cita es que un procedimiento que es lineal, como OLS, pero que impone relaciones entre los coeficientes, necesariamente estará sesgado. Esa conclusión es cierta en muchos casos, pero no en todos.

— whuber