¿Por qué la pendiente siempre es exactamente 1 cuando se regresan los errores en los residuos usando OLS?

10

Estaba experimentando con la relación entre los errores y los residuos usando algunas simulaciones simples en R. Una cosa que he encontrado es que, independientemente del tamaño de la muestra o la varianza del error, siempre obtengo exactamente para la pendiente cuando se ajusta al modelo $1$

e r r o r s \sim β_{0} + β_{1} \times r e s i d u a l s

${\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals}$

Aquí está la simulación que estaba haciendo:

n <- 10 
s <- 2.7 

x <- rnorm(n) 
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e

model <- lm(y ~ x) 
r <- model$res 

summary( lm(e ~ r) )

ey restán altamente (pero no perfectamente) correlacionados, incluso para muestras pequeñas, pero no puedo entender por qué sucede esto automáticamente. Se agradecería una explicación matemática o geométrica.

regression least-squares residuals

— GoF_Logistic
fuente

55

En el triángulo plano OXY, con base OX, las altitudes de los lados YO y XY son la altitud del triángulo mismo. Con el fin, esas altitudes están dadas por los coeficientes de lm(y~r), lm(e~r)y lm(r~r), que por lo tanto deben ser todos iguales. Este último obviamente es . Pruebe estos tres comandos para ver. Para que el último funcione , debe crear una copia de , como . Para obtener más información sobre los diagramas geométricos de regresión, consulte stats.stackexchange.com/a/113207 .

1

$1$ Rrs<-r;lm(r~s)

— whuber

1

Gracias @whuber. ¿Desea hacer una respuesta para que pueda aceptarla, o tal vez marcar esto como un duplicado?

— GoF_Logistic

1

No creo que sea un duplicado, así que amplié el comentario en una respuesta.

— whuber

11

¡La respuesta de Whuber es genial! (+1) Resolví el problema usando la notación más familiar para mí y pensé que la derivación (menos interesante, más rutinaria) puede valer la pena incluir aquí.

Sea el modelo de regresión, para y el ruido. Luego, la regresión de contra las columnas de tiene ecuaciones normales dando estimacionesPor lo tanto, la regresión tiene residuos para . $y = X \beta^* + \epsilon$ $X \in \mathbb{R}^{n \times p}$ $\epsilon$ $y$ $X$ $X^T\left(y - X \hat\beta\right) = 0,$

\hat{β} = {(X^{T} X)}^{- 1} X^{T} y .

$\hat\beta = \left(X^T X \right)^{-1} X^T y.$

r = y - X \hat{β} = (I - H) y = (I - H) ϵ,

$r = y - X \hat\beta = \left( I - H \right) y = \left( I - H \right) \epsilon,$

H = X (X^{T} X)^{- 1} X^{T}

$H = X (X^T X)^{-1} X^T$

La regresión de en da como resultado una pendiente estimada dada por ya que es simétrico e idempotente y casi seguro. $\epsilon$ $r$

\begin{aligned} (r^{T} r)^{- 1} r^{T} ϵ & = {({[(I - H) ϵ]}^{T} [(I - H) ϵ])}^{- 1} {[(I - H) ϵ]}^{T} ϵ \\ = \frac{ϵ^{T} {(I - H)}^{T} ϵ}{ϵ^{T} {(I - H)}^{T} (I - H) ϵ} \\ = \frac{ϵ^{T} (I - H) ϵ}{ϵ^{T} (I - H) ϵ} \\ = 1, \end{aligned}

$\begin{align*} (r^T r)^{-1} r^T \epsilon & = \left( \left[ \left(I - H\right) \epsilon \right]^T \left[ \left(I - H\right) \epsilon \right] \right)^{-1} \left[ \left(I - H\right) \epsilon \right]^T \epsilon \\ & = \frac{\epsilon^T \left( I - H \right)^T \epsilon}{\epsilon^T \left( I - H \right)^T \left( I - H \right) \epsilon} \\ & = \frac{\epsilon^T \left( I - H \right) \epsilon}{\epsilon^T \left( I - H \right) \epsilon} \\ & = 1, \end{align*}$

I - H

$I-H$

ϵ \notin i m (X)

$\epsilon \not\in \mathrm{im}(X)$

Además, este argumento también es válido si incluimos una intersección cuando realizamos la regresión de los errores en los residuos si se incluyó una intersección en la regresión original, ya que las covariables son ortogonales (es decir, , de las ecuaciones normales ) $1^T r = 0$

— usuario795305
fuente

+1 Siempre es agradable ver una solución elaborada con cuidado y claridad.

— whuber

11

Sin ninguna pérdida de generalidad conceptual (o práctica), primero elimine la constante de las variables como se describe en Cómo exactamente se "controla para otras variables" . Sea el regresor, el error, la respuesta, la estimación de mínimos cuadrados de , y los residuos. Todos estos vectores se encuentran en el mismo plano, lo que nos permite dibujar imágenes de ellos. La situación se puede representar así, donde designa el origen: $x$ $e$ $Y=\beta x + e$ $b$ $\beta$ $r = Y - bx$ $O$

Esta imagen fue construido comenzando con , a continuación, añadiendo el error para producir . La altitud se redujo a la base, encontrándola en la estimación de mínimos cuadrados . Claramente, la altitud es el vector residual y, por lo tanto, se ha etiquetado como . $\beta x$ $e$ $Y$ $bx$ $Y-bx$ $r$

La base del triángulo es paralela al vector regresor . Las altitudes de los lados y son la altitud del triángulo mismo. Por definición, el residual es perpendicular a la base: por lo tanto, las distancias lejos de la base se pueden encontrar por proyección sobre . Por lo tanto, la altitud del triángulo se puede encontrar en cualquiera de las tres formas: regresando contra (encontrando la altura de ); retroceder contra (encontrar la altura de ), o retroceder contra (encontrar la altura de $x$ $OY$ $(\beta x)Y$ $r$ $r$ $Y$ $r$ $Y$ $e$ $r$ $e$ $r$ $r$ $r$ ) Los tres valores deben ser todos iguales (como puede verificar ejecutando estas regresiones). El último obviamente es , QED . $1$

Para aquellos que prefieren el álgebra, podemos convertir este análisis geométrico en una elegante demostración algebraica. Simplemente observe que , , e son todos módulos congruentes del subespacio generado por . Por lo tanto, deben tener proyecciones iguales en cualquier espacio ortogonal a , como el generado por , donde la proyección de tiene el coeficiente , QED . (Estadísticamente, simplemente "sacamos" el componente de en las tres expresiones, dejando en cada caso). $r$ $e=r+(\beta-b)x$ $Y=e+\beta x = r + (2\beta-b)x$ $x$ $x$ $r$ $r$ $1$ $x$ $r$

— whuber
fuente