¿Por qué los residuos en la regresión lineal siempre suman cero cuando se incluye una intersección?

14

Estoy tomando un curso sobre modelos de regresión y una de las propiedades proporcionadas para la regresión lineal es que los residuos siempre suman cero cuando se incluye una intersección.

¿Alguien puede dar una buena explicación de por qué este es el caso?

regression residuals

— dts86
fuente

3

Es posible que primero desee reflexionar sobre la pregunta más estrecha pero relacionada de por qué en una muestra univariada, los residuos que obtiene restando la media de la muestra de cada valor también suman 0. (Intente seguir el álgebra si puede).

— Glen_b - Reinstale a Mónica el

3

Tan pronto como reconozca que "suma a cero" significa "ortogonal a una de las variables explicativas" la respuesta se vuelve geométricamente obvia.

— whuber

18

Esto se deduce directamente de las ecuaciones normales, es decir, las ecuaciones que resuelve el estimador OLS,

X^{'} \underset{e}{\underset{⏟}{(y - X b)}} = 0

$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0$

El vector dentro de los paréntesis es, por supuesto, el vector residual o la proyección de en el complemento ortogonal del espacio de la columna de , si le gusta el álgebra lineal. Ahora, incluir un vector de unos en la matriz , que por cierto no tiene que estar en la primera columna como se hace convencionalmente, conduce a $\mathbf{y}$ $X$ $\mathbf{X}$

1^{'} e = 0 ⟹ \sum_{i = 1}^{n} e_{i} = 0

$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$

En el problema de dos variables, esto es aún más simple de ver, ya que minimizar la suma de los residuos al cuadrado nos lleva a

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$

cuando tomamos la derivada con respecto a la intersección. A partir de esto, procedemos a obtener el estimador familiar

a = \bar{y} - b \bar{x}

$a = \bar{y} - b \bar{x}$

donde nuevamente vemos que la construcción de nuestros estimadores impone esta condición.

— JohnK
fuente

17

En caso de que esté buscando una explicación bastante intuitiva.

En cierto sentido, el modelo de regresión lineal no es más que una media elegante. Para encontrar la media aritmética sobre algunos valores , encontramos un valor que es una medida de centralidad en el sentido de que la suma de todas las desviaciones (donde cada desviación se define como ) a la derecha del valor medio son iguales a la suma de todas las desviaciones a la izquierda de esa media. No existe una razón inherente por la que esta medida sea buena, y mucho menos la mejor manera de describir la media de una muestra, pero sin duda es intuitiva y práctica. El punto importante es que, al definir la media aritmética de esta manera, necesariamente se deduce que una vez que construimos la media aritmética, ¡todas las desviaciones de esa media deben sumar cero por definición! $\bar{x}$ $x_1, x_2, \dots, x_n$ $u_i = x_i - \bar{x}$

En regresión lineal, esto no es diferente. Nos ajustamos a la línea de tal manera que la suma de todas las diferencias entre los valores ajustados (que están en la línea de regresión) y los valores reales que se encuentran por encima de la línea es exactamente igual a la suma de todas las diferencias entre la línea de regresión y todos los valores por debajo de la línea. Nuevamente, no hay una razón inherente por la cual esta es la mejor manera de construir un ajuste, pero es directa e intuitiva. Al igual que con la media aritmética: al construir nuestros valores ajustados de esta manera, necesariamente se sigue, por construcción, que todas las desviaciones de esa línea deben sumar cero, de lo contrario, esto no sería una regresión de MCO.

— Manuel R
fuente

2

¡+1 para una respuesta directa, simple e intuitiva!

3

Cuando se incluye una intersección en una regresión lineal múltiple, En la regresión de mínimos cuadrados, La suma de los cuadrados de los errores se minimiza. Tome el parcial derivada de SSE con respecto a y establecerlo en cero.

{\hat{y}}_{i} = β_{0} + β_{1} x_{i, 1} + β_{2} x_{i, 2} + \dots + β_{p} x_{i, p}

$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^2$

β_{0}

$\beta_0$

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{1} (- 1) = - 2 \sum_{i = 1}^{n} e_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^1 (-1) =-2\displaystyle\sum\limits_{i=1}^ne_i=0$ Por lo tanto, los residuos siempre suman cero cuando se incluye una intersección en una regresión lineal.

— DavidCruise
fuente

1

Una observación clave es que debido a que el modelo tiene intersección, , que es la primera columna de la matriz de diseño , puede escribirse como donde es un vector de columna con todos los ceros, pero el primer componente. También tenga en cuenta que, en notación matricial, la suma de los residuos es solo . $1$ $X$

1 = X e,

$1 = Xe,$

e

$e$

1^{T} (y - \hat{y})

$1^T(y - \hat{y})$

Por lo tanto,

\begin{aligned} 1^{T} (y - \hat{y}) = 1^{T} (I - H) y \\ = & e^{T} X^{T} (I - X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T} X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T}) y \\ = & 0. \end{aligned}

$\begin{align} & 1^T(y - \hat{y}) = 1^T(I - H)y \\ = & e^TX^T(I - X(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^TX(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^T)y \\ = & 0. \end{align}$

— Zhanxiong
fuente

0

Una derivación simple usando álgebra matricial:

$\sum e$ puede escribirse como $1^Te$

Luego

$1^Te = 1^T(M_x y)$ donde es la matriz ortogonal. Como es simétrico, podemos reorganizarlo para que $M_x$ $M_x$ $(M_x1)^Ty$

que es igual a cero si y son ortogonales, que es el caso si la matriz de los regresores contiene la intersección (un vector de , de hecho). $M_x$ $1$ $x$ $1$

— Miño
fuente

No creo que esto sea correcto.

— Michael R. Chernick

Si explican por qué, entonces estaré encantado de aprender algo

— Miño

0

$e_i = y_i - [1, X] [a, b] = y_i - Xb - a = v_i - a$
$\frac{d}{da} \sum e_i^2 \propto \sum e_i\cdot 1 = \sum v_i - a = 0$ entonces $\hat{a} = \frac{1}{n}\sum v_i$
$\sum e_i = \sum_i v_i - a = \sum_i v_i - \frac{n}{n}\sum_i v_i = 0$

..

— Hunaphu
fuente