10

Supongamos que tenemos un modelo $Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i$ .

La regresión tiene una serie de supuestos, como que los errores $\epsilon_i$ deberían distribuirse normalmente con media cero y varianza constante. Me han enseñado para comprobar estos supuestos utilizando una parcela QQ normal a prueba de normalidad de los residuales $e_i = Y_i - \hat{Y}_i$ y unos residuos vs. parcela equipada para comprobar que los residuos varían en torno a cero con varianza constante.

Sin embargo, estas pruebas son todas en los residuos, no los errores.

Por lo que entiendo, los errores se definen como la desviación de cada observación de su valor medio "verdadero". Entonces, podemos escribir $\epsilon_i = Y_i - \mathbb{E}[Y_i]$ . Estos errores no pueden ser observados por nosotros. * *

Mi pregunta es esta: ¿qué tan buen trabajo hacen los residuos al imitar los errores?

Si los supuestos parecen estar satisfechos con los residuos, ¿significa esto que también están satisfechos con los errores? ¿Hay otras formas (mejores) de probar los supuestos, como ajustar el modelo a un conjunto de datos de prueba y obtener los residuos a partir de ahí?

* Además, ¿esto no requiere que el modelo se especifique correctamente ? Es decir, que la respuesta realmente tiene una relación con los predictores $X_1, X_2,$ etc. en la forma especificada por el modelo.

$X_{k+1}\ \text{to}\ X_p$ $\mathbb{E}[Y_i] = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik}$

¿Cómo verificamos si el modelo es el correcto?

regression residuals error

— mai
fuente

9

Los residuos son nuestras estimaciones de los términos de error.

La respuesta corta a esta pregunta es relativamente simple: los supuestos en un modelo de regresión son supuestos sobre el comportamiento de los términos de error, y los residuales son nuestras estimaciones de los términos de error. Ipso facto , el examen del comportamiento de los residuos observados nos dice si las suposiciones sobre los términos de error son o no plausibles.

Para comprender esta línea general de razonamiento con más detalle, es útil examinar en detalle el comportamiento de los residuos en un modelo de regresión estándar. Bajo una regresión lineal múltiple estándar con términos de error normal homoskedastic independientes, se conoce la distribución del vector residual, lo que le permite probar los supuestos de distribución subyacentes en el modelo de regresión. La idea básica es calcular la distribución del vector residual bajo los supuestos de regresión, y luego verificar si los valores residuales coinciden plausiblemente con esta distribución teórica. Las desviaciones de la distribución residual teórica muestran que la distribución supuesta subyacente de los términos de error es incorrecta en algún aspecto.

$\epsilon_i \sim \text{IID N}(0, \sigma^2)$

r = (I - h) ϵ \sim N (0, σ^{2} (I - h)),

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})),$

donde es la matriz del sombrero para la regresión. El vector residual imita el vector de error, pero la matriz de varianza tiene el término multiplicativo adicional . Para probar los supuestos de regresión, usamos los residuales studentizados, que tienen una distribución marginal T: $\boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}}$ $\boldsymbol{I} - \boldsymbol{h}$

s_{i} \equiv \frac{r_{i}}{{\hat{σ}}_{Ext} \cdot (1 - l_{i})} \sim T ({df}_{Res} - 1) .

$s_i \equiv \frac{r_i}{\hat{\sigma}_{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}_{\text{Res}}-1).$

(Esta fórmula es para los residuos externamente estudiados, donde el estimador de varianza excluye la variable en consideración. Los valores son los valores de apalancamiento, que son los valores diagonales en la matriz del sombrero . Los residuos estudiados no son independientes, pero si es grande, están cerca de ser independientes. Esto significa que la distribución marginal es una distribución simple conocida pero la distribución conjunta es complicada.) Ahora, si el límite existe, entonces se puede demostrar que los estimadores de coeficientes son estimadores consistentes de los coeficientes de regresión verdaderos, y los residuales son estimadores consistentes de Términos de verdadero error. $l_i = h_{i,i}$ $n$ $\lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta$

Esencialmente, esto significa que usted prueba los supuestos de distribución subyacentes para los términos de error al comparar los residuos estudiados con la distribución T. Cada una de las propiedades subyacentes de la distribución de errores (linealidad, homocedasticidad, errores no correlacionados, normalidad) puede probarse utilizando las propiedades análogas de la distribución de los residuos estudiados. Si el modelo se especifica correctamente, entonces para grandes los residuos deben estar cerca de los términos de error verdadero y tienen una forma de distribución similar. $n$

La omisión de una variable explicativa del modelo de regresión conduce a un sesgo de variable omitido en los estimadores de coeficientes y esto afecta la distribución residual. Tanto la media como la varianza del vector residual se ven afectadas por la variable omitida. Si los términos omitidos en la regresión son , el vector residual se convierte en . Si los vectores de datos en la matriz omitida son vectores normales IID e independientes de los términos de error, entonces $\boldsymbol{Z} \boldsymbol{\delta}$ $\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon})$ $\boldsymbol{Z}$ $\boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma_*^2 \boldsymbol{I})$ para que la distribución residual se convierta en:

r = (I - h) (Z δ + ϵ) \sim N (μ (I - h) 1, σ_{*}^{2} (I - h)) .

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma_*^2 (\boldsymbol{I} - \boldsymbol{h}) \Big).$

Si ya hay un término de intercepción en el modelo (es decir, si el vector unitario está en la matriz de diseño) entonces $\boldsymbol{1}$ $(\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0}$ , lo que significa que se conserva la forma distributiva estándar de los residuos. Si no hay un término de intercepción en el modelo, la variable omitida puede dar una media distinta de cero para los residuos. Alternativamente, si la variable omitida no es IID normal, puede conducir a otras desviaciones de la distribución residual estándar. En este último caso, es poco probable que las pruebas residuales detecten algo resultante de la presencia de una variable omitida; Por lo general, no es posible determinar si las desviaciones de la distribución residual teórica se producen como resultado de una variable omitida, o simplemente debido a una relación mal planteada con las variables incluidas (y podría decirse que son lo mismo en cualquier caso).

— Ben - Restablece a Monica
fuente

1

Gracias por la respuesta integral. ¿Puedo preguntar de dónde sacaste ? Me parece que

r = (I - h) ϵ

$r=(I−h)ϵ$

r = Y - \hat{Y} = (I - h) Y

$r=Y-\hat{Y}=(I-h)Y$

— mai

1

Como tiene para que .

h x = x

$\boldsymbol{h} \boldsymbol {x} = \boldsymbol {x}$

(I - h) x = 0

$(\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {x} = \boldsymbol {0}$

r = (I - h) Y = (I - h) (x β + ϵ) = (I - h) ϵ

$\boldsymbol {r} = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {Y} = (\boldsymbol {I} - \boldsymbol {h}) (\boldsymbol {x} \boldsymbol {\beta} + \boldsymbol {\epsilon} ) = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {\epsilon}$

— Ben - Restablece a Mónica el

-4

Por lo general, los términos residuales y errores significan lo mismo. Si su modelo no tiene predictores, E (Y) es de hecho la media de Y. Con los predictores (como en su modelo), E (Y) es el valor de Y pronosticado de cada X. Por lo tanto, los residuos son la diferencia entre cada uno observado y predijo Y.

— Tim Bednall
fuente

3

"Por lo general, los términos residuales y errores significan lo mismo". No creo que esto sea cierto: por lo que entiendo, los residuos miden la diferencia entre el valor observado y el valor predicho, mientras que los errores miden la diferencia entre el valor observado y el valor medio verdadero.

— mai

1

Estrictamente hablando, los errores y los residuos no son sinónimos. Las primeras son variables aleatorias, las últimas son realizaciones.

— Richard Hardy

¿Por qué usamos residuos para probar los supuestos sobre errores en la regresión?

Los residuos son nuestras estimaciones de los términos de error.