Los residuos son nuestras estimaciones de los términos de error.
La respuesta corta a esta pregunta es relativamente simple: los supuestos en un modelo de regresión son supuestos sobre el comportamiento de los términos de error, y los residuales son nuestras estimaciones de los términos de error. Ipso facto , el examen del comportamiento de los residuos observados nos dice si las suposiciones sobre los términos de error son o no plausibles.
Para comprender esta línea general de razonamiento con más detalle, es útil examinar en detalle el comportamiento de los residuos en un modelo de regresión estándar. Bajo una regresión lineal múltiple estándar con términos de error normal homoskedastic independientes, se conoce la distribución del vector residual, lo que le permite probar los supuestos de distribución subyacentes en el modelo de regresión. La idea básica es calcular la distribución del vector residual bajo los supuestos de regresión, y luego verificar si los valores residuales coinciden plausiblemente con esta distribución teórica. Las desviaciones de la distribución residual teórica muestran que la distribución supuesta subyacente de los términos de error es incorrecta en algún aspecto.
ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
donde es la matriz del sombrero para la regresión. El vector residual imita el vector de error, pero la matriz de varianza tiene el término multiplicativo adicional . Para probar los supuestos de regresión, usamos los residuales studentizados, que tienen una distribución marginal T:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Esta fórmula es para los residuos externamente estudiados, donde el estimador de varianza excluye la variable en consideración. Los valores son los valores de apalancamiento, que son los valores diagonales en la matriz del sombrero . Los residuos estudiados no son independientes, pero si es grande, están cerca de ser independientes. Esto significa que la distribución marginal es una distribución simple conocida pero la distribución conjunta es complicada.) Ahora, si el límite existe, entonces se puede demostrar que los estimadores de coeficientes son estimadores consistentes de los coeficientes de regresión verdaderos, y los residuales son estimadores consistentes de Términos de verdadero error.li=hi,inlimn→∞(xTx)/n=Δ
Esencialmente, esto significa que usted prueba los supuestos de distribución subyacentes para los términos de error al comparar los residuos estudiados con la distribución T. Cada una de las propiedades subyacentes de la distribución de errores (linealidad, homocedasticidad, errores no correlacionados, normalidad) puede probarse utilizando las propiedades análogas de la distribución de los residuos estudiados. Si el modelo se especifica correctamente, entonces para grandes los residuos deben estar cerca de los términos de error verdadero y tienen una forma de distribución similar.n
La omisión de una variable explicativa del modelo de regresión conduce a un sesgo de variable omitido en los estimadores de coeficientes y esto afecta la distribución residual. Tanto la media como la varianza del vector residual se ven afectadas por la variable omitida. Si los términos omitidos en la regresión son , el vector residual se convierte en . Si los vectores de datos en la matriz omitida son vectores normales IID e independientes de los términos de error, entoncesZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) para que la distribución residual se convierta en:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Si ya hay un término de intercepción en el modelo (es decir, si el vector unitario está en la matriz de diseño) entonces1(I−h)1=0, lo que significa que se conserva la forma distributiva estándar de los residuos. Si no hay un término de intercepción en el modelo, la variable omitida puede dar una media distinta de cero para los residuos. Alternativamente, si la variable omitida no es IID normal, puede conducir a otras desviaciones de la distribución residual estándar. En este último caso, es poco probable que las pruebas residuales detecten algo resultante de la presencia de una variable omitida; Por lo general, no es posible determinar si las desviaciones de la distribución residual teórica se producen como resultado de una variable omitida, o simplemente debido a una relación mal planteada con las variables incluidas (y podría decirse que son lo mismo en cualquier caso).