¿Cuáles son las consecuencias de tener una varianza no constante en los términos de error en la regresión lineal?

Una de las suposiciones de la regresión lineal es que debe haber una variación constante en los términos de error y que los intervalos de confianza y las pruebas de hipótesis asociadas con el modelo se basan en esta suposición. ¿Qué sucede exactamente cuando los términos de error no tienen una variación constante?

— Kira
fuente

Las consecuencias de la heteroscedasticidad son:

El mínimos cuadrados ordinarios (OLS) estimador es todavía coherente pero ya no es eficiente . $\hat{\mathbf{b}} = \left(X'X \right)X'\mathbf{y}$
$\hat{\mathrm{Var}}\left(\mathbf{b} \right) = \left( X'X\right)^{-1} \hat{\sigma}^2$ $\hat{\sigma}^2 = \frac{1}{n-k} \mathbf{e'}{\mathbf{e}}$ $\hat{\mathbf{b}}$

El punto (1) puede no ser un problema importante; la gente a menudo usa el estimador OLS ordinario de todos modos. Pero el punto (2) debe ser abordado. ¿Qué hacer?

$\mathbf{b}$

\hat{V a r} (b) = \frac{1}{n} {(\frac{X^{'} X}{n})}^{- 1} S {(\frac{X^{'} X}{n})}^{- 1}

$\hat{\mathrm{Var}}\left(\mathbf{b}\right)=\frac{1}{n}\left( \frac{X'X}{n} \right)^{-1} S \left( \frac{X'X}{n} \right)^{-1}$

S

$S$

S = \frac{1}{n - k} \sum_{i} (x_{i} e_{i}) {(x_{i} e_{i})}^{'}

$S = \frac{1}{n-k}\sum_i \left(\mathbf{x}_i e_i\right) \left(\mathbf{x}_i e_i \right)'$

Esto da errores estándar consistentes a la heterocedasticidad. También se conocen como errores estándar de Huber-White, errores estándar robustos, estimador "sandwich", etc. Cualquier paquete de estadísticas estándar básico tiene una opción para errores estándar robustos. Úsalo!

Algunos comentarios adicionales (actualización)

Si la heterocedasticidad es lo suficientemente grande, la estimación regular de MCO puede tener grandes problemas prácticos. Si bien sigue siendo un estimador consistente, es posible que tenga pequeños problemas de muestra en los que toda su estimación se debe a unas pocas observaciones de alta varianza. (Esto es a lo que @ seanv507 alude en los comentarios). El estimador OLS es ineficiente porque da más peso a las observaciones de alta varianza que lo óptimo. La estimación puede ser extremadamente ruidosa.

Un problema al tratar de corregir la ineficiencia es que probablemente tampoco conozca la matriz de covarianza para los términos de error, por lo tanto, usar algo como GLS puede empeorar las cosas si su estimación de la matriz de covarianza del término de error es basura.

Además, los errores estándar de Huber-White que doy arriba pueden tener grandes problemas en muestras pequeñas. Hay una larga literatura sobre este tema. P.ej. ver Imbens y Kolesar (2016), "Errores estándar robustos en muestras pequeñas: algunos consejos prácticos".

Dirección para estudios posteriores:

Si esto es autoestudio, lo siguiente práctico a considerar son los errores estándar agrupados. Estos corrigen la correlación arbitraria dentro de los clústeres.

— Matthew Gunn
fuente

Matthew - Creo que problemas más prácticos aclararían el punto (1). por ejemplo, ¿el estimador no estaría "sesgado" hacia aquellas regiones con mayor varianza? - lo cual sería un problema mayor si esas regiones estuvieran lejos de la media y causaran un alto apalancamiento.

— seanv507

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbf{b}$

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbb b$

@ seanv507 ¡siéntase libre de agregar su propia respuesta!

— Matthew Gunn

En lugar de utilizar errores estándar robustos a la heterocedasticidad (que Ed Leamer en su artículo de 2010 "Tantalus on the road to Asymptopia" llama White- washing ), también se podría tratar de corregir las estimaciones puntuales (junto con la estimación de la varianza) para la heterocedasticidad WLS. Vale la pena mencionar esto en su respuesta.

— Richard Hardy

Bueno, la respuesta corta es básicamente que su modelo es incorrecto, es decir

Para que los mínimos cuadrados ordinarios para ser el B est L Inear T nbiased E stimator se supone que la constante variación de los términos de error.
$\beta$

Entonces, en caso de heterocedasticidad, ocurren problemas con la estimación de la matriz de varianza-covarianza, lo que conduce a errores estándar incorrectos de los coeficientes, lo que a su vez conduce a estadísticas t y valores p incorrectos. En pocas palabras, si sus términos de error no tienen una varianza constante, los mínimos cuadrados ordinarios no son la forma más eficiente de estimación. Echa un vistazo a esta pregunta relacionada.

— davidski
fuente

La "heterocedasticidad" dificulta la estimación de la verdadera desviación estándar de los errores de pronóstico. Esto puede conducir a intervalos de confianza que son demasiado amplios o demasiado estrechos (en particular, serán demasiado estrechos para las predicciones fuera de la muestra, si la varianza de los errores aumenta con el tiempo).

Además, el modelo de regresión puede centrarse demasiado en un subconjunto de datos.

Buena referencia: Supuestos de prueba de regresión lineal

— Ay_
fuente