¿Cuáles son los peligros de violar el supuesto de homocedasticidad para la regresión lineal?


28

Como ejemplo, considere el ChickWeightconjunto de datos en R. La varianza obviamente crece con el tiempo, así que si uso una regresión lineal simple como:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Mis preguntas:

  1. ¿Qué aspectos del modelo serán cuestionables?
  2. ¿Se limitan los problemas a extrapolar fuera del Timerango?
  3. ¿Qué tan tolerante es la regresión lineal a la violación de esta suposición (es decir, qué tan heterocedástica tiene que ser para causar problemas)?

1
Además de las cosas mencionadas en las respuestas, sus intervalos de predicción tampoco tendrán la cobertura correcta.
Glen_b -Reinstale a Monica

Respuestas:


22

El modelo lineal (o "mínimos cuadrados ordinarios") todavía tiene su propiedad de imparcialidad en este caso.

Ante la heterocedasticidad en términos de error, todavía tiene estimaciones de parámetros imparciales, pero pierde en la matriz de covarianza: su inferencia (es decir, pruebas de parámetros) puede estar desactivada. La solución común es utilizar un método robusto para calcular la matriz de covarianza, también conocida como errores estándar. El que utilices depende un poco del dominio, pero el método de White es un comienzo.

Y para completar, la correlación serial de los términos de error es peor ya que conducirá a estimaciones de parámetros sesgadas.


¿La estimación robusta de los errores estándar (como el método de White) ayuda con las pruebas / intervalos de confianza en los parámetros, pero no ayuda con los intervalos de predicción?
kjetil b halvorsen

La covarianza del vector de parámetros se usa para calcular predicciones, por lo que sus intervalos de predicción también estarán sesgados en general.
Mustafa S Eisa

Correcto. Suspensiones imparciales, la inferencia puede estar desactivada Sin embargo, los otros dos pará son correctos.
Dirk Eddelbuettel

1
Gracias por atraparlo y ser explícito (en lugar de en silencio, o "drive-by", downvote). Simplemente era un poco descuidado en mi uso de la terminología. Mejor ahora.
Dirk Eddelbuettel

23

La homocedasticidad es uno de los supuestos de Gauss Markov que se requieren para que OLS sea el mejor estimador imparcial lineal (AZUL).

β .

Resumiendo brevemente la información de los sitios web anteriores, la heterocedasticidad no introduce un sesgo en las estimaciones de sus coeficientes. Sin embargo, dada la heterocedasticidad, no puede estimar adecuadamente la matriz de varianza-covarianza. Por lo tanto, los errores estándar de los coeficientes son incorrectos. Esto significa que uno no puede calcular ninguna estadística t y valores p y, en consecuencia, no es posible la prueba de hipótesis. En general, bajo heteroscedasticidad, OLS pierde su eficiencia y ya no es AZUL.

Sin embargo, la heterocedasticidad no es el fin del mundo. Afortunadamente, corregir la heterocedasticidad no es difícil. El estimador sandwich le permite estimar errores estándar consistentes para los coeficientes. Sin embargo, calcular los errores estándar a través del estimador sandwich tiene un costo. El estimador no es muy eficiente y los errores estándar pueden ser muy grandes. Una forma de recuperar parte de la eficiencia es agrupar los errores estándar si es posible.

Puede encontrar información más detallada sobre este tema en los sitios web que mencioné anteriormente.


12

La ausencia de homocedasticidad puede dar estimaciones de error estándar poco confiables de los parámetros. Las estimaciones de los parámetros son insesgadas. Pero las estimaciones pueden no ser eficientes (no AZUL). Puedes encontrar más en el siguiente enlace


12

log(Y)Yβs incorrectamente y resultan en una suma no competitiva de errores absolutos. A veces, la falta de constancia de la varianza señala un problema de modelado más fundamental.

Ylog(Y)


1

Hay buena información aquí en las otras respuestas, particularmente a su primera pregunta. Pensé que agregaría información complementaria sobre sus dos últimas preguntas.

  1. Los problemas asociados con la heterocedasticidad no se limitan a la extrapolación. Como implican principalmente que los intervalos de confianza, los valores p y los límites de predicción son incorrectos, se aplican en todo el rango de sus datos.
  2. 4×
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.