¿Qué tan incorrecto es un modelo de regresión cuando no se cumplen los supuestos?

Al ajustar un modelo de regresión, qué sucede si no se cumplen los supuestos de los resultados, específicamente:

¿Qué sucede si los residuos no son homoscedásticos? Si los residuos muestran un patrón creciente o decreciente en la gráfica Residual vs.
¿Qué sucede si los residuos no se distribuyen normalmente y no pasan la prueba de Shapiro-Wilk? La prueba de normalidad de Shapiro-Wilk es una prueba muy estricta y, a veces, incluso si el gráfico Normal-QQ parece algo razonable, los datos no pasan la prueba.
¿Qué sucede si uno o más predictores no se distribuyen normalmente, no se ven bien en el gráfico Normal-QQ o si los datos no pasan la prueba de Shapiro-Wilk?

Entiendo que no hay una división en blanco y negro, que 0.94 es correcto y 0.95 es incorrecto, y en la pregunta, quiero saber:

¿Qué significa el fracaso de la normalidad para un modelo que se ajusta bien de acuerdo con el valor R-Squared? ¿Se vuelve menos confiable o completamente inútil?
¿En qué medida, la desviación es aceptable, o es aceptable en absoluto?
Al aplicar transformaciones en los datos para cumplir con los criterios de normalidad, ¿el modelo mejora si los datos son más normales (valor P más alto en la prueba de Shapiro-Wilk, mejor en el gráfico QQ normal), o es inútil (igualmente bueno o mal en comparación con el original) hasta que los datos pasan la prueba de normalidad?

— SpeedBirdNine
fuente

Creo que la respuesta al título solo es "Sí".

— Thomas Cleberg

@ThomasCleberg Respuesta interesante. ¿Es eso lo que también dices cuando la gente te pregunta "¿Cómo estás?" :)

— JohnK

No, pero es si me preguntan si estoy vivo. :)

— Thomas Cleberg

Una pregunta básica que debe hacerse: "¿Para qué quiere usar el modelo de regresión?"

— Floris

¿Qué sucede si los residuos no son homoscedásticos? Si los residuos muestran un patrón creciente o decreciente en la gráfica Residual vs.

Si el término de error no es homoscedastic (usamos los residuos como un proxy para el término de error no observable), el estimador OLS sigue siendo consistente e imparcial, pero ya no es el más eficiente en la clase de estimadores lineales. Es el estimador GLS ahora el que disfruta de esta propiedad.

¿Qué sucede si los residuos no se distribuyen normalmente y no pasan la prueba de Shapiro-Wilk? La prueba de normalidad de Shapiro-Wilk es una prueba muy estricta y, a veces, incluso si el gráfico Normal-QQ parece algo razonable, los datos no pasan la prueba.

El teorema de Gauss-Markov no requiere normalidad. El estimador OLS sigue siendo AZUL pero sin normalidad tendrá dificultades para hacer inferencia, es decir, pruebas de hipótesis e intervalos de confianza, al menos para tamaños de muestra finitos. Sin embargo, todavía queda el bootstrap.

Asintóticamente, esto es un problema menor ya que el estimador OLS tiene una distribución normal limitante en condiciones de regularidad moderada.

¿Qué sucede si uno o más predictores no se distribuyen normalmente, no se ven bien en el gráfico Normal-QQ o si los datos no pasan la prueba de Shapiro-Wilk?

Hasta donde sé, los predictores se consideran fijos o la regresión está condicionada a ellos. Esto limita el efecto de la no normalidad.

¿Qué significa el fracaso de la normalidad para un modelo que se ajusta bien de acuerdo con el valor R-Squared? ¿Se vuelve menos confiable o completamente inútil?

El R cuadrado es la proporción de la varianza explicada por el modelo. No requiere la suposición de normalidad y es una medida de bondad de ajuste independientemente. Sin embargo, si desea usarlo para una prueba F parcial, esa es otra historia.

¿En qué medida, la desviación es aceptable, o es aceptable en absoluto?

Te refieres a la desviación de la normalidad, ¿verdad? Realmente depende de tus propósitos porque, como dije, la inferencia se vuelve difícil en ausencia de normalidad, pero no es imposible (¡bootstrap!).

Al aplicar transformaciones en los datos para cumplir con los criterios de normalidad, ¿el modelo mejora si los datos son más normales (valor P más alto en la prueba de Shapiro-Wilk, mejor en el gráfico QQ normal), o es inútil (igualmente bueno o mal comparado con el original) hasta que los datos pasen la prueba de normalidad?

En resumen, si tiene todos los supuestos de Gauss-Markov más la normalidad, entonces el estimador OLS es el mejor imparcial (BUE), es decir, el más eficiente en todas las clases de estimadores: se alcanza el límite inferior de Cramer-Rao. Esto es deseable, por supuesto, pero no es el fin del mundo si no sucede. Se aplican las observaciones anteriores.

Con respecto a las transformaciones, tenga en cuenta que si bien la distribución de la respuesta podría acercarse a la normalidad, la interpretación podría no ser sencilla después.

Estas son solo algunas respuestas cortas a sus preguntas. Parece estar particularmente preocupado por las implicaciones de la no normalidad. En general, diría que no es tan catastrófico como la gente (¿se ha hecho creer?) Y existen soluciones alternativas. Las dos referencias que he incluido son un buen punto de partida para futuras lecturas, siendo la primera de naturaleza teórica.

referencias :

Hayashi, Fumio. : "Econometría", Princeton University Press, 2000

Kutner, Michael H. y col. "Modelos estadísticos lineales aplicados", McGraw-Hill Irwin, 2005.

— JohnK
fuente

Regulando el punto de que los supuestos de Gauss-Markov más la normalidad implican que OLS es el más eficiente de todos los estimadores (no solo lineales), destacaría el hecho de que uno de dichos supuestos es que la media condicional de wrt el es lineal en los parámetros . Si está asumiendo que el modelo subyacente es lineal, entonces no es sorprendente que un estimador lineal (MCO) resulte para vencer a todos los demás estimadores (ya sea lineal o no).

Y

$Y$

X_{i}

$X_i$

β_{i}

$\beta_i$

— DeltaIV

@DeltaIV Creo que está confundido ya que estamos hablando de estimadores lineales con respecto a la respuesta , .

y

$\mathbf{y}$

— JohnK

Bueno, ambos puntos son ciertos, en realidad. Una de las hipótesis de GM es que el modelo ideal es lineal en el , vea: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem Al mismo tiempo, es cierto lo que usted dice: OLS es un estimador de la , no de . Por lo tanto, cuando decimos que es lineal, queremos decir que es lineal en las variables aleatorias iid .

β_{i}

$\beta_i$

β_{i}

$\beta_i$

Y

$Y$

Y_{1}, \dots, Y_{n}

$Y_1,\ldots,Y_n$

— DeltaIV

@DeltaIV ¿Qué quieres decir con "modelo ideal"? Es el modelo verdadero que es lineal en los parámetros. Sin embargo, eso no nos restringe al considerar como estimadores solo las funciones lineales de la respuesta. El GM afirma que si restringimos nuestra atención en funciones lineales de la respuesta, entonces el OLS es AZUL bajo algunos supuestos adicionales. Ahora, si asumimos también la normalidad, no importa qué función de la respuesta esté considerando , simplemente no puede hacerlo mejor que el OLS, siempre que el estimador sea imparcial.

— JohnK

modelo ideal = modelo real. Claro, podríamos considerar funciones no lineales de para estimar . Traté de explicar que en mi segundo comentario, creo que estamos de acuerdo.

Y_{i}

$Y_i$

β_{i}

$\beta_i$

— DeltaIV