¿Por qué la normalidad de los residuos es "apenas importante" para estimar la línea de regresión?

21

Gelman y Hill (2006) escriben en p46 que:

El supuesto de regresión que generalmente es menos importante es que los errores se distribuyen normalmente. De hecho, con el propósito de estimar la línea de regresión (en comparación con la predicción de puntos de datos individuales), el supuesto de normalidad es apenas importante. Por lo tanto, en contraste con muchos libros de texto de regresión, no recomendamos el diagnóstico de la normalidad de los residuos de regresión.

Gelman y Hill no parecen explicar este punto más.

¿Son correctos Gelman y Hill? Si es así, entonces:

¿Por qué "apenas importante en absoluto"? ¿Por qué no es importante ni completamente irrelevante?
¿Por qué es importante la normalidad de los residuos al predecir puntos de datos individuales?

Gelman, A. y Hill, J. (2006). Análisis de datos mediante regresión y modelos multinivel / jerárquicos. Prensa de la Universidad de Cambridge

regression residuals assumptions

— user1205901 - Restablecer Monica
fuente

21

Para la estimación normalidad no es exactamente una suposición, pero una consideración importante sería la eficiencia; en muchos casos un buen estimador lineal funcionará bien y en ese caso (por Gauss-Markov) la estimación de LS sería la mejor de esas cosas que estarían bien. (Si sus colas son bastante pesadas o muy livianas, puede tener sentido considerar otra cosa)

En el caso de las pruebas y los IC, aunque se asume la normalidad, generalmente no es tan crítico (de nuevo, siempre y cuando las colas no sean realmente pesadas o livianas, o tal vez una de cada una), en eso, al menos no muy muestras pequeñas, las pruebas y los IC típicos tienden a tener cerca de sus propiedades nominales (no muy lejos del nivel de significación o cobertura reclamados) y funcionan bien (potencia razonable para situaciones típicas o IC no mucho más amplios que las alternativas), a medida que avanza más allá del caso normal, la potencia puede ser un problema mayor, y en ese caso, las muestras grandes generalmente no mejorarán la eficiencia relativa, por lo que cuando los tamaños del efecto son tales que la potencia es mediana en una prueba con una potencia relativamente buena, puede ser muy pobre para las pruebas que suponen normalidad.

Esta tendencia a tener propiedades cercanas a las nominales para los IC y los niveles de significancia en las pruebas se debe a varios factores que operan juntos (uno de los cuales es la tendencia de las combinaciones lineales de variables a tener una distribución cercana a la normal siempre que haya muchos valores involucrados y ninguno de ellos aporta una gran fracción de la varianza total).

Sin embargo, en el caso de un intervalo de predicción basado en el supuesto normal, la normalidad es relativamente más crítica, ya que el ancho del intervalo depende en gran medida de la distribución de un solo valor. Sin embargo, incluso allí, para el tamaño de intervalo más común (intervalo de 95%), el hecho de que muchas distribuciones unimodales tengan muy cerca del 95% de su distribución dentro de aproximadamente 2 segundos de la media tiende a dar como resultado un rendimiento razonable de un intervalo de predicción normal incluso cuando la distribución no es normal. [Sin embargo, esto no se lleva tan bien a intervalos mucho más estrechos o más amplios, digamos un intervalo del 50% o un intervalo del 99.9%.]

— Glen_b -Reinstate a Monica
fuente

"La tendencia de las combinaciones lineales de variables a tener una distribución cercana a la normal". - Supongo que esto no está conectado con el Teorema del límite central. ¿Lo es? Si no, ¿qué tipo de "teorema" es esta afirmación?

— Heisenberg

1

@Heisenberg Tiene una conexión con versiones particulares del CLT, sí. (Ver las versiones de Lyapunov y Lindeberg aquí ). Si desea que un teorema se aplique a muestras finitas, estamos viendo una versión del teorema de Berry-Esseen. Pero la declaración pretendía más una observación (de ahí el uso de la palabra "tendencia") que un teorema.

— Glen_b -Reinstate Monica

7

2: Al predecir puntos de datos individuales, el intervalo de confianza alrededor de esa predicción supone que los residuos se distribuyen normalmente.

Esto no es muy diferente de la suposición general sobre los intervalos de confianza: para ser válidos, debemos comprender la distribución, y la suposición más común es la normalidad. Por ejemplo, un intervalo de confianza estándar alrededor de una media funciona porque la distribución de las medias muestrales se acerca a la normalidad, por lo que podemos usar la distribución az o t

— zbicyclist
fuente