¿Qué significan los residuos normales y qué me dice esto sobre mis datos?

13

Pregunta bastante básica:

¿Qué significa una distribución normal de residuos de una regresión lineal? En términos de, ¿cómo se refleja esto en mis datos originales de la regresión?

Estoy totalmente perplejo, gracias chicos

regression residuals

— smar
fuente

5

De hecho, la regresión lineal modela los valores esperados condicionales de su resultado. Eso significa: si conocía los valores verdaderos de los parámetros de regresión (digamos y ), dado un valor de su predictor X, completándolo en la ecuación tendrá se calcula el valor esperado para sobre todas las (posibles) observaciones que tienen este valor dado para . $\beta_0$ $\beta_1$

E [Y | X] = β_{0} + β_{1} X

$E[Y|X] = \beta_0 + \beta_1 X$

Y

$Y$

X

$X$

Sin embargo: realmente no espera que ningún valor para ese valor sea exactamente igual a la media (condicional). No porque su modelo esté equivocado, sino porque hay algunos efectos que no ha tenido en cuenta (por ejemplo, error de medición). Entonces, estos valores para un valor dado fluctuarán alrededor del valor medio (es decir, geométricamente: alrededor del punto de la línea de regresión para esa ). $Y$ $X$ $Y$ $X$ $X$

La suposición de normalidad, ahora, dice que la diferencia entre las y su coincidencia sigue una distribución normal con media cero. Esto significa que, si tiene un valor , puede muestrear un valor calculando primero (es decir, nuevamente , el punto en la línea de regresión), luego muestreando de esa normal distribución y sumarlos: $Y$ $E[Y|X]$ $X$ $Y$ $\beta_0 + \beta_1 X$ $E[Y|X]$ $\epsilon$

Y^{'} = E [Y | X] + ϵ

$Y'=E[Y|X] + \epsilon$

En resumen: esta distribución normal representa la variabilidad en su resultado además de la variabilidad explicada por el modelo.

Nota: en la mayoría de los conjuntos de datos, no tiene múltiples valores para una dada (a menos que su conjunto de predictores sea categórico), pero esta normalidad se aplica a toda la población, no solo a las observaciones en su conjunto de datos. $Y$ $X$

Nota: He hecho el razonamiento para la regresión lineal con un predictor, pero lo mismo vale para más: simplemente reemplace "línea" con "hiperplano" en lo anterior.

— Nick Sabbe
fuente

Esta es una gran explicación! Sin embargo, una pregunta: ¿e estar distribuido normalmente significaría que usted asume que los valores más probables para e están entre -1 y +1 (después de que se estandarizaron)? Entonces, ¿básicamente utiliza una distribución normal en lugar de, por ejemplo, una distribución de Poisson, porque la distribución normal modela mejor cómo se comportan estos valores en la vida real?

— user3813234

1

Podría significar mucho o podría no significar nada. Si ajusta un modelo para obtener el R-Squared más alto, podría significar que ha sido tonto. Si ajusta un modelo para ser parsimonioso en que las variables son necesarias y necesarias y se preocupan por identificar valores atípicos, entonces ha hecho un buen trabajo. Eche un vistazo aquí para obtener más información sobre este http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175

— Tom Reilly
fuente

0

La normalidad de los residuos es una suposición de ejecutar un modelo lineal. Entonces, si sus residuos son normales, significa que su suposición es válida y la inferencia del modelo (intervalos de confianza, predicciones del modelo) también debería ser válida. ¡Es así de simple!

— wcampbell
fuente

El supuesto de normalidad se trata de un error no observable (de ahí la necesidad de un supuesto), no de residuos observables.

— DL Dahly

2

Sí, pero usa los residuos para probar su suposición sobre el error no observable.

— wcampbell

- \infty to \infty

$-\infty \text { to } \infty$