La regresión lineal simple que tiene errores gaussianos es un atributo muy agradable que no se generaliza a los modelos lineales generalizados.
En los modelos lineales generalizados, la respuesta sigue cierta distribución dada la media . La regresión lineal sigue este patrón; si tenemos
yyo= β0 0+ β1Xyo+ ϵyo
con ϵyo∼ N( 0 , σ)
entonces también tenemos
yyo∼ N( β0 0+ β1Xyo, σ)
Bien, entonces la respuesta sigue la distribución dada para los modelos lineales generalizados, pero para la regresión lineal también tenemos que los residuales siguen una distribución gaussiana. ¿Por qué se enfatiza que los residuos son normales cuando esa no es la regla generalizada? Bueno, porque es la regla mucho más útil. Lo bueno de pensar en la normalidad de los residuos es que es mucho más fácil de examinar. Si restamos las medias estimadas, todos los residuos deberían tener aproximadamente la misma varianza y aproximadamente la misma media (0) y se distribuirán aproximadamente de manera normal (nota: digo "aproximadamente" porque si no tenemos estimaciones perfectas de la parámetros de regresión, que por supuesto no lo hacemos, la varianza de las estimaciones de ϵyotendrá diferentes variaciones basadas en los rangos de . ¡Pero espero que haya suficiente precisión en las estimaciones de que esto es ignorable!).X
Por otro lado, mirando el no ajustado 's, que no se puede decir si son normales si todos ellos tienen diferentes medios. Por ejemplo, considere el siguiente modelo:yyo
yyo= 0 + 2 × xyo+ ϵyo
con y x i ~ Bernoulli ( p = 0,5 )ϵyo∼ N( 0 , 0.2 )Xyo∼ Bernoulli ( p = 0,5 )
A continuación, el será muy bimodal, pero no viola las suposiciones de regresión lineal! Por otro lado, los residuos seguirán una distribución más o menos normal.yyo
Aquí hay un R
código para ilustrar.
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')