Supuesto de normalidad en regresión lineal


11

Como una suposición de regresión lineal, la normalidad de la distribución del error a veces se "extiende" o interpreta erróneamente como la necesidad de normalidad de y o x.

¿Es posible construir un escenario / conjunto de datos donde X e Y no sean normales pero el término de error lo sea y, por lo tanto, las estimaciones de regresión lineal obtenidas sean válidas?


55
Ejemplo trivial: X tiene una distribución de Bernoulli (es decir, toma los valores 0 o 1); Y = X + N (0, 0.1). Ni X ni Y normalmente se distribuyen solos, pero la regresión de Y en X todavía funciona.
Hong Ooi

Supongo que estás pensando en la distribución de los residuos, no en la distribución de las variables.
tashuhka


Respuestas:


16

Ampliando el comentario de Hong Oois con una imagen. Aquí hay una imagen de un conjunto de datos donde ninguno de los marginales está normalmente distribuido pero los residuales aún lo están, por lo que los supuestos de regresión lineal siguen siendo válidos:

ingrese la descripción de la imagen aquí

La imagen fue generada por el siguiente código R:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.