Estoy un poco confundido sobre cuáles son los supuestos de la regresión lineal.
Hasta ahora verifiqué si:
- Todas las variables explicativas se correlacionaron linealmente con la variable de respuesta. (Este fue el caso)
- hubo alguna colinealidad entre las variables explicativas. (había poca colinealidad).
- las distancias de Cook de los puntos de datos de mi modelo están por debajo de 1 (este es el caso, todas las distancias están por debajo de 0.4, por lo que no hay puntos de influencia).
- Los residuos se distribuyen normalmente. (este puede no ser el caso)
Pero luego leí lo siguiente:
Las violaciones de la normalidad a menudo surgen porque (a) las distribuciones de las variables dependientes y / o independientes son significativamente no normales, y / o (b) se viola el supuesto de linealidad.
Pregunta 1 Esto hace que parezca que las variables independientes y dependientes deben distribuirse normalmente, pero que yo sepa, este no es el caso. Mi variable dependiente, así como una de mis variables independientes, no se distribuyen normalmente. Deberían ser?
Pregunta 2 Mi gráfico QQnormal de los residuos se ve así:
Eso difiere ligeramente de una distribución normal y shapiro.test
también rechaza la hipótesis nula de que los residuos son de una distribución normal:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Los residuos frente a los valores ajustados se ven así:
¿Qué puedo hacer si mis residuos no se distribuyen normalmente? ¿Significa que el modelo lineal es completamente inútil?