Me gustaría hacer una prueba W de Shapiro Wilk y una prueba de Kolmogorov-Smirnov en los residuos de un modelo lineal para verificar la normalidad. Me preguntaba qué residuos deberían usarse para esto: los residuos en bruto, los residuos de Pearson, los residuos estudiados o los residuos estandarizados. Para una prueba de W de Shapiro-Wilk, parece que los resultados para los residuos en bruto y de Pearson son idénticos pero no para los demás.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
La misma pregunta para KS, y también si los residuos deben ser probados contra una distribución normal (pnorm) como en
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
o una distribución t-student con nk-2 grados de libertad, como en
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
¿Algún consejo quizás? Además, ¿cuáles son los valores recomendados para las estadísticas de prueba W (> 0.9?) Y D para que la distribución esté lo suficientemente cerca de la normalidad y no afecte demasiado su inferencia?
Finalmente, ¿este enfoque tiene en cuenta la incertidumbre en los coeficientes lm ajustados, o funcionaría mejor en el cumres()
paquete gof()
a este respecto?
saludos, Tom