R en acción (Kabacoff, 2011) sugiere la siguiente rutina para evaluar la sobredispersión en una regresión logística:
Ajustar regresión logística usando distribución binomial:
model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
family=binomial(), data=iris)
Ajuste de regresión logística usando distribución cuasibinomial:
model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width,
family=quasibinomial(), data=iris)
Use chi-cuadrado para probar la sobredispersión:
pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual,
model_binom$df.residual, lower = F)
# [1] 0.7949171
¿Alguien podría explicar cómo y por qué la distribución de chi-cuadrado se está utilizando para probar la dispersión excesiva aquí? El valor p es 0.79: ¿cómo muestra esto que la sobredispersión no es un problema en el modelo de distribución binomial?