Estoy ejecutando una regresión basada en GAM usando el paquete R gamlss y suponiendo una distribución beta de los datos inflada a cero. Tengo sólo una única variable explicativa en mi modelo, por lo que es básicamente: mymodel = gamlss(response ~ input, family=BEZI)
.
El algoritmo me da el coeficiente para el impacto de la variable explicativa en la media ( ) y el valor p asociado para , algo así como:
Mu link function: logit
Mu Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.58051 0.03766 -68.521 0.000e+00
input -0.09134 0.01683 -5.428 6.118e-08
Como puede ver en el ejemplo anterior, la hipótesis de se rechaza con gran confianza.
Luego ejecuto el modelo nulo: null = gamlss(response ~ 1, family=BEZI)
y comparo las probabilidades usando una prueba de razón de probabilidad:
p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).
En varios casos, obtengo incluso cuando se informa que los coeficientes en la entrada son altamente significativos (como arriba). Encuentro esto bastante inusual, al menos nunca sucedió en mi experiencia con regresión lineal o logística (de hecho, esto tampoco sucedió cuando estaba usando gamma con ajuste cero con gamlss).
Mi pregunta es: ¿puedo seguir confiando en la dependencia entre respuesta e información cuando este es el caso?