Es un lenguaje confuso. Los valores informados se denominan valores z. Pero en este caso utilizan el error estándar estimado en lugar de la verdadera desviación. Por lo tanto, en realidad están más cerca de los valores t . Compare los siguientes tres resultados:
1) summary.glm
2) prueba t
3) prueba z
> set.seed(1)
> x = rbinom(100, 1, .7)
> coef1 <- summary(glm(x ~ 1, offset=rep(qlogis(0.7),length(x)), family = "binomial"))$coefficients
> coef2 <- summary(glm(x ~ 1, family = "binomial"))$coefficients
> coef1[4] # output from summary.glm
[1] 0.6626359
> 2*pt(-abs((qlogis(0.7)-coef2[1])/coef2[2]),99,ncp=0) # manual t-test
[1] 0.6635858
> 2*pnorm(-abs((qlogis(0.7)-coef2[1])/coef2[2]),0,1) # manual z-test
[1] 0.6626359
No son valores p exactos. Un cálculo exacto del valor p utilizando la distribución binomial funcionaría mejor (con la potencia de cálculo hoy en día, esto no es un problema). La distribución t, suponiendo una distribución gaussiana del error, no es exacta (sobreestima p, exceder el nivel alfa ocurre con menos frecuencia en la "realidad"). Vea la siguiente comparación:
# trying all 100 possible outcomes if the true value is p=0.7
px <- dbinom(0:100,100,0.7)
p_model = rep(0,101)
for (i in 0:100) {
xi = c(rep(1,i),rep(0,100-i))
model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
p_model[i+1] = 1-summary(model)$coefficients[4]
}
# plotting cumulative distribution of outcomes
outcomes <- p_model[order(p_model)]
cdf <- cumsum(px[order(p_model)])
plot(1-outcomes,1-cdf,
ylab="cumulative probability",
xlab= "calculated glm p-value",
xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
lines(c(0.00001,1),c(0.00001,1))
for (i in 1:100) {
lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
# lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
}
title("probability for rejection as function of set alpha level")
La curva negra representa la igualdad. La curva roja está debajo de ella. Eso significa que para un valor p calculado dado por la función de resumen glm, encontramos esta situación (o una diferencia mayor) en la realidad con menos frecuencia de lo que indica el valor p.
glm
defecto) es el logit, para evitar confusiones es importante distinguir