El artículo de Christopher Manning sobre regresión logística en R muestra una regresión logística en R de la siguiente manera:
ced.logr <- glm(ced.del ~ cat + follows + factor(class),
family=binomial)
Alguna salida:
> summary(ced.logr)
Call:
glm(formula = ced.del ~ cat + follows + factor(class),
family = binomial("logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-3.24384 -1.34325 0.04954 1.01488 6.40094
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.31827 0.12221 -10.787 < 2e-16
catd -0.16931 0.10032 -1.688 0.091459
catm 0.17858 0.08952 1.995 0.046053
catn 0.66672 0.09651 6.908 4.91e-12
catv -0.76754 0.21844 -3.514 0.000442
followsP 0.95255 0.07400 12.872 < 2e-16
followsV 0.53408 0.05660 9.436 < 2e-16
factor(class)2 1.27045 0.10320 12.310 < 2e-16
factor(class)3 1.04805 0.10355 10.122 < 2e-16
factor(class)4 1.37425 0.10155 13.532 < 2e-16
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 958.66 on 51 degrees of freedom
Residual deviance: 198.63 on 42 degrees of freedom
AIC: 446.10
Number of Fisher Scoring iterations: 4
Luego entra en algunos detalles sobre cómo interpretar los coeficientes, comparar diferentes modelos, etc. Bastante útil.
Sin embargo, ¿cuánta varianza representa el modelo? Una página de Stata sobre regresión logística dice:
Técnicamente, no se puede calcular de la misma manera en la regresión logística que en la regresión OLS. El pseudo- , en regresión logística, se define como , donde representa la probabilidad logarítmica para el modelo "solo constante" y es la probabilidad logarítmica para el modelo completo con constante y predictores.R 2 1 - L 1 L0L1
Entiendo esto en el alto nivel. El modelo de solo constante no tendría ninguno de los parámetros (solo el término de intercepción). La probabilidad de registro es una medida de qué tan cerca se ajustan los parámetros a los datos. De hecho, Manning tipo de indicios de que la desviación podría ser . ¿Quizás la desviación nula es constante y la desviación residual es del modelo? Sin embargo, no lo tengo claro.- 2 log L
¿Alguien puede verificar cómo se calcula realmente el pseudo- en R usando este ejemplo?