Al responder a esta pregunta, John Christie sugirió que el ajuste de los modelos de regresión logística debería evaluarse evaluando los residuos. Estoy familiarizado con la forma de interpretar los residuos en OLS, están en la misma escala que el DV y muy claramente la diferencia entre y e y predicho por el modelo. Sin embargo, para la regresión logística, en el pasado, por lo general, solo examinaba las estimaciones del ajuste del modelo, por ejemplo, AIC, porque no estaba seguro de lo que significaría un residuo para una regresión logística. Después de mirar un poco los archivos de ayuda de R, veo que en R hay cinco tipos de residuos de glm disponibles c("deviance", "pearson", "working","response", "partial")
. El archivo de ayuda se refiere a:
- Davison, AC y Snell, EJ (1991) Residuos y diagnósticos. En: Teoría estadística y modelización. En honor de Sir David Cox, FRS , eds. Hinkley, DV, Reid, N. y Snell, EJ, Chapman & Hall.
No tengo una copia de eso. ¿Hay alguna forma breve de describir cómo interpretar cada uno de estos tipos? En un contexto logístico, ¿la suma de los residuos cuadrados proporcionará una medida significativa del ajuste del modelo o es mejor con un criterio de información?
binnedplot
función en el brazo del paquete R da una gráfica muy útil de los residuos. Se describe muy bien en las páginas 97-101 de Gelman y Hill 2007 .