¿Alguien puede decirme cómo interpretar los gráficos de 'residuales vs ajustados', 'q-q normal', 'ubicación de escala' y 'residuales vs apalancamiento'? Estoy ajustando un GLM binomial, guardándolo y luego trazándolo.
¿Alguien puede decirme cómo interpretar los gráficos de 'residuales vs ajustados', 'q-q normal', 'ubicación de escala' y 'residuales vs apalancamiento'? Estoy ajustando un GLM binomial, guardándolo y luego trazándolo.
Respuestas:
R
No tiene un plot.glm()
método distinto . Cuando ajusta un modelo con glm()
y lo ejecuta plot()
, llama a ? Plot.lm , que es apropiado para modelos lineales (es decir, con un término de error normalmente distribuido).
En general, el significado de estas parcelas (al menos para modelos lineales) se puede aprender en varios hilos existentes en CV (por ejemplo: Residuales versus ajustados ; parcelas qq en varios lugares: 1 , 2 , 3 ; Ubicación de escala ; Residuos vs apalancamiento ). Sin embargo, esas interpretaciones generalmente no son válidas cuando el modelo en cuestión es una regresión logística.
Más específicamente, las tramas a menudo se 'verán graciosas' y llevarán a la gente a creer que hay algo mal con el modelo cuando está perfectamente bien. Podemos ver esto mirando esas parcelas con un par de simulaciones simples donde sabemos que el modelo es correcto:
# we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }
set.seed(10) # this makes the simulation exactly reproducible
x = runif(20, min=0, max=10) # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x # this is the true data generating process
p = lo2p(lo) # here I convert the log odds to probabilities
y = rbinom(20, size=1, prob=p) # this generates the Y data
mod = glm(y~x, family=binomial) # here I fit the model
summary(mod) # the model captures the DGP very well & has no
# ... # obvious problems:
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.76225 -0.85236 -0.05011 0.83786 1.59393
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -2.7370 1.4062 -1.946 0.0516 .
# x 0.6799 0.3261 2.085 0.0371 *
# ...
#
# Null deviance: 27.726 on 19 degrees of freedom
# Residual deviance: 21.236 on 18 degrees of freedom
# AIC: 25.236
#
# Number of Fisher Scoring iterations: 4
Ahora veamos las parcelas que obtenemos de plot.lm()
:
Parece que tanto los gráficos como Residuals vs Fitted
los Scale-Location
gráficos tienen problemas con el modelo, pero sabemos que no hay ninguno. Estas gráficas, destinadas a modelos lineales, a menudo simplemente son engañosas cuando se usan con un modelo de regresión logística.
Veamos otro ejemplo:
set.seed(10)
x2 = rep(c(1:4), each=40) # X is a factor with 4 levels
lo = -3 + .7*x2
p = lo2p(lo)
y = rbinom(160, size=1, prob=p)
mod = glm(y~as.factor(x2), family=binomial)
summary(mod) # again, everything looks good:
# ...
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.0108 -0.8446 -0.3949 -0.2250 2.7162
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -3.664 1.013 -3.618 0.000297 ***
# as.factor(x2)2 1.151 1.177 0.978 0.328125
# as.factor(x2)3 2.816 1.070 2.632 0.008481 **
# as.factor(x2)4 3.258 1.063 3.065 0.002175 **
# ...
#
# Null deviance: 160.13 on 159 degrees of freedom
# Residual deviance: 133.37 on 156 degrees of freedom
# AIC: 141.37
#
# Number of Fisher Scoring iterations: 6
Ahora todas las tramas se ven extrañas.
Entonces, ¿qué te muestran estas tramas?
Residuals vs Fitted
trama puede ayudarlo a ver, por ejemplo, si hay tendencias curvilíneas que se perdió. Pero el ajuste de una regresión logística es curvilíneo por naturaleza, por lo que puede tener tendencias de aspecto extraño en los residuos sin nada malo. Normal Q-Q
gráfico le ayuda a detectar si sus residuos se distribuyen normalmente. Pero los residuos de desviación no tienen que distribuirse normalmente para que el modelo sea válido, por lo que la normalidad / no normalidad de los residuos no necesariamente le dice nada. Scale-Location
trama puede ayudarlo a identificar la heterocedasticidad. Pero los modelos de regresión logística son bastante heterocedásticos por naturaleza. Residuals vs Leverage
puede ayudarlo a identificar posibles valores atípicos. Pero los valores atípicos en la regresión logística no necesariamente se manifiestan de la misma manera que en la regresión lineal, por lo que este gráfico puede o no ser útil para identificarlos. La lección simple para llevar a casa aquí es que estos gráficos pueden ser muy difíciles de usar para ayudarlo a comprender lo que está sucediendo con su modelo de regresión logística. Probablemente sea mejor que las personas no vean estas tramas en absoluto cuando ejecutan una regresión logística, a menos que tengan una experiencia considerable.
Lea más sobre los supuestos de regresión, ya que en muchos aspectos hay similares (por ejemplo , aquí , o tutorial sobre regresión en R aquí ).