Desviación y GLM
Formalmente, uno puede ver la desviación como una especie de distancia entre dos modelos probabilísticos; en el contexto GLM, equivale a dos veces la relación logarítmica de probabilidades entre dos modelos anidados ℓ1/ ℓ0 0 donde ℓ0 0 es el modelo "más pequeño"; es decir, una restricción lineal en los parámetros del modelo (véase el lema de Neyman-Pearson ), como dijo @suncoolsu. Como tal, se puede utilizar para realizar la comparación del modelo . También puede verse como una generalización del RSS utilizado en la estimación de OLS (ANOVA, regresión), ya que proporciona una medida de bondad de ajuste del modelo que se evalúa en comparación con el modelo nulo (solo intercepción). Funciona también con LM:
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
R2= 1 - RSS / TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ahora, mira la desviación:
> deviance(lm.res)
[1] 98.66754
De hecho, para los modelos lineales, la desviación es igual al RSS (puede recordar que las estimaciones de OLS y ML coinciden en tal caso).
Desviación y CARRITO
nipiknikpikD
Di=−2∑kniklog(pik),
D+α#(T)#(T)TD1−∑kp2ik
j
Di=∑j(yj−μi)2,
N(μi,σ2)DDirpart
residuals()
función para rpart
objeto, donde los "residuos de desviación" se calculan como la raíz cuadrada de menos dos veces el logaritmo del modelo ajustado.
Una introducción a la partición recursiva utilizando las rutinas rpart, de Atkinson y Therneau, también es un buen comienzo. Para una revisión más general (incluido el embolsado), recomendaría