Varias descripciones sobre la selección del modelo sobre los efectos aleatorios de los modelos lineales mixtos indican el uso de REML. Sé la diferencia entre REML y ML en algún nivel, pero no entiendo por qué REML debe usarse porque ML está sesgado. Por ejemplo, ¿es incorrecto realizar un LRT en un parámetro de varianza de un modelo de distribución normal usando ML (ver el código a continuación)? No entiendo por qué es más importante ser imparcial que ser ML, en la selección del modelo. Creo que la respuesta final debe ser "porque la selección del modelo funciona mejor con REML que con ML", pero me gustaría saber un poco más que eso. No leí las derivaciones de LRT y AIC (no soy lo suficientemente bueno como para entenderlas a fondo), pero si REML se usa explícitamente en las derivaciones, solo saber que será realmente suficiente (por ejemplo,
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value