Antecedentes: Nota: Mi conjunto de datos y mi código r se incluyen debajo del texto

Deseo usar AIC para comparar dos modelos de efectos mixtos generados usando el paquete lme4 en R. Cada modelo tiene un efecto fijo y un efecto aleatorio. El efecto fijo difiere entre modelos, pero el efecto aleatorio sigue siendo el mismo entre modelos. Descubrí que si uso REML = T, model2 tiene la puntuación AIC más baja, pero si uso REML = F, model1 tiene la puntuación AIC más baja.

Soporte para usar ML:

Zuur y col. (2009; PÁGINA 122) sugieren que "Para comparar modelos con efectos fijos anidados (pero con la misma estructura aleatoria), se debe usar la estimación ML y no REML". Esto me indica que debería usar ML ya que mis efectos aleatorios son los mismos en ambos modelos, pero mis efectos fijos difieren. [Zuur y col. 2009. Modelos y extensiones de efectos mixtos en ecología con R. Springer.]

Soporte para usar REML:

Sin embargo, noto que cuando uso ML, la varianza residual asociada con los efectos aleatorios difiere entre los dos modelos (modelo1 = 136.3; modelo2 = 112.9), pero cuando uso REML, es lo mismo entre modelos (modelo1 = modelo2 = 151,5). Esto implica para mí que debería usar REML para que la varianza residual aleatoria permanezca igual entre los modelos con la misma variable aleatoria.

Pregunta:

¿No tiene más sentido usar REML que ML para comparar modelos donde los efectos fijos cambian y los efectos aleatorios siguen siendo los mismos? Si no, ¿puede explicar por qué o señalarme otra literatura que explique más?

# Model2 "wins" if REML=T:
REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T)
REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T)
AIC(REMLmodel1,REMLmodel2)
summary(REMLmodel1)
summary(REMLmodel2)

# Model1 "wins" if REML=F:
MLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = F)
MLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = F)
AIC(MLmodel1,MLmodel2)
summary(MLmodel1)
summary(MLmodel2)

Conjunto de datos:

Response    Fixed1  Fixed2  Random1
5.20    A   A   1
32.50   A   A   1
6.57    A   A   2
24.77   A   B   3
41.69   A   B   3
34.29   A   B   4
1.80    A   B   4
10.00   A   B   5
15.56   A   B   5
4.44    A   C   6
21.65   A   C   6
9.20    A   C   7
4.11    A   C   7
12.52   B   D   8
0.25    B   D   8
27.34   B   D   9
11.54   B   E   10
0.86    B   E   10
0.68    B   E   11
4.00    B   E   11

— Figuras
fuente

Faraway (2006) Extendiendo el modelo lineal con R (p. 156): "La razón es que REML estima los efectos aleatorios al considerar combinaciones lineales de los datos que eliminan los efectos fijos. Si estos efectos fijos se modifican, las probabilidades de dos modelos no serán directamente comparables ".

— jvh_ch

Aunque el AIC se basa en la probabilidad, que yo sepa, fue desarrollado con el propósito de predicción. ¿Cómo se aplicaría exactamente un modelo mixto para la predicción?

— AdamO

@ Adam, ¿podrías ser más preciso? Se puede usar un modelo mixto ajustado para la predicción, ya sea a nivel de la población (predecir las respuestas para una unidad no especificada / desconocida estableciendo modos condicionales / BLUP a cero) o a nivel individual (predicción de condición en las estimaciones de los modos condicionales / BLUP ) Si puede ser más específico, eso podría ser una buena nueva pregunta de CV.

— Ben Bolker

No estaba claro para mí cómo pretendías aplicar este modelo. Nada en el problema sugería qué tipo de predicción, si es que se estaba haciendo, o si era necesaria y con qué propósito.

— AdamO

Zuur et al. Y Faraway (del comentario de @ janhove arriba) tienen razón; El uso de métodos basados en la probabilidad (incluido AIC) para comparar dos modelos con diferentes efectos fijos que son ajustados por REML generalmente dará lugar a tonterías.

— Ben Bolker
fuente

Gracias @janhove, AdamO y Ben Bolker. También encontré que este enlace de Aaron es útil para responder esta pregunta. Dice: "La probabilidad de REML depende de qué efectos fijos se encuentren en el modelo y, por lo tanto, no son comparables si los efectos fijos cambian. Sin embargo, generalmente se considera que REML proporciona mejores estimaciones para los efectos aleatorios, por lo que el consejo habitual es ajustar su mejor modelo usando REML para su inferencia final e informes ".

— Figura

$X$ $\tilde{X}$ $\mathbb{R}^n$ $\tilde{X}$ $X$ $B$

$\tilde{X} = XB$

$B$ $X$ $B$

$V$

$|V|^{-1/2}|\tilde{X}'V^{-1}\tilde{X}|^{-1/2}\exp((y-\tilde{X}\tilde{\beta})'V^{-1}(y-\tilde{X}\tilde{\beta})/2)$

$\beta = (\tilde{X}V^{-1}\tilde{X})^{-1}y$ $X = \tilde{X}B$

$|B||V|^{-1/2}||X'V^{-1}X|^{-1/2}|\exp((y-X\bar{\beta})'V^{-1}(y-X\bar{\beta})/2)$

$\bar{\beta} = (XV^{-1}X)^{-1}y$ $|B|$

$|B| \neq 1$

Este es un ejemplo de por qué REML no debe usarse al comparar modelos con diferentes efectos fijos. Sin embargo, REML a menudo estima mejor los parámetros de efectos aleatorios y, por lo tanto, a veces se recomienda usar ML para las comparaciones y REML para estimar un modelo único (quizás final).

— swmo
fuente

¿REML o ML para comparar dos modelos de efectos mixtos con diferentes efectos fijos, pero con el mismo efecto aleatorio?

Conjunto de datos: