¿Por qué la probabilidad máxima restringida produce una mejor estimación (imparcial) de la varianza?

11

Estoy leyendo el documento de teoría de Doug Bates sobre el paquete lme4 de R para comprender mejor la esencia de los modelos mixtos, y encontré un resultado intrigante que me gustaría entender mejor, sobre el uso de la máxima verosimilitud restringida (REML) para estimar la varianza .

En la sección 3.3 sobre el criterio REML, afirma que el uso de REML en la estimación de la varianza está estrechamente relacionado con el uso de una corrección de grados de libertad al estimar la varianza de las desviaciones residuales en un modelo lineal ajustado. En particular, "aunque no suele derivarse de esta manera", los grados de corrección de libertad pueden derivarse estimando la varianza mediante la optimización de un "criterio REML" (ecuación (28)). El criterio REML es esencialmente solo la probabilidad, pero los parámetros de ajuste lineal se han eliminado al marginar (en lugar de establecerlos iguales a la estimación de ajuste, lo que daría una varianza de muestra sesgada).

Hice los cálculos y verifiqué el resultado reclamado para un modelo lineal simple con solo efectos fijos. Con lo que estoy luchando es con la interpretación. ¿Existe alguna perspectiva desde la cual es natural derivar una estimación de varianza al optimizar una probabilidad de que los parámetros de ajuste se hayan marginado? Se siente algo bayesiano, como si estuviera pensando en la probabilidad como posterior y marginando los parámetros de ajuste como si fueran variables aleatorias.

¿O la justificación es principalmente matemática: funciona en el caso lineal pero también es generalizable?

— Pablo
fuente

4

El sesgo en la varianza se deriva del hecho de que la media se ha estimado a partir de los datos y, por lo tanto, la "dispersión de esos datos en torno a esta media estimada" (es decir, la varianza) es menor que la propagación de los datos en torno a la media "verdadera" . Ver también: ¿ Explicación intuitiva para dividir por al calcular la desviación estándar? $n-1$

Los efectos fijos determinan el modelo 'para la media', por lo tanto, si puede encontrar una estimación de varianza que se derivó sin estimar la media de los datos (al 'marginar los efectos fijos (es decir, la media)', entonces esta subestimación de la propagación (es decir, la varianza) se mitigará.

Esta es la comprensión "intuitiva" de por qué las estimaciones REML eliminan el sesgo; encuentra una estimación de la varianza sin utilizar la "media estimada".

— Comunidad
fuente

1

Consulte el APÉNDICE: EL MÉTODO DE ESTIMACIÓN REML desde este recurso relacionado con SAS del autor David Dickey.

" Siempre podemos encontrar (n-1) números Z con media conocida 0 y la misma suma de cuadrados y varianza teórica que los valores n Y. Esto motiva la división de la suma de cuadrados Z por el número de Z, que es n -1 " .

Cuando estaba en la escuela de posgrado, REML fue hecho para ser lo mejor desde el pan rebanado. Al estudiar el paquete lme4 , aprendí que realmente no se generaliza tan bien y tal vez no es tan importante en el gran esquema de las cosas.

— Ben Ogorek
fuente

Tal vez no ... aunque un poco interesante de matemáticas y estadísticas.

— Paul

Estoy de acuerdo Paul. Creo que REML es un gran ejemplo de resolución de problemas elegante y creativa en Estadística. Definitivamente se está acostumbrando en la práctica, y tal vez eso es todo lo que puede esperar en la investigación estadística.

— Ben Ogorek