Errores mixtos de modelo mixto frente a agrupación para estudios de sitios múltiples: ¿por qué un modelo mixto es mucho más eficiente?

Tengo un conjunto de datos que consiste en una serie de recuentos de casos mensuales de "palo roto" de varios sitios. Estoy tratando de obtener una estimación resumida única de dos técnicas diferentes:

Técnica 1: Ajuste un "palo roto" con un Poisson GLM con una variable indicadora 0/1, y usando una variable de tiempo y tiempo ^ 2 para controlar las tendencias en el tiempo. La estimación de la variable indicadora 0/1 y el SE se agrupan utilizando una técnica de método de momentos bastante ascendente y descendente, o utilizando el paquete tlnise en R para obtener una estimación "bayesiana". Esto es similar a lo que Peng y Dominici hacen con los datos de contaminación del aire, pero con menos sitios (~ una docena).

Técnica 2: abandone parte del control específico del sitio para las tendencias en el tiempo y utilice un modelo mixto lineal. Particularmente:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Mi pregunta involucra los errores estándar que surgen de estas estimaciones. El error estándar de la Técnica 1, que en realidad usa un conjunto de tiempo semanal en lugar de mensual y, por lo tanto, debería tener más precisión, tiene un error estándar en la estimación de ~ 0.206 para el enfoque del Método de Momentos y ~ 0.306 para el tiempo.

El método lmer da un error estándar de ~ 0.09. Las estimaciones del efecto son razonablemente cercanas, por lo que no parece ser que solo se estén centrando en estimaciones de resumen diferentes, ya que el modelo mixto es mucho más eficiente.

¿Es eso algo razonable de esperar? Si es así, ¿por qué los modelos mixtos son mucho más eficientes? ¿Es este un fenómeno general o un resultado específico de este modelo?

time-series mixed-model

— Fomite
fuente

Esta pregunta es difícil de responder sin saber exactamente qué modelo encaja en su Técnica 1. Menciona 3 posibilidades, pero por lo que puedo decir, nunca se conforme con una. Luego, usted dice "El error estándar de la Técnica 1 [...] es ~ 0.206". Precisamente para qué modelo es este el error estándar? ¿Publicará la sintaxis que utilizó para ajustar este modelo, como lo hizo para la Técnica 2? Aún mejor sería proporcionar un ejemplo reproducible (no necesariamente su conjunto de datos original) en el que nosotros mismos podríamos adaptar ambos modelos.

— Jake Westfall

@JakeWestfall Tienes razón, cuando escribí esto por primera vez, fue una especie de pregunta de conciencia a medida que se desarrolló el problema. Haré algunas modificaciones y veré si puede ser más útil. Desafortunadamente, el código se ha perdido en alguna parte ...

— Fomite

Hecho una pequeña limpieza: el diseño de los modelos utiliza las mismas variables. Desafortunadamente, el código, los datos, etc. están en otra máquina y estoy en una conferencia. La pregunta raíz podría resumirse, creo, en "Estimaciones de sitios múltiples: ¿son los modelos mixtos siempre / a menudo más eficientes que la agrupación?"

— Fomite

Sé que esta es una pregunta antigua, pero es relativamente popular y tiene una respuesta simple, por lo que espero que sea útil para otros en el futuro. Para una visión más profunda, eche un vistazo al curso de Christoph Lippert sobre Modelos lineales mixtos que los examina en el contexto de los estudios de asociación de todo el genoma aquí . En particular, ver la Lección 5 .

La razón por la que el modelo mixto funciona mucho mejor es que está diseñado para tener en cuenta exactamente lo que está tratando de controlar: la estructura de la población. Las "poblaciones" en su estudio son los diferentes sitios que utilizan, por ejemplo, implementaciones ligeramente diferentes pero consistentes del mismo protocolo. Además, si los sujetos de su estudio son personas, las personas agrupadas de diferentes sitios tienen menos probabilidades de estar relacionadas que las personas del mismo sitio, por lo que la relación con la sangre también puede desempeñar un papel.

$\mathcal{N}(Y|X\beta,\sigma^2)$ $K$ $\mathcal{N}(Y|X\beta + Zu,\sigma^2I + \sigma_g^2K)$

Debido a que está tratando de controlar la estructura de la población explícitamente, no es sorprendente que el modelo lineal mixto haya superado a otras técnicas de regresión.

— Michael K
fuente