¿Por qué agregar un efecto de retraso aumenta la desviación media en un modelo jerárquico bayesiano?

Antecedentes: actualmente estoy haciendo algún trabajo comparando varios modelos jerárquicos bayesianos. Los datos son medidas numéricas de bienestar para el participante y el tiempo . Tengo alrededor de 1000 participantes y de 5 a 10 observaciones por participante. $y_{ij}$ $i$ $j$

Al igual que con la mayoría de los conjuntos de datos longitudinales, espero ver alguna forma de autocorrelación mediante la cual las observaciones que están más cercanas en el tiempo tienen una mayor correlación que las que están más separadas. Simplificando algunas cosas, el modelo básico es el siguiente:

y_{yo j} \sim norte (μ_{yo j}, σ^{2})

$y_{ij} \sim N(\mu_{ij}, \sigma^2)$

donde estoy comparando un modelo sin retraso:

μ_{yo j} = β_{0 0 yo}

$\mu_{ij} = \beta_{0i}$

con un modelo de retraso:

μ_{yo j} = β_{0 0 yo} + β_{1} (y_{yo (j - 1)} - β_{0 0 yo})

$\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i})$

donde es una media a nivel de persona y es el parámetro de retraso (es decir, el efecto de retraso agrega un múltiplo de la desviación de la observación desde el punto de tiempo anterior desde el valor predicho de ese punto de tiempo). También tuve que hacer algunas cosas para estimar (es decir, observación antes de la primera observación). $\beta_{0i}$ $\beta_1$ $y_{i0}$

Los resultados que obtengo indican que:

El parámetro de retraso es alrededor de .18, IC 95% [.14, .21]. Es decir, no es cero
La desviación media y la DIC aumentan en varios cientos cuando el retraso se incluye en el modelo
Las comprobaciones predictivas posteriores muestran que al incluir el efecto de retraso, el modelo puede recuperar mejor la autocorrelación en los datos

En resumen, el parámetro de retraso distinto de cero y las comprobaciones predictivas posteriores sugieren que el modelo de retraso es mejor; Sin embargo, la desviación media y la DIC sugieren que el modelo sin retraso es mejor. Esto me desconcierta.

Mi experiencia general es que si agrega un parámetro útil, al menos debería reducir la desviación media (incluso si después de una penalización de complejidad el DIC no mejora). Además, un valor de cero para el parámetro de retraso alcanzaría la misma desviación que el modelo sin retraso.

Pregunta

¿Por qué agregar un efecto de retraso podría aumentar la desviación media en un modelo jerárquico bayesiano incluso cuando el parámetro de retraso no es cero y mejora las comprobaciones predictivas posteriores?

Pensamientos iniciales

He realizado muchas comprobaciones de convergencia (p. Ej., Mirando traceplots; examinando la variación en los resultados de desviación entre cadenas y entre corridas) y ambos modelos parecen haber convergido en la parte posterior.
Hice una verificación de código donde forcé el efecto de retraso a cero, y esto recuperó las desviaciones del modelo sin retraso.
También miré la desviación media menos la penalización que debería producir desviación en los valores esperados, y esto también hizo que el modelo de retraso pareciera peor.
$\beta_{0i}$
Quizás haya algún problema con la forma en que he estimado el punto temporal implícito antes de la primera observación.
Quizás el efecto de retraso sea débil en estos datos.
Intenté estimar el modelo usando una probabilidad máxima usando lmecon correlation=corAR1(). La estimación del parámetro de retraso fue muy similar. En este caso, el modelo de retraso tenía una probabilidad de registro más grande y un AIC más pequeño (en aproximadamente 100) que uno sin retraso (es decir, sugirió que el modelo de retraso era mejor). Entonces esto reforzó la idea de que agregar el retraso también debería reducir la desviación en el modelo bayesiano.
Quizás haya algo especial en los residuos bayesianos. Si el modelo de retraso usa la diferencia entre y predicho y real en el punto de tiempo anterior, entonces esta cantidad será incierta. Por lo tanto, el efecto de retraso operará durante un intervalo creíble de tales valores residuales.

— Jeromy Anglim
fuente

Usted dice que el parámetro de retraso es alrededor de .18. ¿Aprendiste el parámetro de retraso? Si es así, ¿qué anterior usaste?

— Cumbre

N (β_{0 i}, σ^{2})

$N(\beta_{0i}, \sigma^2)$

Aquí están mis pensamientos:

En lugar de DIC, BIC, AIC, sugiero trabajar directamente con el probabilidad marginal (también conocida como evidencia ) si puede pagarla. Cuanto mayor sea la evidencia , más probable es su clase de modelo. Puede que no haga una gran diferencia, pero DIC, BIC, AIC son, después de todo, solo aproximaciones.
$0.18$ probabilidad marginal de ambas clases de modelos. La clase de modelo (a) debería tener la mayor probabilidad marginal .
Vayamos un paso más allá: tome el modelo que no considera el efecto de retraso (c) y calcule su probabilidad marginal . A continuación, tome su clase de modelo (d) que incorpora el efecto de retraso y tiene un previo en el parámetro de retraso; Calcule la probabilidad marginal de (d). Es de esperar que (d) tenga una probabilidad marginal mayor . ¿Y qué, si no lo haces ?:

(1) La probabilidad marginal considera la clase modelo como un todo. Esto incluye el efecto de retraso, el número de parámetros, la probabilidad, el previo.

(2) La comparación de modelos que tienen un número diferente de parámetros siempre es delicada, si existe una incertidumbre considerable respecto de los parámetros adicionales.

(3) Si especifica la incertidumbre en el previo de su parámetro de retraso irrazonablemente grande, penaliza a toda la clase de modelo.

(4) ¿Cuál es la información que respalda probabilidades iguales para retrasos negativos y para un retraso positivo? Creo que es muy poco probable observar un retraso negativo, y esto debería incorporarse en el caso anterior.

(5) El previo que eligió en su parámetro de retraso es uniforme. Por lo general, esto nunca es una buena opción: ¿está absolutamente seguro de que sus parámetros realmente deben estar dentro de los límites especificados? ¿Cada valor de retraso dentro de los límites realmente tiene la misma probabilidad? Mi sugerencia: vaya con una distribución beta (si está seguro de que el retraso está limitado; o con el log-normal si puede excluir valores menores que cero .

(6) Este es un ejemplo particular, donde el uso de antecedentes no informativos no es bueno (observando la probabilidad marginal ): siempre favorecerá el modelo que tiene un número menor de parámetros inciertos; no importa qué tan bueno o malo pueda hacer el modelo con más parámetros.

Espero que mis pensamientos te den nuevas ideas, ¿pistas?

— Cumbre
fuente

Gracias por los consejos. Solo para redondear las cosas, intenté restringir el parámetro de retraso para que tenga el valor de la media de la parte posterior (es decir, 0,18). El modelo sin retraso todavía tenía la desviación media más pequeña.

— Jeromy Anglim