¿Cuándo son teóricamente sólidos los modelos mixtos de correlación cero?

La siguiente cita de bloque, de los líderes en el campo del modelado de efectos mixtos, afirma que los cambios de coordenadas en modelos con correlación cero entre efectos aleatorios (modelos 'ZCP') cambian las predicciones del modelo. Pero, ¿alguien puede elaborar o justificar aún más sus afirmaciones?

Las declaraciones en cuestión son del artículo de Bates et al. 2015 sobre lme4, Ajuste de modelos lineales de efectos mixtos usando lme4 , página 7, segundo párrafo ( enlace de descarga ). $\newcommand{\slope}{\text{slope}} \newcommand{\int}{\text{int}} \newcommand{\intercept}{\text{intercept}}$

Aquí hay una paráfrasis de lo que escribieron:

Aunque los modelos de parámetros de correlación cero se utilizan para reducir la complejidad de los modelos de pendientes aleatorias, tienen un inconveniente. Los modelos en los que se permite que las pendientes e intersecciones tengan una correlación distinta de cero son invariantes a los cambios aditivos de un predictor continuo.

Esta invariancia se rompe cuando la correlación se limita a cero; cualquier cambio en el predictor conducirá necesariamente a un cambio en la correlación estimada y en la probabilidad y las predicciones del modelo. ¹ Por ejemplo, podemos eliminar la correlación en fm1 simplemente cambiando los Días [el predictor que acompaña $\slope$ ] en una cantidad igual a la razón de las desviaciones estándar estimadas entre sujetos multiplicadas por la correlación estimada, es decir , ² ,

$ρ_{slope : intercept} \times \frac{σ_{slope}}{σ_{intercept}}$ $\rho_{\slope:\intercept}\times\frac{\sigma_{\slope}}{\sigma_{\intercept}}$
El uso de tales modelos debería limitarse idealmente a casos en los que el predictor se mide en una escala de razón (es decir, el punto cero en la escala es significativo, no solo una ubicación definida por conveniencia o convención).

Preguntas:

Numerados de acuerdo con los superíndices anteriores ...

Puedo ver que cualquier cambio en el sistema de coordenadas por el cual se mide el predictor conducirá a un cambio en la correlación estimada, lo que conducirá a una correlación no nula. Esto respalda la afirmación de que los modelos de parámetros de correlación cero no son invariables bajo los cambios en los sistemas de coordenadas del predictor y, por lo tanto, cualquier modelo con correlaciones de efectos aleatorios distintos de cero puede transformarse en un modelo con correlaciones cero mediante un cambio adecuado en las coordenadas. Creo que también es compatible con el tercer párrafo en la paráfrasis anterior: los modelos ZCP (y los modelos de intercepción cero, ver más abajo; pero por favor verifíquelo ) solo son válidos para modelos que usan ciertos sistemas de coordenadas especiales. Pero, ¿por qué un cambio de coordenadas debería cambiar las predicciones para tales modelos?

Por ejemplo, un cambio en las coordenadas también cambiará el término de intercepción de efecto fijo para los promedios grupales (ver a continuación), pero solo en una cantidad apropiada para el cambio en el origen del sistema de coordenadas del predictor. Tal cambio no afecta las predicciones del modelo, siempre que el nuevo sistema de coordenadas se utilice para el predictor desplazado.

Para elaborar, si la pendiente de efecto fijo asociada con el predictor desplazado es positiva, y el origen del sistema de coordenadas del predictor se desplaza en la dirección negativa, entonces la intersección de efecto fijo disminuirá, y cualquier intersección de efecto aleatorio asociada también cambiará correspondientemente, reflejando la nueva definición de 'origen' (y por lo tanto interceptar) en el sistema de coordenadas desplazado. Por cierto, creo que este razonamiento también implica que un modelo de intercepción cero tampoco es invariable bajo tales cambios.

Creo que tengo una forma razonable de resolver esto, pero he obtenido una respuesta ligeramente diferente a la de Bates et al. ¿Me estoy equivocando en alguna parte?

Debajo está mi respuesta. A continuación se muestra la descripción de cómo llegué a mi resultado. En resumen, encuentro que si desplazo el origen negativamente por , de modo que en el nuevo sistema de coordenadas el predictor toma valores , entonces la correlación en el nuevo sistema de coordenadas es cero si: $x$ $\delta > 0$ $x' = x + \delta$ $\rho'$

$δ = ρ_{slope : intercept} \times \frac{σ_{intercept}}{σ_{slope}}$ $\delta=\rho_{\slope:\intercept}\times\frac{\sigma_{\intercept}}{\sigma_{\slope}}$
Esto difiere del resultado de Bates et al .

Descripción de mi método (lectura opcional) : Digamos que tenemos la correlación de dos efectos aleatorios, e ( para abreviar), ambos correspondientes al mismo factor de agrupación con niveles (numerados por , que van desde a ). Digamos también que el predictor continuo con el que se empareja la aleatoria se llama , definido de manera tal que el producto genera la contribución condicional al valor ajustado para el nivel $\slope$ $\intercept$ $\int$ $k$ $i$ $1$ $k$ $\slope$ $x$ $x\times\slope_i$ $\hat y_{obs}$ $i$ del factor de agrupación asociado. Aunque en realidad el algoritmo MLE determina el valor de para maximizar la probabilidad , esperaría que la expresión a continuación sea una forma dimensionalmente correcta de determinar los efectos de una traducción uniforme en , el multiplicador del efecto aleatorio para . $\rho$ $x$ $\slope$

ρ_{slope : int} = \frac{E_{i} [({slope}_{i} - \bar{{slope}_{i}}) ({int}_{i} - \bar{{int}_{i}})]}{\sqrt{E_{i} [({slope}_{i} - \bar{{slope}_{i}})^{2}] E_{i} [({int}_{i} - \bar{{int}_{i}})^{2}]}}

$\rho_{\slope:\int} = \frac{E_{i}\big[(\slope_i -\overline {\slope_i})(\int_i -\overline {\int_i})\big]}{\sqrt{E_{i}\big[(\slope_i -\overline {\slope_i})^2\big]E_{i}\big[(\int_i-\overline {\int_i})^2\big]}}$

Para llegar a mi resultado, primero reescribí el valor anterior para la intersección en términos de un nuevo valor para la intersección, (aquí, , el' hacia la izquierda 'cambio en origen para el predictor ). Luego, sustituí la expresión resultante en el numerador de la fórmula anterior por , calculando el valor de que resultó en una covarianza cero en el nuevo sistema de coordenadas. Tenga en cuenta que, como se indicó en la pregunta 1 anterior, el término de intercepción de efecto fijo también cambiará de manera análoga: . (Aquí, $\int' = -\delta \times \slope + \int$ $\delta > 0$ $x$ $\rho$ $\delta$ $\beta_0' =- \delta\times\beta_x + \beta_0$ $\beta_x$ es el predictor de efectos fijos asociado con el predictor desplazado) $x.$

r mixed-model lme4-nlme

— clarpaul
fuente

Algunas ideas aproximadas. cambia si (1) cambia la pendiente fija o (2) cambian las pendientes aleatorias. Para (1): la pendiente fija puede verse como una media ponderada de las pendientes específicas del grupo, donde el peso depende en parte de los componentes de varianza estimados. Omitir la covarianza altera la var. estimaciones, cambiando los pesos, cambiando la pendiente fija. Para (2): las pendientes aleatorias son las pendientes específicas del grupo "encogidas" hacia la pendiente fija en proporción a los mismos pesos. Omitir la covarianza altera la var. estimaciones, cambiando el grado de contracción, cambiando las pendientes aleatorias.

\hat{y}

$\hat{y}$

— Jake Westfall

Estoy un poco decepcionado de que esto no haya recibido más atención, @clarpaul. Podrías poner tu propia respuesta. Si nadie más responde, te daré la recompensa.

— gung - Restablecer Monica

Gracias @gung, mi respuesta estaría muy alineada con mis "Ediciones" de arriba. La recompensa sería buena, pero es posible que no tenga tiempo antes de que expire. Animo a cualquiera a tomar mis "Ediciones" y convertirlas en una respuesta, si están de acuerdo con el razonamiento básico, y están dispuestos a tomarse el tiempo para pulirlas un poco.

— clarpaul

La respuesta a esta pregunta resulta bastante definitoria . Si uno cambiara las coordenadas de las variables independientes de un modelo ZCP y permitiera que se desarrollaran correlaciones sin restricciones , las predicciones no cambiarían, porque los modelos de efectos lineales mixtos con correlaciones sin restricciones son invariantes de traducción (uno puede mostrar esto con un poco de matemática) . Pero, por definición , un modelo ZCP tiene correlaciones restringidas a . En el cambio de coordenadas, no se permitiría desarrollar correlaciones como se requiere en un modelo LME sin restricciones. Por lo tanto, los modelos ZCP no son invariantes traducción, y un cambio de coordenadas serían $0$ Cambiar las predicciones del modelo. Y (si espera que los modelos LME sean invariantes de traducción a cambios de coordenadas sensibles) solo los modelos en los que dichos cambios de coordenadas no tienen sentido son teóricamente sensibles como modelos ZCP (es decir, los 'especiales' mencionados en el tercer párrafo de la paráfrasis de Bates et al. arriba). [Nota: embelleceré esta respuesta en el futuro para incluir fórmulas que he derivado para la correlación que se desarrolla al cambiar de coordenadas un modelo ZCP inicial, y para la prueba de que los modelos LME con correlaciones sin restricciones son invariantes de traducción.]
El resultado de Bates et al es simplemente un error tipográfico. La respuesta, , debe tener las mismas dimensiones que el predictor, ( Días ), que se desplaza. Como wlog, y pueden considerarse que tienen dimensiones de unidad, , que tiene dimensiones (las mismas dimensiones que la ), debe estar en el denominador para para tener las dimensiones correctas. $\delta$ $x$ $\sigma_{intercept}$ $\rho$ $\sigma_{slope}$ $1/x$ $slope$ $\delta$

— clarpaul
fuente