Sobre la utilidad de la correlación intercepto-pendiente en modelos multinivel

En su libro "Análisis multinivel: una introducción al modelado multinivel básico y avanzado" (1999), Snijders y Bosker (cap. 8, sección 8.2, página 119) dijeron que la correlación intercepto-pendiente, calculada como la covarianza intercepto-pendiente dividida por la raíz cuadrada del producto de la intercepción de la varianza y la varianza de la pendiente, no está delimitado entre -1 y +1 y puede ser incluso infinito.

Dado esto, no pensé que debía confiar en ello. Pero tengo un ejemplo para ilustrar. En uno de mis análisis, que tiene la raza (dicotomía), la edad y la edad * raza como efectos fijos, la cohorte como efecto aleatorio y la variable de dicotomía racial como pendiente aleatoria, mi serie de diagrama de dispersión muestra que la pendiente no varía mucho entre los valores de mi variable de grupo (es decir, cohorte), y no veo que la pendiente se vuelva cada vez más inclinada entre cohortes. La Prueba de relación de probabilidad también muestra que el ajuste entre la intercepción aleatoria y los modelos de pendiente aleatoria no es significativo a pesar de mi tamaño de muestra total (N = 22,156). Y, sin embargo, la correlación pendiente-intersección fue cercana a -0,80 (lo que sugeriría una fuerte convergencia en la diferencia de grupo en la variable Y a lo largo del tiempo, es decir, a través de cohortes).

Creo que es una buena ilustración de por qué no confío en la correlación de pendiente de intercepción, además de lo que Snijders y Bosker (1999) ya dijeron.

¿Realmente deberíamos confiar e informar la correlación de pendiente de intercepción en estudios multinivel? Específicamente, ¿cuál es la utilidad de tal correlación?

EDITAR 1: No creo que responda mi pregunta, pero Gung me pidió que proporcionara más información. Vea a continuación, si ayuda.

Los datos son de la Encuesta social general. Para la sintaxis, utilicé Stata 12, por lo que se lee:

xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml cov(un) var

wordsum es un puntaje de prueba de vocabulario (0-10),
bw1 es la variable étnica (negro = 0, blanco = 1),
aged1-aged9 son variables ficticias de edad,
bw1aged1-bw1aged9 son la interacción entre etnia y edad,
cohort21 es mi variable de cohorte (21 categorías, codificadas de 0 a 20).

La salida lee:

    . xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml 
> cov(un) var

Performing EM optimization: 

Performing gradient-based optimization: 

Iteration 0:   log restricted-likelihood = -46809.738  
Iteration 1:   log restricted-likelihood = -46809.673  
Iteration 2:   log restricted-likelihood = -46809.673  

Computing standard errors:

Mixed-effects REML regression                   Number of obs      =     22156
Group variable: cohort21                        Number of groups   =        21

                                                Obs per group: min =       307
                                                               avg =    1055.0
                                                               max =      1728


                                                Wald chi2(17)      =   1563.31
Log restricted-likelihood = -46809.673          Prob > chi2        =    0.0000

------------------------------------------------------------------------------
     wordsum |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         bw1 |   1.295614   .1030182    12.58   0.000     1.093702    1.497526
       aged1 |  -.7546665    .139246    -5.42   0.000    -1.027584   -.4817494
       aged2 |  -.3792977   .1315739    -2.88   0.004    -.6371779   -.1214175
       aged3 |  -.1504477   .1286839    -1.17   0.242    -.4026635     .101768
       aged4 |  -.1160748   .1339034    -0.87   0.386    -.3785207    .1463711
       aged6 |  -.1653243   .1365332    -1.21   0.226    -.4329245     .102276
       aged7 |  -.2355365    .143577    -1.64   0.101    -.5169423    .0458693
       aged8 |  -.2810572   .1575993    -1.78   0.075    -.5899461    .0278318
       aged9 |  -.6922531   .1690787    -4.09   0.000    -1.023641   -.3608649
    bw1aged1 |  -.2634496   .1506558    -1.75   0.080    -.5587297    .0318304
    bw1aged2 |  -.1059969   .1427813    -0.74   0.458    -.3858431    .1738493
    bw1aged3 |  -.1189573   .1410978    -0.84   0.399     -.395504    .1575893
    bw1aged4 |    .058361   .1457749     0.40   0.689    -.2273525    .3440746
    bw1aged6 |   .1909798   .1484818     1.29   0.198    -.1000393    .4819988
    bw1aged7 |   .2117798    .154987     1.37   0.172    -.0919891    .5155486
    bw1aged8 |   .3350124    .167292     2.00   0.045     .0071262    .6628987
    bw1aged9 |   .7307429   .1758304     4.16   0.000     .3861217    1.075364
       _cons |   5.208518   .1060306    49.12   0.000     5.000702    5.416334
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
cohort21: Unstructured       |
                    var(bw1) |   .0049087    .010795      .0000659    .3655149
                  var(_cons) |   .0480407   .0271812      .0158491     .145618
              cov(bw1,_cons) |  -.0119882    .015875     -.0431026    .0191262
-----------------------------+------------------------------------------------
               var(Residual) |   3.988915   .0379483      3.915227     4.06399
------------------------------------------------------------------------------
LR test vs. linear regression:       chi2(3) =    85.83   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.

El diagrama de dispersión que produje se muestra a continuación. Hay nueve diagramas de dispersión, uno para cada categoría de mi variable de edad.

ingrese la descripción de la imagen aquí

EDITAR 2:

. estat recovariance

Random-effects covariance matrix for level cohort21

             |       bw1      _cons 
-------------+----------------------
         bw1 |  .0049087            
       _cons | -.0119882   .0480407

Hay otra cosa que quiero agregar: lo que me molesta es que, con respecto a la covarianza / correlación intercepto-pendiente, Joop J. Hox (2010, p. 90) en su libro "Técnicas y aplicaciones de análisis multinivel, segunda edición" dijo eso :

Es más fácil interpretar esta covarianza si se presenta como una correlación entre la intercepción y los residuos de la pendiente. ... En un modelo sin otros predictores, excepto la variable de tiempo, esta correlación puede interpretarse como una correlación ordinaria, pero en los modelos 5 y 6 es una correlación parcial, condicional a los predictores en el modelo.

Entonces, parece que no todos estarían de acuerdo con Snijders & Bosker (1999, p. 119) quienes creen que "la idea de una correlación no tiene sentido aquí" porque no está limitada entre [-1, 1].

mixed-model stata multilevel-analysis

— Meng Hu
fuente

¿Puedes publicar las parcelas? ¿Puede agregar más información sobre sus datos y su modelo? ¿Puede publicar el resultado del análisis y el código que se utilizó para generarlo?

— gung - Restablece a Monica

Gracias por tu comentario gung. No creo que responda a mi pregunta sobre la utilidad de la "correlación" de pendiente de intercepción, pero he editado mi Q y he agregado la información que ha solicitado. Espero que ayude de todos modos.

— Meng Hu

Gracias Meng Hu. No sé si ayudará a las personas o no, pero podría, y no dolerá.

— gung - Restablece a Monica

Al no tener el libro, me pregunto si dijeron eso sobre la covarianza de la pendiente y la intersección, no sobre la correlación. Con N = 22k, no puede publicar los BLUP, pero ¿puede publicar su matriz de varianza-covarianza? Supongo que estás usando Stata, que no sé, pero debería ser posible.

— gung - Restablece a Monica

La varianza-covarianza de los efectos aleatorios debería haberse mostrado en la salida que agregué antes. Pero volví a editar la pregunta. Dicho esto, no recuerdo que Snijders y Bosker (1999) hayan dicho algo en particular acerca de la covarianza intercepto-pendiente. Dicen que siempre debemos incluirlo en un modelo de pendiente aleatorio. También explican lo que significa tener un coeficiente negativo / positivo para dicha covarianza. Pero eso es todo, creo. Por cierto, también he agregado el pasaje de Hox (2010), quien cree que la correlación interceptación-pendiente puede interpretarse como una correlación ordinaria.

— Meng Hu

Respuestas:

He enviado varios estudiosos por correo electrónico (casi 30 personas) hace varias semanas. Pocos de ellos enviaron su correo (siempre correos electrónicos colectivos). Eugene Demidenko fue el primero en responder:

cov / sqrt (var1 * var2) siempre está dentro de [-1,1] independientemente de la interpretación: pueden ser estimaciones de intercepción y pendiente, dos pendientes, etc. El hecho de que -1 <= cov / sqrt (var1 * var2 ) <= 1 se sigue de la desigualdad de Cauchy y siempre es cierto. Por lo tanto, descarto la declaración de Snijders & Bosker. ¿Quizás falta alguna otra información?

Esto fue seguido por un correo electrónico de Thomas Snijders:

La información que falta es lo que realmente se escribió sobre esto en las páginas 122, 123, 124, 129 de Snijders & Bosker (2a edición, 2012). No se trata de dos afirmaciones en competencia de las cuales no más de una puede ser cierta, se trata de dos interpretaciones diferentes.

En P. 123 se introduce una función de varianza cuadrática, \ sigma_0 ^ 2 + 2 \ sigma_ {01} * x + \ sigma_1 ^ 2 * x ^ 2 y se hace la siguiente observación: "Esta fórmula se puede usar sin la interpretación de que \ sigma_0 ^ 2 y \ sigma_1 ^ 2 son varianzas y \ sigma_ {01} una covarianza; estos parámetros pueden ser cualquier número. La fórmula solo implica que la varianza residual es una función cuadrática de x.

Permítanme citar un párrafo completo de p. 129, sobre una función de varianza cuadrática en el nivel dos; tenga en cuenta que ONE PODRÍA INTERPRETAR que \ tau_0 ^ 2 y \ tau_1 ^ 2 son las variaciones de nivel dos de la intersección aleatoria y la pendiente aleatoria, y \ tau_ {01} es su covarianza, pero esto se pone explícitamente detrás del horizonte:

"Los parámetros \ tau_0 ^ 2, \ tau_1 ^ 2 y \ tau_ {01}, como en la sección anterior, no deben interpretarse como varianzas y una covarianza correspondiente. La interpretación se realiza mediante la función de varianza (8.7 ) [nota ts: en el libro esto se informa erróneamente como 8.8]. Por lo tanto, no se requiere que \ tau_ {01} ^ 2 <= \ tau_0 ^ 2 * \ tau_1 ^ 2. Para decirlo de otra manera, 'correlaciones' definido formalmente por \ tau_ {01} / (\ tau_0 * \ tau_1) puede ser mayor que 1 o menor que -1, incluso infinito, porque la idea de una correlación no tiene sentido aquí. función de varianza lineal para la cual \ tau_1 ^ 2 = 0 y solo se usan los parámetros \ tau_0 ^ 2 y \ tau_ {01} ".

La función de varianza es una función cuadrática de x (la variable "con pendiente aleatoria"), y la varianza del resultado es esta más la varianza de nivel 1. Mientras esto sea positivo para todas las x, la varianza modelada es positiva. (Un requisito adicional es que la matriz de covarianza correspondiente sea positiva definida).

Algunos antecedentes adicionales de esto es la existencia de diferencias en los algoritmos de estimación de parámetros en el software. En algunos softwares multinivel (efectos aleatorios), se exige que las matrices de covarianza de los efectos aleatorios sean semi-definidas positivas en todos los niveles. En otro software, solo se exige que la matriz de covarianza estimada resultante para los datos observados sea semi-definida positiva. Esto implica que se abandona la idea de coeficientes aleatorios de variables latentes, y el modelo especifica una cierta estructura de covarianza para los datos observados; ni mas ni menos; en ese caso, la interpretación citada de Joop Hox no se aplica. Tenga en cuenta que Harvey Goldstein ya hace mucho tiempo utilizaba funciones de varianza lineal en el nivel uno, representadas por una varianza de pendiente cero y una correlación de pendiente-intersección no nula en el nivel uno; esto fue y se llama "variación compleja"; ver, por ejemplo, http://www.bristol.ac.uk/media-library/sites/cmm/migrated/documents/modelling-complex-variation.pdf

Y entonces, Joop Hox respondió:

En el software MLwiN en realidad es posible estimar un término de covarianza y al mismo tiempo restringir una de las variaciones a cero, lo que haría que la "correlación" sea infinita. Y sí, algunos programas permitirán estimaciones tales como variaciones negativas (el software SEM generalmente lo permite). Entonces mis declaraciones no fueron completamente precisas. Me referí a estructuras aleatorias no estructuradas "normales". Permítanme agregar que si cambia la escala de la variable con la pendiente aleatoria para tener un punto cero diferente, las varianzas y covarianzas generalmente cambian. Por lo tanto, la correlación solo es interpretable si la variable predictora tiene un punto cero fijo, es decir, se mide en una escala de razón. Esto se aplica a los modelos de curva de crecimiento, donde a veces se interpreta la correlación entre el estado inicial y la tasa de crecimiento. En ese caso, el valor cero debería ser el '

Y envió otro correo:

De todos modos, creo que la explicación de Tom a continuación se ajusta mejor al estilo de la colaboración Snijders / Bosker que a mi estilo más informal. Agregaría a la página 90 una nota al pie de página que dice algo como "Tenga en cuenta que los valores de los parámetros en la parte aleatoria son estimaciones. Interpretar las covarianzas estandarizadas como correlaciones ordinarias supone que no hay restricciones en las variaciones y que el software no permite estimaciones negativas. Si la parte aleatoria no está estructurada, la interpretación como (co) variaciones ordinarias es generalmente sostenible ".

Tenga en cuenta que escribí sobre la interpretación de la correlación en el capítulo longitudinal. En el modelado de curvas de crecimiento es muy tentador interpretar esta correlación como un resultado sustantivo, y eso es peligroso porque el valor depende de la "métrica del tiempo". Si está interesado en eso, le recomiendo que visite el sitio web de Lesa Hoffman ( http://www.lesahoffman.com/ ).

Así que creo que en mi situación, donde especifiqué una covarianza no estructurada para los efectos aleatorios, debería interpretar la correlación pendiente de intercepción como una correlación ordinaria.

— Meng Hu
fuente

FYI, si se debe referir a alguien como scholaro researcherse puede establecer mirando sus CV. Si enumeran primero los libros (y no tienen documentos en revistas revisadas por pares ... como es el caso de las humanidades), definitivamente lo son scholars. Si enumeran documentos y / o subvenciones primero, lo son researchers.

— StasK

@StasK, ¿por qué dice que las revistas de humanidades no son revisadas por pares? Pensé que lo son. Ejemplos: Filología clásica , Europa medieval temprana : estas fueron las primeras que encontré buscando palabras clave aleatorias en Google Scholar Metrics. Revisé varios más, y todos parecen revisados por pares.

— ameba

Solo dije que la gente escribe libros en lugar de documentos para revistas revisadas por pares. No tengo dudas de que existen revistas especializadas en humanidades.

— StasK

Solo puedo aplaudir su esfuerzo para verificar con la gente en el campo. Me gustaría hacer un pequeño comentario sobre la utilidad de la correlación entre la intersección y la pendiente. Skrondal y Rabe-Hesketh (2004) proporcionan un ejemplo simple y tonto de cómo se puede manipular esa correlación mediante el desplazamiento / centrado de la variable que ingresa al modelo con una pendiente aleatoria. Ver p. 54 - busque "Figura 3.1" en la vista previa de Amazon. Vale al menos un par de docenas de palabras.

— StasK
fuente