Orden variable y variabilidad contada en el modelado lineal de efectos mixtos

Suponga que, en un estudio de 15 sujetos, la variable de respuesta (res) se modela con dos variables explicativas, una (nivel) es categórica con 5 niveles y la otra (tiempo de respuesta: RT) es continua. Con lmer en el paquete lme4 de R, tengo:

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

Si cambio el orden de las dos variables, obtengo resultados ligeramente diferentes para los efectos principales:

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

¿Esa diferencia proviene del enfoque secuencial (en lugar de marginal) en lme4 en la contabilización de la variabilidad de los datos? En este caso, el cambio de orden variable no conduce a una gran diferencia, pero anteriormente he visto diferencias dramáticas. ¿Qué significa una gran diferencia? ¿Significa que el modelo necesita más ajustes hasta que desaparezca la gran diferencia?

Mi segunda pregunta es que, si quiero saber qué variable entre las dos (RT y nivel) representa más variabilidad de datos, ¿cuál sería un enfoque razonable? ¿Basado en la magnitud relativa de Sum Sq (o Mean Sq) de las dos variables? ¿Algún método de prueba estadística para comparar la variabilidad entre variables explicativas?

mixed-model lme4-nlme

— Bluepole
fuente

Si no puede publicar datos, ¿puede al menos presentar el resultado del modelo en lugar de solo el ANOVA?

— John

Intentaré responder a sus preguntas una por una:

¿Esa diferencia proviene del enfoque secuencial (en lugar de marginal) en lme4 en la contabilización de la variabilidad de los datos?

Correcto. Como puede ver, solo para la interacción los resultados son los mismos. La interacción se ingresa en último lugar en el modelo en ambos casos, por lo que los resultados para ese término son los mismos. Sin embargo, si ingresa "nivel" primero y luego "RT", los resultados de "RT" le indican si "RT" es significativo después de que "nivel" ya esté en el modelo (y viceversa). Estos resultados dependen del orden.

¿Qué significa una gran diferencia?

Suponga que ambas variables en sí mismas están fuertemente relacionadas con la variable de respuesta, pero también están fuertemente correlacionadas. En ese caso, puede que no haya mucha variabilidad en la variable de respuesta que la variable que se ingresa en el modelo deja en segundo lugar. Por lo tanto, tenderá a ver diferencias más dramáticas cuando las variables explicativas estén correlacionadas.

¿Significa que el modelo necesita más ajustes hasta que desaparezca la gran diferencia?

No estoy seguro de lo que quieres decir con "sintonización". El fenómeno que está observando no es un problema per se, aunque complica la interpretación de los resultados (ver más abajo).

Tal vez una forma de "ajuste" es esta. Si las variables explicativas están altamente correlacionadas, entonces esencialmente pueden estar midiendo lo mismo. En ese caso, uno puede "ajustar" el modelo eliminando una de las variables o combinándolas en una sola variable.

Mi segunda pregunta es que, si quiero saber qué variable entre las dos (RT y nivel) representa más variabilidad de datos, ¿cuál sería un enfoque razonable? ¿Basado en la magnitud relativa de Sum Sq (o Mean Sq) de las dos variables? ¿Algún método de prueba estadística para comparar la variabilidad entre variables explicativas?

Cuando las variables explicativas están correlacionadas, es bastante difícil determinar su importancia relativa. Este problema surge con bastante frecuencia en el contexto de regresión múltiple y se han escrito docenas de artículos sobre este tema y se han sugerido muchos métodos para lograr este objetivo. Ciertamente no hay consenso sobre la forma más adecuada y algunas personas incluso pueden sugerir que no hay una forma adecuada de hacerlo.

Las sumas de cuadrados no te ayudarán, porque no se basan en el mismo número de grados de libertad. Los cuadrados medios esencialmente son correctos para eso, pero si usa los cuadrados medios, entonces esto no es más que usar los valores F correspondientes (o valores p) para determinar la importancia relativa. Creo que la mayoría de la gente no consideraría eso una forma apropiada de determinar la importancia relativa.

Lamentablemente, no tengo una solución fácil. En cambio, puedo sugerirle un sitio web, del autor del relaimpopaquete. No creo que el paquete lo ayude a ajustar modelos de efectos mixtos, pero hay muchas referencias a documentos sobre el problema que está tratando.

http://prof.beuth-hochschule.de/groemping/relaimpo/

También puede consultar el AICcmodavgpaquete:

http://cran.r-project.org/web/packages/AICcmodavg/index.html

— Wolfgang
fuente

Realmente aprecio las aclaraciones y ayuda! Con respecto a la importancia relativa de cada variable en un modelo de efectos mixtos, ¿es razonable considerar la diferencia AIC / BIC proporcionada por lme ()? Por ejemplo, con mis datos, defina tres modelos: res ~ RT, res ~ level, res ~ RT * level. Luego use anova () para evaluar la importancia relativa en función de su AIC / BIC?

— bluepole

Los valores AIC / BIC a menudo se usan para la selección del modelo. Si ese sería su objetivo, entonces sí, este es un enfoque. Si su objetivo es determinar la importancia relativa de las variables, entonces podría usar los pesos de Akaike. Una presentación muy bonita y clara sobre esa idea se puede encontrar aquí: bit.ly/pDQ7eq

— Wolfgang

Muchas gracias por toda la ayuda. Realmente lo aprecio ...

— bluepole