¿Cuándo debería * no * permitir que un efecto fijo varíe entre los niveles de un efecto aleatorio en un modelo de efectos mixtos?

16

Dada una variable predicha (P), un efecto aleatorio (R) y un efecto fijo (F), uno podría ajustarse a dos * modelos de efectos mixtos ( sintaxis lme4 ):

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

Según tengo entendido, el segundo modelo es el que permite que el efecto fijo varíe entre los niveles del efecto aleatorio.

En mi investigación, típicamente utilizo modelos de efectos mixtos para analizar datos de experimentos realizados en múltiples participantes humanos. Modelo de participante como un efecto aleatorio y manipulaciones experimentales como efectos fijos. Creo que tiene sentido a priori dejar que el grado en que los efectos fijos afecten el rendimiento en el experimento varíe entre los participantes. Sin embargo, tengo problemas para imaginar circunstancias bajo las cuales no debo permitir que los efectos fijos varíen entre niveles de un efecto aleatorio, por lo que mi pregunta es:

¿Cuándo se debe no permitir un efecto fijo para variar a través de los niveles de un efecto aleatorio?

mixed-model

— Mike Lawrence
fuente

Todavía no entiendo completamente la sintaxis lme4, así que tengo curiosidad por ver la respuesta. Pero tengo el presentimiento de que se relaciona con la siguiente diferencia: P es la cantidad de tiempo que un estudiante pasa haciendo la tarea, R es un tratamiento a nivel de clase y F es el estudiante. (También deberíamos tener un efecto aleatorio para la clase misma). Si todos los estudiantes están sujetos a todos los tratamientos R en diferentes momentos, los niveles de F son comparables entre las clases. Si medimos toda una escuela a la vez, tenemos diferentes estudiantes en cada clase, por lo que los niveles de F en diferentes clases no tienen nada que ver entre sí.

— Thomas Levine

11

No soy un experto en modelado de efectos mixtos, pero la pregunta es mucho más fácil de responder si se reformula en un contexto de modelado de regresión jerárquica. Por lo tanto, nuestras observaciones tienen dos índices y con índice representa a la clase y miembros de la clase. Los modelos jerárquicos nos permiten ajustar la regresión lineal, donde los coeficientes varían según las clases: $P_{ij}$ $F_{ij}$ $i$ $j$

Y_{i j} = β_{0 i} + β_{1 i} F_{i j}

$Y_{ij}=\beta_{0i}+\beta_{1i}F_{ij}$

Esta es nuestra regresión de primer nivel. El segundo nivel de regresión se realiza en los primeros coeficientes de regresión:

\begin{aligned} β_{0 i} & = γ_{00} + u_{0 i} \\ β_{1 i} & = γ_{01} + u_{1 i} \end{aligned}

$\begin{align*} \beta_{0i}&=\gamma_{00}+u_{0i}\\ \beta_{1i}&=\gamma_{01}+u_{1i} \end{align*}$

cuando sustituimos esto en la regresión de primer nivel obtenemos

\begin{aligned} Y_{i j} & = (γ_{0} + u_{0 i}) + (γ_{01} + u_{1 i}) F_{i j} \\ = γ_{0} + u_{0 i} + u_{1 i} F_{i j} + γ_{01} F_{i j} \end{aligned}

$\begin{align*} Y_{ij}&=(\gamma_0+u_{0i})+(\gamma_{01}+u_{1i})F_{ij}\\ &=\gamma_0+u_{0i}+u_{1i}F_{ij}+\gamma_{01}F_{ij} \end{align*}$

Aquí son efectos fijos y $\gamma$ son efectos aleatorios. El modelo mixto estima y las variaciones de . $u$ $\gamma$ $u$

El modelo que he escrito corresponde a la lmersintaxis

P ~ (1+F|R) + F

Ahora si ponemos sin el término aleatorio obtenemos $\beta_{1i}=\gamma_{01}$

\begin{aligned} Y_{i j} = γ_{0} + u_{0 i} + γ_{01} F_{i j} \end{aligned}

$\begin{align*} Y_{ij}=\gamma_0+u_{0i}+\gamma_{01}F_{ij} \end{align*}$

que corresponde a la lmersintaxis

P ~ (1|R) + F

Entonces, la pregunta ahora es cuándo podemos excluir el término de error de la regresión de segundo nivel. La respuesta canónica es que cuando estamos seguros de que los regresores (aquí no tenemos ninguno, pero podemos incluirlos, naturalmente son constantes dentro de las clases) en la regresión de segundo nivel explican completamente la varianza de los coeficientes entre las clases.

Entonces, en este caso particular, si el coeficiente de no varía, o alternativamente la varianza de es muy pequeña, deberíamos considerar la idea de que probablemente somos mejores con el primer modelo. $F_{ij}$ $u_{1i}$

Nota . Solo he dado una explicación algebraica, pero creo que teniendo en cuenta que es mucho más fácil pensar en un ejemplo particular aplicado.

— mpiktas
fuente

Si la primera ecuación también tiene un término de error:

Y_{i j} = β_{0 i} + β_{1 i} F_{i j} + e_{i j}

$Y_{ij}=β_{0i}+β_{1i}F_{ij}+e_{ij}$

— Nikita Samoylov

sí, pero lo omití por claridad, creo.

— mpiktas

10

Puede pensar en un "efecto fijo" como un "efecto aleatorio" con un componente de variación de cero.

Por lo tanto, una respuesta simple de por qué no permitiría que varíe el efecto fijo es evidencia insuficiente para un componente de varianza "suficientemente grande". La evidencia debe provenir tanto de la información previa como de los datos. Esto está en línea con el principio básico de "navaja de afeitar de occam": no haga que su modelo sea más complejo de lo necesario.

Tiendo a pensar en modelos lineales mixtos de la siguiente manera, escribo una regresión múltiple de la siguiente manera:

Y = X β + Z u + e

$Y=X\beta+Zu+e$

$X\beta$ $Zu$ $e$ $u\sim N(0,D(\theta))$ $\theta$ $e\sim N(0,\sigma^{2}I)$ $(Zu+e)\sim N(0,ZD(\theta)Z^{T}+\sigma^{2}I)$

Y \sim norte (X β, Z re (θ) Z^{T} + σ^{2} yo)

$Y\sim N(X\beta,ZD(\theta)Z^{T}+\sigma^{2}I)$

Compare esto con la regresión de OLS (que tiene $Z=0$ ) y obtenemos:

Y \sim norte (X β, σ^{2} yo)

$Y\sim N(X\beta,\sigma^{2}I)$

Por lo tanto, la parte "aleatoria" del modelo puede verse como una forma de especificar información previa sobre la estructura de correlación del componente de ruido o error en el modelo. OLS básicamente asume que cualquier error de la parte fija del modelo en un caso es inútil para predecir cualquier otro error, incluso si supiéramos con certeza la parte fija del modelo. Agregar un efecto aleatorio es básicamente decir que cree que algunos errores pueden ser útiles para predecir otros errores.

— probabilidadislogica
fuente

5

Esta es una pregunta bastante antigua con algunas respuestas muy buenas, sin embargo, creo que puede beneficiarse de una nueva respuesta para abordar una perspectiva más pragmática.

¿Cuándo no se debe permitir que un efecto fijo varíe entre niveles de un efecto aleatorio?

No abordaré los problemas ya descritos en las otras respuestas, sino que me referiré al ahora famoso, aunque preferiría decir "infame" artículo de Barr et al (2013) a menudo simplemente referido como "Keep it maximal"

Barr, DJ, Levy, R., Scheepers, C. y Tily, HJ, 2013. Estructura de efectos aleatorios para la prueba de hipótesis confirmatoria: mantenerlo al máximo. Revista de memoria y lenguaje, 68 (3), pp.255-278.

En este artículo, los autores argumentan que todos los efectos fijos deberían poder variar según los niveles de los factores de agrupación (intercepciones aleatorias). Su argumento es bastante convincente: básicamente, al no permitirles variar, impone restricciones al modelo. Esto está bien descrito en las otras respuestas. Sin embargo, existen problemas potencialmente graves con este enfoque, que describe Bates el al (2015):

Bates, D., Kliegl, R., Vasishth, S. y Baayen, H., 2015. Modelos mixtos parsimoniales. preimpresión arXiv arXiv: 1506.04967

Vale la pena señalar aquí que Bates es el autor principal del lme4paquete para ajustar modelos mixtos en R, que es probablemente el paquete más utilizado para tales modelos. Bates et al señalan que en muchas aplicaciones del mundo real, los datos simplemente no admitirán una estructura máxima de efectos aleatorios, a menudo porque no hay un número suficiente de observaciones en cada grupo para las variables relevantes. Esto puede manifestarse en modelos que no convergen, o son singulares en los efectos aleatorios. La gran cantidad de preguntas en este sitio sobre tales modelos lo atestigua. También señalan que Barr et al utilizaron una simulación relativamente simple, con efectos aleatorios de "buen comportamiento" como base para su trabajo. En cambio, Bates et al sugieren el siguiente enfoque:

Propusimos (1) usar PCA para determinar la dimensionalidad de la matriz de varianza-covarianza de la estructura de efectos aleatorios, (2) para restringir inicialmente los parámetros de correlación a cero, especialmente cuando un intento inicial de ajustar un modelo máximo no converge, y (3) eliminar componentes de varianza no significativa y sus parámetros de correlación asociados del modelo

En el mismo documento, también señalan:

Es importante destacar que la falta de convergencia no se debe a defectos del algoritmo de estimación, sino que es una consecuencia directa de intentar ajustar un modelo que es demasiado complejo para que los datos lo respalden adecuadamente.

Y:

Los modelos máximos no son necesarios para proteger contra las conclusiones anti-conservadoras. Esta protección está totalmente provista por modelos integrales que se guían por expectativas realistas sobre la complejidad que los datos pueden soportar. En estadística, como en otras partes de la ciencia, la parsimonia es una virtud, no un vicio.

Bates y otros (2015)

Desde una perspectiva más aplicada, una consideración adicional que debe hacerse es si el proceso de generación de datos, la teoría biológica / física / química que subyace a los datos, debe guiar al analista hacia la especificación de la estructura de efectos aleatorios.

— Robert Long
fuente

"a menudo porque hay un número insuficiente de observaciones en cada grupo", ¿puede explicar esto? Pensé, ¿el número mínimo requerido por grupo es 1? Esta es incluso su respuesta aceptada aquí: stats.stackexchange.com/questions/388937/…

— LuckyPal

@LuckyPal la pregunta a la que se vinculó es sobre intercepciones aleatorias, esta es sobre pendientes aleatorias. ¿Cómo estimaría una pendiente para un tamaño de muestra de 1?

— Robert Long

Punto a favor. ¡Gracias! +1 Pero podemos estimar una pendiente fija con solo una observación por conglomerado si hay suficientes conglomerados, ¿verdad? Esto parece un poco raro. Tal vez, cuando hay problemas de convergencia con una pendiente aleatoria debido al tamaño de la muestra, la estimación de la pendiente, ya sea aleatoria o no, podría ser cuestionable en general.

— LuckyPal

@LuckyPal sí, la estimación de una pendiente fija se realiza en todos los grupos, por lo que generalmente no es un problema. Estoy de acuerdo en que estimar una pendiente aleatoria con pequeños grupos podría dar lugar a problemas de convergencia, pero no debería afectar la estimación de una pendiente fija.

— Robert Long