¿Se supone que los efectos de grupo en un modelo de efectos mixtos se seleccionaron de una distribución normal?

Digamos que estamos interesados en cómo las calificaciones de los exámenes de los estudiantes se ven afectadas por la cantidad de horas que esos estudiantes estudian. Tomamos muestras de estudiantes de varias escuelas diferentes. Ejecutamos el siguiente modelo de efectos mixtos:

{grados de examen}_{yo} = una + β_{1} \times {horas estudiadas}_{yo} + {colegio}_{j} + {mi}_{yo}

$\text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i$

¿Estoy en lo cierto al decir que, en este modelo, se supone que cada escuela ha sido elegida de una población mayor de escuelas, y que el efecto de la escuela se distribuye normalmente? Por lo tanto, ¿podemos hacer todos los procedimientos de distribución normal "habituales" para el efecto grupal de la escuela? ¿Podemos decir que el 68% de las escuelas estarán dentro de 1 desviación estándar del efecto grupal promedio de la escuela? ¿Y podemos calcular un intervalo de confianza del 95% para el efecto grupal medio general de la escuela?

¿También estoy en lo cierto al decir que la regresión lineal con efecto fijo de la escuela no puede calcular estas estadísticas de distribución normal porque usan un grupo de referencia y variables ficticias?

— luciano
fuente

Tiene razón al decir que en los modelos de efectos lineales mixtos estándar, se supone que los efectos aleatorios se distribuyen normalmente. Por lo tanto, si este supuesto se cumple (al menos aproximadamente), podemos usar lo que sabemos sobre las distribuciones normales para ayudar a describir la distribución de los efectos aleatorios, como el 95% de los efectos aleatorios deben estar dentro de dos desviaciones estándar de 0 (ya que aleatorio los efectos se centran alrededor de 0).

Dicho esto, es importante verificar estos supuestos, ¡y no siempre es tan fácil! Si tiene una gran cantidad de datos sobre cada grupo, puede hacer algo como un análisis estratificado y trazar los intervalos de confianza para cada grupo. Esto aún puede ser un poco difícil; supongamos que tiene un valor atípico extremo, es decir, un intervalo de confianza ajustado a varias desviaciones estándar de 0. ¿Es esto porque este efecto aleatorio es realmente enorme y estamos muy seguros de esto? ¿O es porque no tenemos muchos datos sobre este efecto aleatorio y hemos subestimado la varianza debido al pequeño tamaño de la muestra?

En cuanto a la diferencia entre la regresión lineal simple y los modelos de efectos mixtos, la respuesta es que el modelo de efectos mixtos es considerablemente más complicado. Se supone que todos los efectos aleatorios se han generado a partir de la misma distribución (normalmente normal). Como tal, la estimación de un efecto aleatorio en realidad se dirige hacia 0 (recuerde que los efectos aleatorios se centran en 0) en comparación si acaba de ajustar un modelo de regresión lineal simple con todos los efectos fijos.

Además, otra diferencia es que los efectos aleatorios tienen una media de 0, lo que permite la plena identificación del modelo: si intentara ajustar el efecto principal Y todos los efectos aleatorios en un modelo lineal simple, su modelo no sería identificable. Esto se debe a que sumar 1 al efecto principal y restar 1 de los efectos "aleatorios" (citas utilizadas porque los ajustaría como efectos fijos) conduciría a los mismos valores pronosticados. Sin embargo, este problema no es tan importante: uno podría simplemente excluir el efecto principal del modelo, y luego, si estuviéramos interesados en examinar el efecto principal, simplemente tomaríamos el promedio de todos los efectos "aleatorios". Sin embargo, como se señaló anteriormente, los efectos "aleatorios" estimados serían mucho más ruidosos que si hubieran sido ajustados por un modelo de efectos mixtos: en la información de ese grupo, en lugar de tomar prestada la información proporcionada sobre la distribución de los efectos del grupo.

— Acantilado
fuente