Aprendí en las estadísticas elementales que, con un modelo lineal general, para que las inferencias sean válidas, las observaciones deben ser independientes. Cuando se produce la agrupación, la independencia ya no puede conducir a una inferencia no válida a menos que esto se tenga en cuenta. Una forma de dar cuenta de dicha agrupación es mediante el uso de modelos mixtos. Me gustaría encontrar un conjunto de datos de ejemplo, simulado o no, que lo demuestre claramente. Intenté usar uno de los conjuntos de datos de muestra en el sitio de UCLA para analizar datos agrupados
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
A menos que me falte algo, estos resultados son lo suficientemente similares como para no pensar que el resultado lm()
no es válido. He mirado algunos otros ejemplos (por ejemplo, 5.2 del Centro de la Universidad de Bristol para el modelado multinivel ) y descubrí que los errores estándar tampoco son terriblemente diferentes (no estoy interesado en los efectos aleatorios del modelo mixto, pero vale la pena señalar que el ICC de la salida del modelo mixto es 0.42).
Por lo tanto, mis preguntas son 1) bajo qué condiciones los errores estándar serán notablemente diferentes cuando ocurra la agrupación, y 2) alguien puede proporcionar un ejemplo de dicho conjunto de datos (simulado o no).