Incluir términos aleatorios en el modelo es una forma de inducir alguna estructura de covarianza entre los grados. El factor aleatorio para la escuela induce una covarianza diferente de cero entre diferentes estudiantes de la misma escuela, mientras que es cuando la escuela es diferente.0
Escribamos su modelo como
donde s indexa la escuela e i indexa los alumnos (en cada escuela). Los términos escuela s son variables aleatorias independientes dibujadas en una N ( 0 , τ ) . Las e s , i son variables aleatorias independientes dibujadas en una N ( 0 , σ 2 ) .
Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)mis , inorte( 0 , σ2)
Este vector tiene un valor esperado
que está determinado por el número de horas trabajadas.
[ α + horass , iβ]s , i
La covarianza entre e Y s ′ , i ′ es 0 cuando s ≠ s ′ , lo que significa que la desviación de las calificaciones de los valores esperados son independientes cuando los estudiantes no están en la misma escuela.Ys , iYs′, i′0 0s ≠ s′
La covarianza entre e Y s , i ′ es τ cuando i ≠ i ′ , y la varianza de Y s , i es τ + σ 2 : las calificaciones de los estudiantes de la misma escuela tendrán desviaciones correlacionadas de sus valores esperados .Ys , iYs , i′τi ≠ i′Ys , iτ+ σ2
Ejemplo y datos simulados
Aquí hay una breve simulación R para cincuenta estudiantes de cinco escuelas (aquí tomo ); los nombres de la variable son auto documentados: σ2= τ= 1
set.seed(1)
school <- rep(1:5, each=10)
school_effect <- rnorm(5)
school_effect_by_ind <- rep(school_effect, each=10)
individual_effect <- rnorm(50)
Trazamos las desviaciones de la calificación esperada para cada estudiante, es decir, los términos , junto con (línea de puntos) la desviación media para cada escuela:colegios+ es , i
plot(individual_effect + school_effect_by_ind, col=school, pch=19,
xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)
Ahora comentemos esta trama. El nivel de cada línea de puntos (que corresponde a ) se extrae al azar en una ley normal. Los términos aleatorios específicos del alumno también se dibujan al azar en una ley normal, corresponden a la distancia de los puntos desde la línea punteada. El valor resultante es, para cada estudiante, la salida de α + horas β , la calificación determinada por el tiempo dedicado al trabajo. Como resultado, los alumnos en la misma escuela son más similares entre sí que los alumnos de diferentes escuelas, como usted indicó en su pregunta.colegiosα + horas β
La matriz de varianza para este ejemplo
En las simulaciones anteriores dibujamos la escuela por separado los efectos y los efectos individuales e s , i , por lo que las consideraciones de covarianza con la que empecé no aparecen claramente aquí. De hecho, habríamos obtenido resultados similares al dibujar un vector normal aleatorio de dimensión 50 con matriz de covarianza de bloque diagonal
[ A 0 0 0 0 0 A 0 0 0 0 0 A 0 0 0 0 0 A 0 0 0 0 0 A ]
donde cada uno de los cincocolegiosmis , i
⎡⎣⎢⎢⎢⎢⎢⎢UN0 00 00 00 00 0UN0 00 00 00 00 0UN0 00 00 00 00 0UN0 00 00 00 00 0UN⎤⎦⎥⎥⎥⎥⎥⎥
bloques
A corresponden a la covarianza entre los estudiantes de una misma escuela:
A = [ 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 110 × 10UNA = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.