Particionamiento de varianza y cambios longitudinales en correlación con datos binarios

Estoy analizando datos sobre 300,000 alumnos en 175 escuelas con un modelo logístico lineal de efectos mixtos (intercepciones aleatorias). Cada alumno ocurre exactamente una vez y los datos abarcan 6 años.

¿Cómo divido la varianza entre los niveles de la escuela y el alumno, de manera similar a la VPC / ICC para obtener resultados continuos? He visto este artículo que propone 4 métodos, de los cuales A y B me parecen interesantes, pero me gustaría saber qué ventajas / inconvenientes podría haber al usar cualquiera de estos, y, por supuesto, si hay otras formas de hacerlo. eso.
¿Cómo puedo comparar la variación residual a nivel escolar de año en año (o cualquier otro período de tiempo)? Hasta ahora he hecho esto dividiendo los datos por año y ejecutando el modelo contra cada año de datos, pero creo que esto es defectuoso porque: i) no hay una razón obvia por la que deba dividirme por año ; y ii) dado que las estimaciones de efectos fijos son diferentes para cada año, comparar los efectos aleatorios año por año puede no tener sentido (esto es solo mi intuición, sería genial si alguien pudiera explicar esto más formalmente, si es correcto).

NOTA: Reescribí esta pregunta después de una discusión en meta con whuber y Macro

mixed-model binary-data

— Joe King
fuente

Creo que esta es una gran mejora. La pregunta ahora es muy clara. En este momento no tengo tiempo para dar una respuesta bien organizada, pero publicaré una respuesta más tarde.

— Macro

Los modelos logísticos de efectos mixtos parecen un tema extremadamente avanzado para la escuela secundaria. ¿Forman parte del programa de estudios de la escuela secundaria o estudias de forma independiente?

— mark999

@ mark999 Estoy estudiando de forma independiente. En realidad estoy tratando de demostrar que mi hermano está equivocado y dijo "no hay forma de que puedas entender esto" . Él está haciendo un título en estadística, así que tengo acceso a todos sus libros, etc. (cuando está siendo amable).

— Joe King

Sea denotar la respuesta y el vector predictor (respectivamente) del estudiante en la escuela . $y_{ij}, {\boldsymbol x}_{ij}$ $i$ $j$

(1) Para los datos binarios, creo que la forma estándar de hacer descomposiciones de varianza análogas a las realizadas para datos continuos es lo que los autores llaman Método D (comentaré los otros métodos a continuación) en su enlace: imaginando los datos binarios como que surge de una variable continua subyacente que se rige por un modelo lineal y descompone la varianza en esa escala latente. La razón es que los modelos logísticos (y otros GLM) surgen naturalmente de esta manera:

Para ver esto, defina manera que se rija por un modelo mixto lineal: $y^{\star}_{ij}$

y_{yo j}^{⋆} = α + X_{yo j} β + η_{j} + ε_{yo j}

$y^{\star}_{ij} = \alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j + \varepsilon_{ij}$

donde son coeficientes de regresión, es el efecto aleatorio a nivel escolar y es el término de varianza residual y tiene una distribución logística estándar . Ahora deja $\alpha,\beta$ $\eta_j \sim N(0,\sigma^2)$ $\varepsilon_{ij}$

y_{yo j} = {\begin{cases} 1 & Si y_{yo j}^{⋆} \geq 0 0 \\ 0 0 & Si y_{yo j}^{⋆} < 0 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

vamos ahora, simplemente usando el CDF logístico que tenemos $p_{ij} = P(y_{ij} = 1|{\boldsymbol x}_{ij},\eta_j)$

{pag}_{yo j} = 1 - PAG (y_{yo j}^{⋆} < 0 0 El | X_{yo j}, η_{j}) = \frac{Exp {- (α + X_{yo j} β + η_{j})}}{1 + Exp {- (α + X_{yo j} β + η_{j})}}

$p_{ij} = 1-P(y^{\star}_{ij}<0|{\boldsymbol x}_{ij},\eta_j) = \frac{ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j) \} }{1+ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j) \}}$

ahora tomando la transformación logit de ambos lados, tienes

\log (\frac{p_{i j}}{1 - p_{i j}}) = α + x_{i j} β + η_{j}

$\log \left( \frac{ p_{ij} }{1 - p_{ij}} \right) = \alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j$

que es exactamente el modelo logístico de efectos mixtos. Entonces, el modelo logístico es equivalente al modelo de variable latente especificado anteriormente. Una nota importante:

La escala de no se identifica ya que, si fuera a reducirla pero a una constante , simplemente cambiaría lo anterior a $\varepsilon_{ij}$ $s$

\frac{\exp {- (α + x_{i j} β + η_{j}) / s}}{1 + \exp {- (α + x_{i j} β + η_{j}) / s}}

$\frac{ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j)/s \} }{1+ \exp \{-(\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_j)/s \}}$

$\ \ \ \ \ \ \$ por lo tanto, los coeficientes y los efectos aleatorios simplemente se ampliarían en la cantidad correspondiente. Por lo tanto, se utiliza, lo que implica .
$\ \ \ \ \ \$ $s=1$ ${\rm var}(\varepsilon_{ij}) = \pi^2/3$

Ahora, si usa este modelo y luego la cantidad

\frac{{\hat{σ}}_{η}^{2}}{{\hat{σ}}_{η}^{2} + π^{2} / 3}

$\frac{ \hat{\sigma}^{2}_{\eta} }{\hat{\sigma}^{2}_{\eta} + \pi^2/3 }$

estima la correlación intraclase de las variables latentes subyacentes . Otra nota importante:

$\varepsilon_{ij}$ $\frac{{\hat{σ}}_{η}^{2}}{{\hat{σ}}_{η}^{2} + 1}$ $\frac{ \hat{\sigma}^{2}_{\eta} }{\hat{\sigma}^{2}_{\eta} + 1 }$ estimates the tetrachoric correlation between two randomly selected pupils in the same school, which were shown by Pearson (around 1900 I think) to be statistically identified when the underlying continuous data was normally distributed (this work actually showed these correlations were identified beyond the binary case to the multiple category case, where these correlations are termed polychoric correlations). For this reason, it may be preferable (and would be my recommenation) to use a probit model when the primary interest is in estimating the (tetrachoric) intraclass correlation of binary data.

Regarding the other methods mentioned in the paper you linked:

(A) I've never seen the linearization method, but one drawback I can see is that there's no indication of the approximation error incurred by this. In addition, if you're going to linearize the model (through a potentially crude approximation), why not just use a linear model in the first place (e.g. option (C), which I'll get to in a minute)? It would also be more complicated to present since the ICC would depend on ${\boldsymbol x}_{ij}$ .
(B) The simulation method is intuitively appealing to a statistician since it would give you an estimated variance decomposition on the original scale of the data but, depending on the audience, it may (i) be complicated to describe this in your "methods" section and (ii) may turn off a reviewer who was looking for something "more standard"
(C) Pretending the data is continuous is probably not a great idea, although it won't perform terribly if most of the probabilities are not too close to 0 or 1. But, doing this would almost certainly raise a red flag to a reviewer so I'd stay away.

Now finally,

(2) If the fixed effects are very different across years, then you're right to think that it could be difficult to compare the random effect variances across years, since they are potentially on different scales (this is related to the non-identifiability of scaling issue mentioned above).

If you want to keep the fixed effects over time (however, if you see them changing a lot over time, you may not want to do that) but look at the change in the random effect variance, you can explore this effect using some random slopes and dummy variables. For example, if you wanted to see if the ICCs were different in different years, you culd let $I_k = 1$ if the observation was made in year $k$ and 0 otherwise and then model your linear predictor as

α + X_{yo j} β + η_{1 j} {yo}_{1} + η_{2 j} {yo}_{2} + η_{3 j} {yo}_{3} + η_{4 4 j} {yo}_{4 4} + η_{5 5 j} {yo}_{5 5} + η_{6 6 j} {yo}_{6 6}

$\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_{1j} I_1 + \eta_{2j} I_2 + \eta_{3j} I_3 + \eta_{4j} I_4 + \eta_{5j} I_5+ \eta_{6j} I_6$

esto le dará un ICC diferente cada año pero los mismos efectos fijos. Puede ser tentador usar una pendiente aleatoria en el tiempo, haciendo que su predictor lineal

α + X_{yo j} β + η_{1} + η_{2} t

$\alpha + {\boldsymbol x}_{ij} {\boldsymbol \beta} + \eta_{1} + \eta_{2} t$

pero no lo recomiendo, ya que eso solo permitirá que sus asociaciones aumenten con el tiempo, no disminuyan .

— Macro
fuente

¿Podría darme su comentario para abordar el punto en el artículo vinculado sobre esta técnica de partición de varianza que dice "Este enfoque puede ser razonable cuando la respuesta (0, 1) se deriva, por ejemplo, de un truncamiento de un continuo subyacente como una respuesta de aprobado / reprobado basada en una escala de calificación continua, pero parece tener menos justificación cuando la respuesta es realmente discreta, como la mortalidad o la votación " . En mi caso estoy tratando con la incidencia de la intimidación, que cae en la última categoría, creo ...

— Joe King

@JoeKing, diría que los modelos de regresión logística / probit (y similares) ya suponen que los datos se generan a partir de un continuo subyacente, ya que se puede demostrar que el modelo es equivalente a eso. Por lo tanto, si uno incluso está usando tales modelos, entonces debe encontrar que esa suposición es defendible :)

— Macro

@JoeKing, si considera que esta respuesta es definitiva, considere aceptar :)

— Macro

De hecho lo haré. Por el momento, estoy un poco inseguro sobre algunos puntos y me gustaría volver a hablar con usted después de haber tenido un poco de tiempo (un par de días) para leer un poco y ver los datos un poco más, si no te importa

— Joe King

@JoeKing Por supuesto, algunos miembros nuevos no son conscientes, así que pensé en señalarlo: no estaba destinado a presionarlos en absoluto

— Macro