¿Podemos modelar factores no aleatorios como aleatorios en un diseño multinivel / jerárquico?

La distinción entre variables estrictamente aleatorias (que deberían modelarse como tales) y variables no aleatorias que algunos argumentan que podrían modelarse como aleatorias si se trata de un modelo jerárquico / multinivel, me resulta borrosa.

Bates y Bolker ejemplifican los efectos aleatorios con casos de aleatoriedad verdadera, por ejemplo, la calidad de los productos en muestras seleccionadas al azar. Aunque su lme4trabajo es increíble, aún no está claro dónde va la línea entre aleatorio y no aleatorio. Las discusiones en ciencias sociales hacen que esto sea aún más borroso. Los modelos multinivel / jerárquicos y los modelos de efectos aleatorios son computacionalmente iguales lme4, entonces, ¿dónde dibujamos la línea?

Por ejemplo, tengo un conjunto de datos con medidas repetidas en varios individuos (¡eso es aleatorio!), Pero creo, y los resultados del lme4programa muestran que una gran proporción de la variación se encuentra dentro de sus variables socioeconómicas (como el área de vida, la raza, etc.). Estas variables no son aleatorias, pero los modelos multinivel argumentan que podrían usarse como tales. Otros ejemplos provienen de estudios sobre las calificaciones de los estudiantes, que generalmente anidan estudiantes dentro de los maestros y más dentro de las escuelas. Todas estas variables son constantes.

¿Podemos modelar factores no aleatorios como aleatorios si es plausible en el ámbito de los modelos multinivel (jerárquicos)?

random-effects-model mixed-model

— Adam Robinsson
fuente

Ver aquí: stats.stackexchange.com/questions/4700/…

— Tim

Y aquí: stats.stackexchange.com/questions/26230/…

— Tim

Hola Tim. Gracias por los enlaces pero realmente no responderán la pregunta. Entiendo el significado de los efectos aleatorios, mixtos y fijos. Esta pregunta es si los diseños multinivel / jerárquicos permiten la incorporación de variables no aleatorias como aleatorias.

— Adam Robinsson

Me sorprende tu pregunta. Sé que dices que entiendes los efectos fijos frente a los aleatorios, pero tal vez no los entiendas de la misma manera que yo. He publicado un extracto bastante extendido de un capítulo de un libro en prensa aquí que explica mi punto de vista (bastante pragmático, bastante alineado con el de Andrew Gelman).

Respondiendo más directamente a la pregunta:

(IMO) no tiene ningún sentido incluir los principales efectos de las variables socioeconómicas, como el ingreso aleatorio. Si tuviera más de una medida de ingreso por individuo, podría incluir al individuo como una variable de agrupación y permitir que los efectos del ingreso en la respuesta (lo que sea) varíe entre los individuos.
La raza parece tener más sentido como un efecto fijo, y es poco probable que pueda medir a un individuo bajo los efectos de más de una raza, pero podría (por ejemplo) ser capaz de caracterizar variaciones aleatorias en los efectos de raza en diferentes países. Usted podría tratarlo como un efecto aleatorio (es decir, las diferencias de modelo entre las razas como se extrae de una distribución normal), pero es probable que sea poco práctico, ya que probablemente no tendrá suficientes razas diferentes en el conjunto de datos, y sería difícil para para que se me ocurra un buen argumento conceptual para esto ...
"área de vida" tiene sentido como una variable de agrupación, que ciertamente podría ser un efecto aleatorio razonable (es decir, la intercepción variaría entre las áreas de vida). El individuo probablemente estaría anidado dentro del área, a menos que los individuos se muevan entre áreas durante la escala de tiempo de su estudio.
su situación parece ser un caso en el que tiene alguna variación aleatoria entre individuos, pero también tiene covariables a nivel individual. Agregar estas covariables a nivel individual (raza, ingreso, etc.) al modelo representará parte de la variabilidad entre individuos (y probablemente sea una buena idea).

Puede agregar claridad para distinguir entre las variables de agrupación (que deben ser categóricas), que representan los grupos a través de los cuales varían las cosas, y los efectos , que son las diferencias en algún parámetro / efecto (generalmente la intercepción, pero podrían ser los efectos del ingreso / educación / lo que sea) a través de los niveles de alguna variable de agrupación.

actualización : me tomaré la libertad de darle un contrapunto a su

Mi comprensión de los efectos aleatorios: factores que se seleccionan aleatoriamente de una población;

Tal vez, depende de tu perspectiva filosófica. Esto se requiere en el paradigma frecuentista clásico, pero lo relajaría un poco preguntando si es razonable tratar los efectos como extractos aleatorios de alguna población hipotética. (Los ejemplos clásicos aquí son (1) muestreo exhaustivo (¿qué pasa si tiene mediciones para cada vecindario de la ciudad, o cada región / provincia / estado en un país? ¿Puede tratarlas como extractos aleatorios de alguna superpoblación? Y (2 ) períodos de tiempo medidos secuencialmente (por ejemplo, años 2002-2012). En ambos casos, diría que tiene sentido pragmático modelarlos usando efectos aleatorios).

los niveles del factor son de poco interés;

no necesariamente. No creo que la idea de que los efectos aleatorios sean variables molestas se mantenga en la práctica. Por ejemplo, en los análisis de cría de animales, uno puede estar muy interesado en conocer el valor de cría (BLUP) de un animal en particular. (El llamado nivel de enfoque tiene algunas implicaciones sobre cómo se comparan los modelos).

Las variables son factores no observados.

No estoy seguro de lo que este significa. Sabes de qué vecindario proviene cada observación, ¿verdad? ¿Cómo es eso "no observado"? (Si sospechaba la agrupación en sus datos en función de factores no observados , necesitaría ajustar un modelo de mezcla discreta ). Si quiere decir que no sabe por qué los vecindarios son diferentes, no creo que eso importe aquí.

Así que tome el vecindario como ejemplo. Es mi variable de interés principal, los niveles son importantes. Utilizo modelos mixtos y verifico que hay una gran variación dentro de ellos.

La única razón por la que puedo pensar en no usar el vecindario como un efecto aleatorio sería si solo hubiera medido un pequeño número (digamos <6) de vecindarios.

— Ben Bolker
fuente

Mi comprensión de los efectos aleatorios: factores que se seleccionan aleatoriamente de una población; los niveles del factor son de poco interés; Las variables son factores no observados. Así que tome el vecindario como ejemplo. Es mi variable de interés principal, los niveles son importantes. Utilizo modelos mixtos y verifico que hay una gran variación dentro de ellos. Notó que podría usarse como una variable aleatoria. Entonces modelo una variable no aleatoria como aleatoria; Esto es algo confuso para mí, pero su respuesta arroja algo de luz sobre esto. Leeré el extracto de inmediato. Gracias por la respuesta, agradezco su tiempo.

— Adam Robinsson

Lamentablemente, no noté su actualización hasta ahora, profesor Bolker. De hecho, creo que lo tengo ahora. No es algo muy simple, todo el concepto de modelo mixto y creo que puede tomar algún tiempo comprenderlo. De hecho, hay una gran cantidad de preguntas similares, así que supongo que no soy el único. Sin embargo, gracias por una respuesta esclarecedora. Apreciado.

— Adam Robinsson