Considere un problema de análisis de datos clásico en el que tiene un resultado y cómo se relaciona con varios predictores . El tipo básico de aplicación en mente aquí es que X i 1 , . . . , X i p
es un resultado a nivel de grupo, como la tasa de criminalidad en la ciudad .
Los predictores son características a nivel de grupo, como las características demográficas de la ciudad .
El objetivo básico es ajustar un modelo de regresión (quizás con efectos aleatorios, pero olvídalo por ahora):
¿Surgen algunas dificultades técnicas cuando uno (o más) de los predictores son el resultado de una encuesta que tiene diferentes tamaños de muestra para cada unidad? Por ejemplo, supongamos que es un puntaje resumido para la ciudad que es la respuesta promedio de una muestra de individuos de la ciudad i pero los tamaños de muestra en los que se basaron estos promedios son muy diferentes: i i
Dado que las variables predictoras no tienen el mismo significado, en cierto sentido, para cada ciudad, me temo que el condicionamiento de estas variables en un modelo de regresión como si todas fueran "creadas de la misma manera" podría causar algunas inferencias engañosas.
¿Hay un nombre para este tipo de problema? Si es así, ¿hay investigaciones sobre cómo manejar esto?
Mi pensamiento es tratarlo como una variable predictora medida con error y hacer algo en este sentido, pero hay heterocedasticidad en los errores de medición, por lo que sería muy complicado. Podría estar pensando en esto de manera incorrecta o podría estar haciendo esto más complicado de lo que es, pero cualquier discusión aquí sería útil.