El trabajo de Gary King, en particular su libro "Una solución al problema de inferencia ecológica" (los dos primeros capítulos están disponibles aquí ), sería de interés (así como el software que lo acompaña para la inferencia ecológica). King muestra en su libro cómo se pueden mejorar las estimaciones de los modelos de regresión que utilizan datos agregados al examinar los límites potenciales que las agrupaciones de nivel inferior se han basado en los datos agregados disponibles. El hecho de que sus datos sean principalmente agrupaciones categóricas los hace susceptibles a esta técnica. (¡Aunque no se deje engañar, no es tanto una solución general como podría esperar dado el título!) Existe un trabajo más actual, pero el libro de King es IMO el mejor lugar para comenzar.
Otra posibilidad sería representar los límites potenciales de los datos mismos (en mapas o gráficos). Entonces, por ejemplo, puede informar la distribución por sexo a nivel agregado (digamos 5,000 hombres y 5,000 mujeres), y sabe que este nivel agregado abarca 2 unidades diferentes de pequeñas áreas de poblaciones 9,000 y 1,000 individuos. Entonces podría representar esto como una tabla de contingencia del formulario;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Aunque no tiene la información en las celdas para las agregaciones de nivel inferior, a partir de los totales marginales podemos construir valores potenciales mínimos o máximos para cada celda. Entonces, en este ejemplo, la Men X Unit1
celda solo puede tomar valores entre 4,000 y 5,000 (cada vez que las distribuciones marginales sean más desiguales, menor será el intervalo de valores posibles que tomarán las celdas). Aparentemente obtener los límites de la tabla es más difícil de lo que esperaba ( Dobra y Fienberg, 2000 ), pero parece que hay una función disponible en la eiPack
biblioteca en R ( Lau et al., 2007, p. 43 ).
El análisis multivariado con datos de nivel agregado es difícil, ya que inevitablemente se produce un sesgo de agregación con este tipo de datos. (En pocas palabras, solo describiría el sesgo de agregación ya que muchos procesos diferentes de generación de datos a nivel individual podrían dar como resultado asociaciones de nivel agregado) Una serie de artículos en la American Sociological Reviewen la década de 1970 son algunas de mis referencias favoritas para los temas (Firebaugh, 1978; Hammond, 1973; Hannan y Burstein, 1974), aunque pueden ser fuentes canónicas sobre el tema (Fotheringham y Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Creo que representar los límites potenciales que podrían tomar los datos podría ser incitante, aunque realmente está limitado por las limitaciones de los datos agregados para realizar análisis multivariados. Sin embargo, eso no impide que nadie lo haga en las ciencias sociales (¡para bien o para mal!)
Tenga en cuenta (como dijo Charlie en los comentarios) que la "solución" de King ha recibido una buena cantidad de crítica (Anselin y Cho, 2002; Freedman et al., 1998). Aunque estos critisicmos no son por decir sobre las matemáticas del método de King, más aún con respecto a qué situaciones en las que el método de King todavía no tiene en cuenta el sesgo de agregación (y estoy de acuerdo con Freedman y Anselin en las situaciones en las que los datos para las ciencias sociales aún son sospechosas, son mucho más comunes que las que cumplen con los supuestos de King). Esta es en parte la razón por la que sugiero simplemente examinar los límites (no hay nada de malo en eso), pero hacer inferencias sobre las correlaciones de nivel individual a partir de dichos datos requiere muchos más saltos de fe que en última instancia no están justificados en la mayoría de las situaciones.
Citas
- Anselin, L. y WKT Cho (2002). Efectos espaciales e inferencia ecológica. Análisis político 10 (3): 276-297.
- Dobra A. y SE Fienberg (2000). Límites para entradas de celdas en tablas de contingencia dados totales marginales y gráficos descomponibles. Actas de la Academia Nacional de Ciencias 97 (22): 11885-11892
- Firebaugh, G. (1978). Una regla para inferir relaciones individuales a partir de datos agregados. American Sociological Review 43 (4): 557-572
- Fotheringham, AS y DW Wong (1991). El problema de la unidad de área modificable en el análisis estadístico multivariante. Medio ambiente y planificación A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland y MR Roberts (1998). Obras revisadas: una solución al problema de inferencia ecológica por G. King. Revista de la Asociación Americana de Estadística 93 (444): 1518-1522. (PDF aquí )
- Hammond, JL (1973) Dos fuentes de error en las correlaciones ecológicas. American Sociological Review 38 (6): 764-777
- Hannan, MT y L. Burstein (1974). Estimación a partir de observaciones agrupadas. American Sociological Review 39 (3): 374-392
- Rey G. (1997). Una solución al problema de inferencia ecológica: reconstruir el comportamiento individual a partir de datos agregados . Princeton: Princeton University Press.
- Lau O., RT Moore y M. Kellerman (2007). eiPack: inferencia ecológica RXC y gestión de datos de mayor dimensión. R News 7 (2): 43-47
- Oppenshaw, S. (1984). El problema de la unidad areal modificable . Norwich: Geo Books. ( PDF aquí )
- Robinson, WS (1950). Correlaciones ecologicas y el comportamiento individual. American Sociological Review 15 (3): 351-357. ( PDF aquí )