¿Cómo puedo simular microdatos censales para áreas pequeñas usando una muestra de microdatos al 1% a gran escala y estadísticas agregadas a escala de área pequeña?


9

Me gustaría realizar un análisis multivariado a nivel individual en pequeños niveles de agregación geográfica (distritos de recolección de censo de Australia). Claramente, el censo no está disponible en estos pequeños niveles de agregación por razones de privacidad, por lo que estoy investigando otras alternativas. Casi todas las variables de interés son categóricas. Tengo dos conjuntos de datos a mi disposición:

  • La muestra del censo del 1% está disponible en un nivel mucho mayor de agregación espacial (un área con una población de ~ 190,000 y una gran segregación espacial de la demografía).

  • Tablas de frecuencias para las variables que me interesan a nivel de área pequeña (500 áreas pequeñas, media pop = 385, sd = 319, mediana = 355).

¿Cómo puedo usar estos dos conjuntos de datos para simular una distribución de la población en el nivel de área pequeña que esté lo más cerca posible de la población real del área pequeña?

Aprecio que bien puede haber métodos de rutina para hacer esto; de ser así, un puntero a un libro de texto o artículos de revistas relevantes sería muy apreciado.


posiblemente relacionado (tengo un problema similar): stats.stackexchange.com/questions/14399/… El muestreo de Gibbs podría ser lo que se necesita aquí.
mzuba

Es posible que desee hacer su pregunta en la lista de correo SRMSNET de la Asociación Americana de Estadística. Si estás en Australia, me acercaría a Ray Chambers, supongo que nadie conoce a SAE mejor que él en el hemisferio sur :).
StasK

Este problema está estrechamente relacionado con el "mapeo dasimétrico".
whuber

1
Estoy de acuerdo con @whuber, y el mapeo dasymetric puede ser de interés para marcar también dado el material del tema. Desafortunadamente, está en gran parte separada de la literatura de inferencia ecológica que cité en mi respuesta (¡no quiero acumular más literatura más!) ¿Qué crees que marca?
Andy W

1
Algunas técnicas de mapeo dasimétrico han comenzado a usar datos auxiliares para intentar interpolar datos a áreas más pequeñas. Los objetivos de la inferencia ecológica y el mapeo dasimétrico son algo diferentes (algo análogos a la diferencia entre predicción / pronóstico e inferencia). Escribiré otra publicación sobre las fuentes que he recopilado que creo que también sería de interés. Lamentablemente, no puedo dar consejos mucho más útiles que citar un montón de literatura. Es un tema contemporáneo popular, ¡y con suerte puedes contribuir!
Andy W

Respuestas:


5

El mapeo dasimétrico se centra principalmente en la interpolación de estimaciones de población en áreas más pequeñas que las disponibles en los datos actualmente difundidos (consulte esta pregunta para obtener una serie de referencias útiles sobre el tema). Con frecuencia esto se hizo simplemente identificando áreas (basadas en las características de la tierra) en las que obviamente no existe población, y luego volviendo a estimar las densidades de población (omitiendo esas áreas). Un ejemplo podría ser si hay un cuerpo de agua en una ciudad, otro podría ser si identifica parcelas industriales que no pueden tener ninguna población residencial. Los enfoques más recientes para el mapeo dasimétrico incorporan otros datos auxiliares en un marco probabilístico para asignar estimaciones de población (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Ahora es fácil ver la relación con su pregunta en cuestión. Desea las estimaciones de población de las áreas pequeñas. Pero, también debe quedar claro cómo puede estar a la altura de sus objetivos. No solo desea los datos de la población, sino también las características de esas poblaciones. Uno de los términos utilizados para describir esta situación es el problema del cambio de apoyo (Cressie, 1996; Gotway y Young, 2002). Tomando prestado de la literatura geoestadística en la que uno intenta hacer predicciones de una determinada característica en un área amplia a partir de muestras puntuales, el trabajo reciente ha intentado interpolar datos de área a diferentes zonas objetivo. Gran parte del trabajo de Pierre Goovaerts se centra en tales métodos de kriging de área a punto, un artículo reciente en la revista Geographical Analysis tiene varios ejemplos del método aplicado a diferentes materias (Haining et al., 2010), y una de mis aplicaciones favoritas está en este artículo (Young et al., 2009).

Sin embargo, lo que cito no debería verse como una panacea para el problema. En última instancia, muchos de los mismos problemas con la inferencia ecológica y el sesgo de agregación se aplican también a los objetivos de la interpolación regional. Es probable que muchas de las relaciones entre los datos de nivel micro simplemente se pierdan en el proceso de agregación, y tales técnicas de interpolación no podrán recuperarlas. Además, el proceso a través del cual los datos se interpolan empíricamente (a través de la estimación de variogramas a partir de los datos de nivel agregado) a menudo está bastante lleno de pasos ad-hoc que deberían hacer que el proceso sea cuestionable (Goovaerts, 2008).

Desafortunadamente, publico esto en una respuesta separada ya que la literatura de inferencia ecológica y la literatura sobre mapeo dasimétrico y kriging de área a punto no se superponen. Aunque la literatura sobre inferencia ecológica tiene muchas implicaciones para estas técnicas. Las técnicas de interpolación no solo están sujetas al sesgo de agregación, sino que las técnicas dasimétricas inteligentes (que utilizan los datos agregados para ajustar modelos para predecir las áreas más pequeñas) probablemente sospechen un sesgo de agregación. El conocimiento de las situaciones en las que se produce el sesgo de agregación debe ser esclarecedor en cuanto a las situaciones en las que la interpolación de área y el mapeo dasimétrico fallarán en gran medida (especialmente en lo que respecta a la identificación de correlaciones entre diferentes variables a nivel desagregado).


Citas


Gracias por el útil punto de partida de la literatura contemporánea: no conocía los métodos dasimétricos que hacían más que redensificar las densidades de población, así que lo investigaré con entusiasmo.
fmark

5

El trabajo de Gary King, en particular su libro "Una solución al problema de inferencia ecológica" (los dos primeros capítulos están disponibles aquí ), sería de interés (así como el software que lo acompaña para la inferencia ecológica). King muestra en su libro cómo se pueden mejorar las estimaciones de los modelos de regresión que utilizan datos agregados al examinar los límites potenciales que las agrupaciones de nivel inferior se han basado en los datos agregados disponibles. El hecho de que sus datos sean principalmente agrupaciones categóricas los hace susceptibles a esta técnica. (¡Aunque no se deje engañar, no es tanto una solución general como podría esperar dado el título!) Existe un trabajo más actual, pero el libro de King es IMO el mejor lugar para comenzar.

Otra posibilidad sería representar los límites potenciales de los datos mismos (en mapas o gráficos). Entonces, por ejemplo, puede informar la distribución por sexo a nivel agregado (digamos 5,000 hombres y 5,000 mujeres), y sabe que este nivel agregado abarca 2 unidades diferentes de pequeñas áreas de poblaciones 9,000 y 1,000 individuos. Entonces podría representar esto como una tabla de contingencia del formulario;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

Aunque no tiene la información en las celdas para las agregaciones de nivel inferior, a partir de los totales marginales podemos construir valores potenciales mínimos o máximos para cada celda. Entonces, en este ejemplo, la Men X Unit1celda solo puede tomar valores entre 4,000 y 5,000 (cada vez que las distribuciones marginales sean más desiguales, menor será el intervalo de valores posibles que tomarán las celdas). Aparentemente obtener los límites de la tabla es más difícil de lo que esperaba ( Dobra y Fienberg, 2000 ), pero parece que hay una función disponible en la eiPackbiblioteca en R ( Lau et al., 2007, p. 43 ).

El análisis multivariado con datos de nivel agregado es difícil, ya que inevitablemente se produce un sesgo de agregación con este tipo de datos. (En pocas palabras, solo describiría el sesgo de agregación ya que muchos procesos diferentes de generación de datos a nivel individual podrían dar como resultado asociaciones de nivel agregado) Una serie de artículos en la American Sociological Reviewen la década de 1970 son algunas de mis referencias favoritas para los temas (Firebaugh, 1978; Hammond, 1973; Hannan y Burstein, 1974), aunque pueden ser fuentes canónicas sobre el tema (Fotheringham y Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Creo que representar los límites potenciales que podrían tomar los datos podría ser incitante, aunque realmente está limitado por las limitaciones de los datos agregados para realizar análisis multivariados. Sin embargo, eso no impide que nadie lo haga en las ciencias sociales (¡para bien o para mal!)

Tenga en cuenta (como dijo Charlie en los comentarios) que la "solución" de King ha recibido una buena cantidad de crítica (Anselin y Cho, 2002; Freedman et al., 1998). Aunque estos critisicmos no son por decir sobre las matemáticas del método de King, más aún con respecto a qué situaciones en las que el método de King todavía no tiene en cuenta el sesgo de agregación (y estoy de acuerdo con Freedman y Anselin en las situaciones en las que los datos para las ciencias sociales aún son sospechosas, son mucho más comunes que las que cumplen con los supuestos de King). Esta es en parte la razón por la que sugiero simplemente examinar los límites (no hay nada de malo en eso), pero hacer inferencias sobre las correlaciones de nivel individual a partir de dichos datos requiere muchos más saltos de fe que en última instancia no están justificados en la mayoría de las situaciones.


Citas


Tenga en cuenta que otros han criticado el enfoque de King sobre el problema de la falacia ecológica; David Freedman es un ejemplo notable. Aquí está la respuesta que Freedman y sus coautores dan al libro de King citado anteriormente: citeseerx.ist.psu.edu/viewdoc/… Por supuesto, King tiene una respuesta y Freedman et al. tener una respuesta a la respuesta a la respuesta ... No puedo entender qué está tratando de hacer y qué datos tiene, pero en general soy muy escéptico con respecto a los análisis de tipo de inferencia ecológica.
Charlie

Sí @Charlie, estoy de acuerdo (y en particular disfruto de la opinión de Freedman sobre el tema en general). Esa es en parte la razón por la que señalo la literatura general sobre el sesgo de agregación al final de mi publicación. No estoy muy seguro de lo que quiere decir con la afirmación "No puedo entender qué está tratando de hacer y qué datos tiene, pero en general soy muy escéptico sobre los análisis de tipo de inferencia ecológica", es esto en ¿Saludos al Rey y a Freedman quejándose de no compartir datos?
Andy W

@ Andy, ¿es esta técnica la misma que los economistas conocen como distribuciones parcialmente identificadas ( springer.com/statistics/statistical+theory+and+methods/book/… )?
StasK

@ Andy, no, perdón por la ambigüedad. En realidad estaba hablando con el OP. Si tiene tablas de frecuencia en el área pequeña y quiere obtener estadísticas en el nivel de área pequeña, ¿qué falta? Supongo que debe tener solo los márgenes, pero no el contenido de la celda, como sugieres en tu publicación.
Charlie

@StasK, no lo sé. Comprobaré si King hace alguna referencia a Manski más adelante esta semana cuando tenga acceso al libro. Es probable que exista una superposición dada la inferencia ecológica que se menciona en el resumen. Otra fuente potencial (gratuita) para explorar la asociación entre los dos puede ser el lector que King editó en "Nuevos métodos de inferencia ecológica" ( publicado en su totalidad en su sitio web)
Andy W

2

No estoy seguro de que exista una respuesta bien definida en la literatura para esto, dado que la búsqueda de Google proporciona básicamente tres referencias utilizables en la estimación multivariada de áreas pequeñas. Pfeffermann (2002) analiza las variables de respuesta discreta en la sección 4 del documento, pero estos serán modelos univariados. Por supuesto, con los métodos jerárquicos bayesianos ( Rao 2003, Cap. 10 ), puedes hacer cualquier tipo de maravillas, pero si al final te encuentras simplemente replicando tus antecedentes (porque tienes muy pocos datos), esto sería terrible. resultado de su ejercicio de simulación. Además, Rao solo trata variables continuas.

Supongo que el mayor desafío será la descomposición de la matriz de covarianza en los componentes entre y dentro del área pequeña. Con una muestra del 1%, solo tendrá 3 observaciones de su SAE, por lo que puede ser difícil obtener una estimación estable del componente interno.

Si estuviera en su lugar, probaría una extensión multivariada del modelo de Pfeffermann con un efecto aleatorio multivariante del área pequeña. De hecho, puede terminar con un modelo bayesiano jerárquico para esto, si nada funciona basado en el diseño.

ACTUALIZACIÓN (para abordar el comentario de Andy a esta respuesta): los métodos de arranque para la estimación de áreas pequeñas ( Lahiri 2003 ) recrean específicamente una población plausible del estudio. Si bien el objetivo del ejercicio de arranque es estimar las variaciones de las estimaciones de área pequeña, los procedimientos deben ser de interés y relevancia para el problema publicado.


No evaluaría el estado de una literatura basada en una búsqueda en Google. No estoy seguro de que la estimación de área pequeña sea lo que el autor estaría buscando en este caso. Hasta donde entiendo, esa literatura se centra en hacer predicciones de características en áreas pequeñas ( Kriegler y Berk, 2010 ) o estimar parámetros en modelos de niveles múltiples basados ​​en un número escaso de muestras por unidad agregada.
Andy W

No estoy seguro de que la estimación de área pequeña sea lo que quiero hacer. Según tengo entendido, la estimación de área pequeña busca pasar de unas pocas muestras en un área pequeña a estadísticas resumidas agregadas. Estoy buscando lo opuesto (pasar de una distribución de población de área grande y estadísticas resumidas agregadas de área pequeña a una población de área pequeña simulada). Lahiri 2003 parece un buen punto de partida aquí.
fmark
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.