Modelo para la estimación de la densidad de población.

Se puede usar una base de datos de (población, área, forma) para mapear la densidad de población asignando un valor constante de población / área a cada forma (que es un polígono como un bloque del Censo, tramo, condado, estado, lo que sea). Sin embargo, las poblaciones generalmente no están distribuidas uniformemente dentro de sus polígonos. El mapeo dasimétrico es el proceso de refinar estas estimaciones de densidad por medio de datos auxiliares. Es un problema importante en las ciencias sociales como lo indica esta revisión reciente .

Supongamos, entonces, que tenemos disponible un mapa auxiliar de la cobertura del suelo (o cualquier otro factor discreto). En el caso más simple, podemos usar áreas obviamente inhabitables como cuerpos de agua para delinear dónde no está la población y, en consecuencia, asignar toda la población a las áreas restantes. Más generalmente, cada unidad del censo está tallada en porciones que tienen áreas de superficie , . Nuestro conjunto de datos se aumenta así a una lista de tuplas $j$ $k$ $x_{ji}$ $i = 1, 2, \ldots, k$

(y_{j}, x_{j 1}, x_{j 2}, \dots, x_{j k})

$(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk})$

donde es la población (supuestamente medida sin error) en la unidad y, aunque esto no es estrictamente el caso, podemos suponer que cada también se mide exactamente. En estos términos, el objetivo es dividir cada en una suma $y_{j}$ $j$ $x_{ji}$ $y_{j}$

y_{j} = z_{j 1} + z_{j 2} + \dots + z_{j k}

$y_j = z_{j1} + z_{j2} + \cdots + z_{jk}$

donde cada y estima la población dentro de la unidad reside en la clase de cobertura del suelo . Las estimaciones deben ser imparciales. Esta partición refina el mapa de densidad de población mediante la asignación de la densidad a la intersección de la polígono censo y la clase de cobertura. $z_{ji} \ge 0$ $z_{ji}$ $j$ $i$ $z_{ji}/x_{ji}$ $j^{\text{th}}$ $i^{\text{th}}$

Este problema difiere de la configuración de regresión estándar en formas destacadas:

La partición de cada debe ser exacta. $y_{j}$
Los componentes de cada partición deben ser no negativos.
No hay (por supuesto) ningún error en ninguno de los datos: todas las poblaciones cuentan y todas las áreas $y_{j}$ son correctas. $x_{ji}$

Hay muchos enfoques para una solución, como el método de " mapeo dasymetric inteligente ", pero todos los que he leído tienen elementos ad hoc y un potencial obvio de sesgo. Estoy buscando respuestas que sugieran métodos estadísticos creativos, manejables computacionalmente. La aplicación inmediata se refiere a una colección de c. - Unidades censales con un promedio de 40 personas cada una (aunque una fracción considerable tiene 0 personas) y alrededor de una docena de clases de cobertura del suelo. $10^{5}$ $10^{6}$

modeling unbiased-estimator spatial

— whuber
fuente

Problema de formato ahora corregido. Fue un error

— Rob Hyndman

@Rob Gracias, y gracias a todas las personas que vieron esto: vi sus comentarios antes de que fueran eliminados y estoy agradecido por sus esfuerzos.

— whuber

También este: P. A Zandbergen y D. A Ignizio, “Comparación de técnicas de mapeo dasimétrico para estimados de población de área pequeña”, Cartografía e información geográfica, 37, no. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… Lo que parece requerir una mezcla.

— fgregg

Este documento podría ser útil: Hwahwan Kim y Xiaobai Yao, "Interpolación pirofiláctica revisitada: integración con el método de mapeo dasimétrico", International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805

— fgregg

Ya sabes, el mapeo dasimétrico en última instancia como un problema de inferencia ecológica. El trabajo reciente de K. Imai podría ser útil: pan.oxfordjournals.org/content/16/1/41.abstract

— fgregg

Respuestas:

Es posible que desee comprobar el trabajo de Mitchel Langford en el mapeo dasimétrico.

Construye rásteres que representan la distribución de la población de Gales y algunos de sus enfoques metodológicos podrían ser útiles aquí.

Actualización: También puede echar un vistazo al trabajo de Jeremy Mennis (especialmente estos dos artículos).

— radek
fuente

Gracias. Ese trabajo proporciona un puntero a una red de investigaciones recientes sobre mapeo dasimétrico.

— whuber

$x_{ji}$ . Denota esta relación de la siguiente manera:

$z_{ji} = f(x_{ji},\beta)$

$f(.)$ Será, en el mejor de los casos, una aproximación a la relación real y, por lo tanto, la necesidad de incorporar el error en la ecuación anterior. Por lo tanto, lo anterior se convierte en:

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

dónde,

$\epsilon_{ji} \sim N(0,\sigma^2)$

La suposición de error de distribución en el término de error tiene fines ilustrativos. Si es necesario, podemos cambiarlo según corresponda.

$y_{ji}$ $f(.)$

$\sum_i{\epsilon_{ji}} = 0$

$\sum_i{f(x_{ji},\beta)} = y_j$

Denote el vector apilado de ${z_{ji}}$ por $z_j$ y los términos deterministas apilados de ${f(x_{ji},\beta)}$ por $f_j$ . Por lo tanto, tenemos:

$z_j \sim N(f_j,\sigma^2 I) I({f_j}' e = y_j) I((z_j-f_j)' e = 0)$

where,

$e$ is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to $y_j$ and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed $y_j$ exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of $\sigma^2$ .

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

where,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Denote the stacked vector of ${z_{ji}}$ by $z_j$ and the stacked deterministic terms of ${f(x_{ji},\beta)}$ by $f_j$ . Thus, we have:

$z_j \sim N(f_j,\sigma^2 I) I({z_j}' e = y_j)$

where,

$e$ is a vector of ones of appropriate dimension.

The constraint on $z_j$ ensures an exact decomposition.

@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.

— whuber