Se puede usar una base de datos de (población, área, forma) para mapear la densidad de población asignando un valor constante de población / área a cada forma (que es un polígono como un bloque del Censo, tramo, condado, estado, lo que sea). Sin embargo, las poblaciones generalmente no están distribuidas uniformemente dentro de sus polígonos. El mapeo dasimétrico es el proceso de refinar estas estimaciones de densidad por medio de datos auxiliares. Es un problema importante en las ciencias sociales como lo indica esta revisión reciente .
Supongamos, entonces, que tenemos disponible un mapa auxiliar de la cobertura del suelo (o cualquier otro factor discreto). En el caso más simple, podemos usar áreas obviamente inhabitables como cuerpos de agua para delinear dónde no está la población y, en consecuencia, asignar toda la población a las áreas restantes. Más generalmente, cada unidad del censo está tallada en k porciones que tienen áreas de superficie x j i , i = 1 , 2 , ... , k . Nuestro conjunto de datos se aumenta así a una lista de tuplas
donde es la población (supuestamente medida sin error) en la unidad j y, aunque esto no es estrictamente el caso, podemos suponer que cada x j i también se mide exactamente. En estos términos, el objetivo es dividir cada y j en una suma
donde cada y z j i estima la población dentro de la unidad j que reside en la clase de cobertura del suelo i . Las estimaciones deben ser imparciales. Esta partición refina el mapa de densidad de población mediante la asignación de la densidad z j i / x j i a la intersección de la j ésimo polígono censo y la i ª clase de cobertura.
Este problema difiere de la configuración de regresión estándar en formas destacadas:
- La partición de cada debe ser exacta.
- Los componentes de cada partición deben ser no negativos.
- No hay (por supuesto) ningún error en ninguno de los datos: todas las poblaciones cuentan y todas las áreas x son correctas.
Hay muchos enfoques para una solución, como el método de " mapeo dasymetric inteligente ", pero todos los que he leído tienen elementos ad hoc y un potencial obvio de sesgo. Estoy buscando respuestas que sugieran métodos estadísticos creativos, manejables computacionalmente. La aplicación inmediata se refiere a una colección de c. - 10 6 Unidades censales con un promedio de 40 personas cada una (aunque una fracción considerable tiene 0 personas) y alrededor de una docena de clases de cobertura del suelo.