¿Cómo agrupar puntos en función de la densidad del núcleo?


10

Tengo un gran conjunto de datos con 36k puntos que representan usos comerciales de la tierra, cada uno con un campo que contiene los pies cuadrados. He realizado un análisis de densidad de kernel en este conjunto de datos, produciendo un ráster que muestra la densidad de pies cuadrados comerciales en toda el área metropolitana. Necesito dividir este ráster en regiones correspondientes a máximos locales, lo que llamo un "centro". Ya he determinado la ubicación de los centros, y ahora necesito hacer una de dos cosas:

  • use una herramienta de agrupación de puntos, como "particionar alrededor de medoides", para agrupar los puntos en grupos alrededor de los centros que he identificado. El problema con este método es que es computacionalmente intenso, y aún más si trato de usar una matriz de disimilitud para ponderar los puntos por tamaño.

  • de alguna manera divida el ráster de densidad de grano (que se asemeja más o menos a un ráster de terreno) en "colinas" individuales alrededor de cada centro. Pero no se me ocurre ninguna herramienta para hacer esto.

Este problema me ha atormentado por un tiempo, y esperaba poder realizar el método de agrupamiento en R, pero lleva mucho tiempo y se me está acabando el tiempo. ¿Alguien sabe de un método simple para dividir los rásteres de densidad en vecindades de intensidad o para agrupar rápidamente grandes conjuntos de datos?


1
Esta pregunta está estrechamente relacionada: stats.stackexchange.com/questions/13995/…
whuber

1
Y también publicado por mí, como resulta.
Patrick

que sería 1 pt a Patrick creo .....
Bcomenzará

Respuestas:


6

La discusión que siguió a una publicación estrechamente relacionada reveló una solución simple y efectiva : encontrar las "colinas", poner la cuadrícula al revés (negando sus valores) y encontrar cuencas hidrográficas. Las colinas son sumideros y los límites de las cuencas hidrográficas dividen la cuadrícula en esos sumideros.


Esta solución es simple, rápida y exactamente lo que estaba buscando. Gracias.
Patrick

3

La respuesta más simple sería usar un umbral para enmascarar las áreas que caen por debajo del umbral. Esto debería darle áreas distintas que rodean sus centros. Entonces debería ser capaz de convertir esas áreas en formas.

También puede encontrar herramientas de estadísticas espaciales: el análisis de agrupamiento en datos ráster es una discusión útil sobre un problema similar.


Sí, esa es una discusión muy relevante! Estoy leyendo su tesis de maestría y probaré algunos de los métodos.
Patrick

2
El uso de un umbral probablemente no funcionará aquí, ya que estoy tratando de distinguir los centros de otros centros adyacentes. En el núcleo de la ciudad, el límite entre los dos tendrá una densidad muy alta, pero en la periferia, tendrá una densidad muy baja. Pero espero que el uso de la segunda derivada sea efectivo.
Patrick

3

Creo que debería volver a su problema inicial: encontrar grupos de metros cuadrados comerciales en toda una región metropolitana.

¿Supongo que sus puntos son centroides de parcelas con valores de pies cuadrados comerciales? ¿Supongo que también puede tener una capa poligonal de parcelas con pies cuadrados totales para cada parcela? Eso le proporciona un conjunto de casos (los centroides) y una población (los polígonos de parcelas) para comerciales de pies cuadrados y pies cuadrados respectivamente.

Vaya a buscar SatScan http://www.satscan.org/ y ejecute un modelo distribuido solo por Poisson y tendrá sus grupos de pies cuadrados comerciales en un orden bastante rápido. (También puede usar pies cuadrados de tierra como población también en lugar de pies cuadrados de espacio de construcción. Esa podría incluso ser la mejor población).


Tiene razón en que los puntos son centroides, pero desafortunadamente el conjunto de datos fue compilado por otros de la capa de parcelas de cada condado y solo se distribuyó como puntos. Pero SatScan parece un software muy útil, por lo que lo tendré en cuenta para otras aplicaciones.
Patrick
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.