¿Cómo encontrar relaciones entre diferentes tipos de eventos (definidos por su ubicación 2D)?

Tengo un conjunto de datos de eventos que ocurrieron durante el mismo período de tiempo. Cada evento tiene un tipo (hay pocos tipos diferentes, menos de diez) y una ubicación, representada como un punto 2D.

Me gustaría verificar si existe alguna correlación entre los tipos de eventos, o entre el tipo y la ubicación. Por ejemplo, tal vez los eventos de tipo A generalmente no ocurren donde ocurren los eventos de tipo B. O tal vez en alguna área, en su mayoría hay eventos de tipo C.

¿Qué tipo de herramientas podría usar para realizar esto? Al ser un novato en el análisis estadístico, mi primera idea fue utilizar algún tipo de PCA (Análisis de componentes principales) en este conjunto de datos para ver si cada tipo de evento tenía su propio componente, o tal vez algunos compartieron el mismo (es decir, estaban correlacionados).

Tengo que mencionar que mi conjunto de datos es del orden de 500,000 puntos , lo que hace que las cosas sean un poco más difíciles de manejar. $(x, y, type)$

EDITAR: Como se señala en las respuestas a continuación y en los comentarios, el camino a seguir es modelar esto como un proceso de puntos marcados, y luego usar R para hacer todo el trabajo pesado, como se explica en detalles en este informe del taller: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai
fuente

¿Es este un conjunto de datos ráster, como una imagen (procesada) detectada remotamente, o es un conjunto de datos irregular?

— whuber

Bueno, creo que lo llamarías irregular: son grabaciones de crímenes que ocurrieron en el Reino Unido durante un mes determinado, disponibles aquí: police.uk/data .

— Wookai

@Wookai ¿500,000,000 crímenes en el Reino Unido en un mes ? ¿La anarquía ha descendido a las Islas Británicas sin ser reportada por la prensa, y finalmente fue revelada en los archivos policiales? :-) Podría creer aproximadamente 1/100 de esa cantidad, apenas.

— whuber

Wow, lo siento mucho por este "error tipográfico";)! En realidad, es 1000 veces menos, 500'000 delitos (contando "delitos de vehículos", es decir, multas de velocidad, etc.).

— Wookai

Sí, R mira el camino a seguir! Encontré un informe muy completo de un taller sobre el módulo de statstat de R, que hace exactamente lo que estoy buscando: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai

Respuestas:

El tipo de datos que describe usualmente se llama "patrones de puntos marcados", R tiene una vista de tareas para estadísticas espaciales que ofrece muchos paquetes buenos para este tipo de análisis, la mayoría de los cuales probablemente no puedan manejar el tipo de datos gigantescos que tener :(

Por ejemplo, tal vez los eventos de tipo A generalmente no ocurren donde ocurren los eventos de tipo B. O tal vez en alguna área, en su mayoría hay eventos de tipo C.

Estos son dos tipos de preguntas bastante diferentes: la segunda pregunta sobre el posicionamiento de un tipo de marca / evento. Las palabras de moda que se deben buscar en este contexto son la estimación de intensidad de fe o la estimación de la función K si está interesado en descubrir patrones de agrupamiento (los eventos de un tipo tienden a agruparse) o la repulsión (los eventos de un tipo tienden a estar separados). La primera pregunta sobre la correlación entre los diferentes tipos de eventos. Esto generalmente se mide con funciones de correlación de marca.

Creo que submuestrear los datos para obtener un tamaño de datos más manejable es peligroso (vea el comentario a la respuesta de @ hamner), pero tal vez podría agregar sus datos: divida la ventana de observación en un número manejable de celdas de igual tamaño y tabule los recuentos de eventos en cada. Luego, cada celda se describe por la ubicación de su centro y un vector de 10 recuentos para sus 10 tipos de marca. Debería poder utilizar los métodos estándar para los procesos de puntos marcados en este proceso agregado.

— fabians
fuente

Estoy familiarizado con los procesos de puntos marcados y algunas herramientas teóricas relacionadas, debería haber pensado en esto antes. Muchas gracias por las palabras clave, ¿quizás tenga algunos consejos para esto? Gracias también por la idea de agregación, tuve una similar, intentaré hacer esto.

— Wookai

Peter Diggle ha escrito una "geoestadística basada en modelos". También tiene un análisis de los datos delictivos de Lancashire en esta página: lancs.ac.uk/staff/diggle/MADE que podrían darle algunas buenas ideas.

— Fabians

Primero, el tamaño del conjunto de datos. Recomiendo tomar muestras pequeñas y manejables del conjunto de datos (ya sea eligiendo aleatoriamente N puntos de datos o eligiendo aleatoriamente varios rectángulos relativamente pequeños en el plano XY y tomando todos los puntos que caen dentro de ese plano) y luego perfeccionando sus técnicas de análisis en este subconjunto. Una vez que tenga una idea de la forma de análisis que funciona, puede aplicarla a porciones más grandes del conjunto de datos.

PCA se utiliza principalmente como una técnica de reducción de dimensionalidad; su conjunto de datos tiene solo tres dimensiones (una de las cuales es categórica), por lo que dudo que se aplique aquí.

Intente trabajar con Matlab o R para visualizar los puntos que está analizando en el plano XY (o su densidad relativa si trabaja con todo el conjunto de datos), tanto para tipos individuales como para todos los tipos combinados, y ver qué patrones emergen visualmente. Eso puede ayudar a guiar un análisis más riguroso.

— benhamner
fuente

Si esto es apropiado depende de lo que ya sabe o asume sobre su proceso de generación de datos. Submuestrear los datos por región (es decir, tomar todos los puntos en una ventana más pequeña predefinida) puede ser peligroso si no es homogéneo (porque usar una ventana diferente habría cambiado sus conclusiones). El muestreo de los datos sin tener en cuenta el posicionamiento de un conjunto de entrenamiento tiene el efecto de "diluir" el proceso observado e invalida las conclusiones sobre las que podría desear, por ejemplo, el rango de correlaciones entre las marcas o los procesos de agrupación / repulsión.

— Fabians

Sí, sé que PCA es para la reducción de dimensionalidad, es por eso que estaba confundido acerca de cómo podría aplicarlo a mi conjunto de datos. La idea era ver si cada tipo de evento tenía su propia "dirección", o si algunos "compartían la misma dirección". Pero supongo que simplemente estaba pensando en la correlación.

— Wookai