Mida la uniformidad de distribución de puntos en un cuadrado 2D


11

Tengo un cuadrado 2D y tengo un conjunto de puntos dentro, digamos, 1000 puntos. Necesito una forma de ver si la distribución de puntos dentro del cuadrado está extendida (o más o menos uniformemente distribuida) o si tienden a reunirse en algún lugar dentro del cuadrado.

Necesito una forma matemática / estadística (no de programación) para determinar esto. Busqué en Google, encontré algo como bondad de ajuste, Kolmogorov, etc., y me pregunto si hay otros enfoques para lograr esto. Necesito esto para el trabajo de clase.

Entradas: un cuadrado 2D y 1000 puntos. Salida: sí / no (sí = distribuido uniformemente, no = reuniéndose en algunos puntos).


1
No ha articulado lo suficiente precisamente lo que está "uniformemente distribuido" para usted. ¿Te refieres al cubo uniforme 2D en mosaico uniforme o algo más? Por ejemplo, cadena de puntos espaciados uniformemente? o un círculo de puntos? En cierto sentido, estas cifras también son diferenciales uniformes.
ttnphns

3
@ttnphns En este contexto, "uniforme" tiene un significado convencional bien establecido. Corresponde a un proceso de Poisson con intensidad constante. A menudo se le conoce como "CSR" completamente espacialmente aleatorio .
whuber

2
@Van Quiere investigar "procesos de puntos espaciales". Las palabras clave buenas incluyen "función Ripley K", "CSR" y "Poisson". Una referencia accesible para usted sería O'Sullivan & Unwin, Análisis de información geográfica. Un clásico es Ripley, Estadísticas Espaciales : se enfoca en procesos puntuales. Para aplicaciones, eche un vistazo rápido a CrimeStat . Si te sientes cómodo R, hay muchas herramientas para esta tarea .
whuber

Respuestas:


5

Creo que la idea de @John de una prueba de chi = cuadrado es un camino a seguir.

Desearía parches en 2-d, pero desearía probarlos usando una prueba de chi-cuadrado de 1 vía; es decir, los valores esperados para las celdas serían donde N es el número de células.1000norte

Pero es posible que un número diferente de células arroje conclusiones diferentes.

Otra posibilidad es calcular la distancia promedio entre puntos y luego comparar esto con los resultados simulados de ese promedio. Eso evita el problema de un número arbitrario de celdas.

EDITAR (más sobre la distancia promedio)

Con 1000 puntos, hay distancias por pares entre puntos. Estos se pueden calcular (usando, por ejemplo, la distancia euclidiana). Estas distancias pueden ser promediadas.10009992

Luego puede generar N (un gran número) de conjuntos de 1000 puntos que están distribuidos uniformemente. Cada uno de esos N conjuntos también tiene una distancia promedio entre puntos.

Compare los resultados de los puntos reales con los puntos simulados, ya sea para obtener un valor p o simplemente para ver dónde caen.


Estoy de acuerdo en que el chi-cuadrado de una muestra ("prueba de chi-cuadrado de acuerdo") es una de las formas razonables. ¿Pero puede dar más detalles sobre su propuesta de "distancia promedio"? No lo entendí del todo.
ttnphns

@ttnphns, los que se utilizan en el análisis espacial son la prueba de vecino más cercano (también conocida como prueba de Clark y Evans), o K. de Ripley. Consulte la estadística de biblioteca R o la documentación de CrimeStat para ver ejemplos. Otra posibilidad basada en la simulación son las pruebas de "escaneo", pero no se basan en distancias medias.
Andy W

3

Otra posibilidad es una prueba de Chi-cuadrado. Divida el cuadrado en parches no superpuestos de igual tamaño, y pruebe los recuentos de los puntos que caen en los parches contra sus recuentos esperados bajo una hipótesis de uniformidad (la expectativa de un parche es total_points / total_patches si todos son del mismo tamaño) , y aplique la prueba de chi-cuadrado. Para 1000 puntos, 9 parches deberían ser suficientes, pero es posible que desee utilizar más granularidad dependiendo de cómo se vean sus datos.


1
Creo que estás en algo, pero una bondad de ajuste de chi-cuadrado que compara los recuentos reales en cada celda con un recuento esperado de celdas iguales sería lo que querrías. El uso de una prueba de contingencia NO probaría si hubo una distribución uniforme entre sus celdas, solo si la fila dependía de la columna.
John

Además, la prueba de chi-cuadrado solo le indicaría si no fueran uniformes en las celdas que seleccionó. No te diría si fueran uniformes.
John

Sí, me refería a los recuentos en contra de sus recuentos esperados bajo una hipótesis nula de uniformidad, mis disculpas si no estaba claro. ¡Simplemente puede visualizarlo como una tabla que ayuda a comprender lo que está sucediendo para los no iniciados! Y obviamente estás limitado a probar contra las celdas que seleccionas en lugar de la uniformidad en sentido abstracto
Ben Allison

@John, típicamente cuando uno hace esta "prueba de dispersión", generalmente hace una prueba de dos lados. Si realmente quisiera ver si el patrón era más uniforme de lo esperado por casualidad, simplemente podría ver si la prueba de chi-cuadrado cayó en la cola izquierda de la distribución (en el límite que prefiera).
Andy W

Andy, debes proporcionar una respuesta que detalle esta prueba de bondad de ajuste bilateral. Por lo general, las pruebas de dos lados solo prueban dos alternativas diferentes a nulo pero aún no pueden demostrar el nulo. Tu propuesta es intrigante.
John

1

¿Por qué no usar la prueba de Kolmogorov-Smirnov? Eso es lo que haría, especialmente teniendo en cuenta que el tamaño de su muestra es lo suficientemente grande como para compensar la falta de potencia.

Alternativamente, podrías hacer alguna simulación. No es riguroso, pero proporciona alguna evidencia sobre si los datos están distribuidos uniformemente.


@whuber La extensión bidimensional del KS es bien conocida (ver aquí ). En este caso, estamos investigando si estos 1000 dibujos (coordenadas (x, y)) podrían extraerse de la distribución bidimensional uniformemente conjunta, al menos así es como leo "distribuido uniformemente". @John podría haberme expresado torpemente (ni las matemáticas ni el inglés son mis primeros idiomas) Lo que quise decir es que el valor p exacto se puede calcular usando una prueba como el KS, mientras que el valor p (o como se llame el equivalente) solo tiende asintóticamente al hacer simulaciones.


¿Por qué la simulación no sería rigurosa?
John

1
¿Podría explicar cómo se aplicaría a este conjunto de datos espaciales la prueba de KS, que está destinada a conjuntos de números reales que se supone que son resultados de una variable aleatoria continua ?
whuber

@whuber He editado mi respuesta para tratar de proporcionar respuestas para su respuesta. Mejor.
abaumann

@John He tratado de explicar lo que quise decir. Mejor.
abaumann
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.