Ajuste de distribución a datos espaciales

Cruce la publicación de mi pregunta de mathoverflow para encontrar algunas estadísticas de ayuda específica.

Estoy estudiando un proceso físico que genera datos que se proyecta muy bien en dos dimensiones con valores no negativos. Cada proceso tiene una pista (proyectada) de puntos - ; vea la imagen a continuación. $x$ $y$

Las pistas de muestra son azules, un tipo de pista problemático se ha dibujado a mano en verde y una región de interés dibujada en rojo: pistas y región de preocupación

Cada pista es el resultado de un experimento independiente. Se han realizado veinte millones de experimentos a lo largo de varios años, pero de esos solo dos mil exhiben la característica que trazamos como una pista. Solo nos interesan los experimentos que generan una pista, por lo que nuestro conjunto de datos son las (aproximadamente) dos mil pistas.

Es posible que una pista ingrese a la región de interés, y esperamos que en el orden de en pistas lo haga. Estimar ese número es la pregunta en cuestión: $1$ $10^4$

¿Cómo podemos calcular la probabilidad de que una pista arbitraria ingrese a la región de interés?

No es posible realizar experimentos lo suficientemente rápido como para ver con qué frecuencia se generan pistas que ingresan a la región de interés, por lo que debemos extrapolar a partir de los datos disponibles.

Hemos ajustado, por ejemplo, los valores de dados , pero esto no maneja suficientemente datos como la pista verde; parece necesario tener un modelo que abarque ambas dimensiones. $x$ $y\ge200$

Hemos ajustado la distancia mínima de cada pista a la región de interés, pero no estamos convencidos de que esto esté produciendo un resultado justificable.

1) ¿Existe alguna forma conocida de ajustar una distribución a este tipo de datos para la extrapolación?

-o-

2) ¿Hay una manera obvia de utilizar estos datos para crear un modelo para generar pistas? Por ejemplo, use el análisis de componentes principales en las pistas como puntos en un espacio grande, luego ajuste una distribución (¿Pearson?) A las pistas proyectadas en esos componentes.

— Jeff Snider
fuente

No debo dar más información sobre el proceso en particular, pero actualizaré la pregunta para hablar sobre cómo se recopilan los datos.

— Jeff Snider

He actualizado el lenguaje para intentar ser más concreto. Imagina que estamos arrojando piedras a una ventana abierta del piso superior, y solo nos importa cómo las piedras que atraviesan la ventana rebotan en el piso interior. Hemos arrojado millones de guijarros, y alrededor de 2000 han pasado por la ventana. Cuando una piedra atraviesa la ventana, dibujamos una pista de su progreso a través del piso. Dado que un guijarro atraviesa la ventana, queremos estimar la probabilidad de que atraviese la región de interés.

— Jeff Snider

Parece que quiere simular la formación de pistas y luego realizar una simulación de Monte Carlo para ver cuántas pistas caen en la región roja. Para hacer esto, primero convertiría las líneas en dos funciones, una que da la dirección y la otra distancia de un punto al siguiente en esa pista. Ahora puede estudiar las distribuciones de probabilidad asociadas con esas dos funciones. Por ejemplo, puede encontrar que la distancia recorrida sigue una distribución específica (tenga cuidado de que la distribución no cambie con el tiempo). Si cualquiera de las variables cambia con el tiempo, entonces debe profundizar en el análisis de series de tiempo (no es mi campo, lo siento).

Otro pensamiento que viene a la mente es que, dado que la dirección del movimiento en xy cambia gradualmente en la mayoría de las pistas, es mejor que examine el cambio de dirección frente al tiempo de las pistas.

También deberá estimar la probabilidad de que una pista comience en una determinada coordenada xy con una dirección dada. Es posible que desee considerar el uso de la estimación de densidad del kernel para suavizar el PDF resultante o, si parece seguir una distribución para la cual existe un modelo analítico, entonces la maximización de expectativas podría usarse para ajustar esa distribución a los datos.

La simulación de Monte Carlo luego tomaría muestras aleatorias de estas distribuciones para simular las formas de las pistas. Luego debe simular una gran cantidad de pistas y ver con qué frecuencia esas pistas pasan a través de la región roja. Esto podría ser miles o millones de pistas, tendrá que experimentar para ver cuándo la distribución deja de cambiar a medida que agrega más pistas.

— chippies
fuente