Cruce la publicación de mi pregunta de mathoverflow para encontrar algunas estadísticas de ayuda específica.
Estoy estudiando un proceso físico que genera datos que se proyecta muy bien en dos dimensiones con valores no negativos. Cada proceso tiene una pista (proyectada) de puntos - ; vea la imagen a continuación.y
Las pistas de muestra son azules, un tipo de pista problemático se ha dibujado a mano en verde y una región de interés dibujada en rojo:
Cada pista es el resultado de un experimento independiente. Se han realizado veinte millones de experimentos a lo largo de varios años, pero de esos solo dos mil exhiben la característica que trazamos como una pista. Solo nos interesan los experimentos que generan una pista, por lo que nuestro conjunto de datos son las (aproximadamente) dos mil pistas.
Es posible que una pista ingrese a la región de interés, y esperamos que en el orden de en pistas lo haga. Estimar ese número es la pregunta en cuestión:10 4
¿Cómo podemos calcular la probabilidad de que una pista arbitraria ingrese a la región de interés?
No es posible realizar experimentos lo suficientemente rápido como para ver con qué frecuencia se generan pistas que ingresan a la región de interés, por lo que debemos extrapolar a partir de los datos disponibles.
Hemos ajustado, por ejemplo, los valores de dados , pero esto no maneja suficientemente datos como la pista verde; parece necesario tener un modelo que abarque ambas dimensiones.y ≥ 200
Hemos ajustado la distancia mínima de cada pista a la región de interés, pero no estamos convencidos de que esto esté produciendo un resultado justificable.
1) ¿Existe alguna forma conocida de ajustar una distribución a este tipo de datos para la extrapolación?
-o-
2) ¿Hay una manera obvia de utilizar estos datos para crear un modelo para generar pistas? Por ejemplo, use el análisis de componentes principales en las pistas como puntos en un espacio grande, luego ajuste una distribución (¿Pearson?) A las pistas proyectadas en esos componentes.