Estoy usando Bayes para resolver un problema de agrupamiento. Después de hacer algunos cálculos termino con la necesidad de obtener la razón de dos probabilidades:
para poder obtener . Estas probabilidades se obtienen mediante la integración de dos KDE multivariados 2D diferentes como se explica en esta respuesta :
donde y son los KDE y la integración se realiza para todos los puntos por debajo de los umbrales y . Ambos KDE utilizan un núcleo gaussiano . Aquí se puede ver una imagen representativa de un KDE similar a las que estoy trabajando: Integrando el estimador de densidad del núcleo en 2D .
Calculo los KDE por medio de una python
función stats.gaussian_kde , por lo que asumo la siguiente forma general:
donde n
es la longitud de mi conjunto de puntos y h
es el ancho de banda utilizado.
Las integrales anteriores se calculan aplicando un proceso de Monte Carlo que es bastante costoso computacionalmente. Leí en alguna parte (olvidé dónde, lo siento) que en casos como este es posible reemplazar la razón de probabilidades por la razón de PDF (KDE) evaluados en los puntos de umbral para obtener resultados igualmente válidos. Estoy interesado en esto porque calcular la relación de KDE es un orden de magnitud más rápido que calcular la relación de las integrales con MC.
Entonces la pregunta se reduce a la validez de esta expresión:
¿En qué circunstancias, si las hay, puedo decir que esta relación es verdadera?
[error tipográfico fijo (EDITAR)]
Añadir :
Aquí está básicamente la misma pregunta pero hecha en una forma más matemática .
P(X)
cuál es el valor que estoy tratando de evitar calcular. ¿Podría ampliar un poco la relevancia de ese parámetro?