¿Determinar el umbral óptimo de la regla de decisión binaria a partir de observaciones con antecedentes desconocidos?

8

Dadas solo las observaciones de una señal binaria perturbada por ruido gaussiano con información previa desconocida, ¿cómo puedo estimar el umbral de decisión óptimo?

(No, esta no es una pregunta de tarea)

Específicamente, pienso en el siguiente modelo: $Y$ es una variable aleatoria de dos estados $(H_0,H_1)$ :

$P(Y|H_0) \sim \mathcal N(\mu_0,\sigma)$
$P(Y|H_1) \sim \mathcal N(\mu_1,\sigma),\quad \mu_0 < \mu_1$
$P(H_0) = \pi_0$
$P(H_1) = 1-\pi_0$

con parámetros desconocidos : . $\mu_0, \mu_1, \sigma, \pi_0$

El umbral de probabilidad de registro máximo a posteriori podría calcularse a partir de esos parámetros si los conociera. Originalmente estaba pensando en cómo estimar los parámetros primero para llegar al umbral . Pero estoy pensando que puede ser más robusto estimar directamente . $Y_t$ $Y_t$

Pensamientos: la normalización de las observaciones (restando la media de la muestra y dividiendo por la desviación estándar) reduce el espacio de parámetros en 2 dimensiones: y $\pi_0$ . $\frac \sigma{\mu_1-\mu_0}$

— Mark Borgerding
fuente

Este problema sería mucho más fácil si pudieras asumir que Pi0 fue 0.5. :-)

— Jim Clay

Podría ser un poco esta pregunta relacionada con estos: stackoverflow.com/questions/1504378/... o stackoverflow.com/questions/5451089/...

— hotpaw2

¿Existe una secuencia de entrenamiento de observaciones disponible para estimar las medias, las variaciones, etc.? ¿O simplemente se le da una secuencia de datos en la que algunos valores son de

y algunos de

pero no sabe cuál es cuál?

H_{0}

$H_0$

H_{1}

$H_1$

— Dilip Sarwate

6

Mi intuición es que sería difícil obtener el umbral de decisión correcto que espera encontrar:

τ = \frac{1}{2} (μ_{0 0} + μ_{1}) - \frac{σ^{2}}{‖ μ_{0 0} - μ_{1} ‖^{2}} Iniciar sesión \frac{π}{1 - π} (μ_{0 0} - μ_{1})

$\tau = \frac{1}{2}\left(\mu_0 + \mu_1\right) - \frac{\sigma^2}{\lVert\mu_0 - \mu_1\rVert^2} \log \frac{\pi}{1 - \pi}\left(\mu_0 - \mu_1\right)$

De las estadísticas globales que está considerando (media de la muestra: ; desviación estándar: expresión más compleja pero dudo que implique un registro). $\pi \mu_0 + (1 - \pi) \mu_1$

Abordaría el problema de esta manera:

Si se puede suponer que es pequeño $\sigma$

Menciono eso, porque tenga en cuenta que el umbral de decisión se ve afectado por solo si es lo suficientemente alto como para permitir que ambas clases se superpongan. Si los están distantes en más de unos pocos , ¡las probabilidades previas de clase no tienen nada que decir en el proceso de decisión! $\pi$ $\sigma$ $\mu$ $\sigma$
- Ejecute k-means en sus observaciones ( es pequeño y es compartido por ambas clases, por lo que k-means es en este caso EM para el modelo de mezcla). Si solo desea binarizar estas observaciones y no otros datos, puede detenerse aquí. $\sigma$
- Si tiene nuevas observaciones para binarizar, y sabe que se generan por el mismo proceso, puede usar los centroides de clase encontrados por k-means en sus datos de entrenamiento como estimaciones de , y usar el medio como umbral de decisión. $\mu$
Si no se puede hacer una suposición acerca de $\sigma$
- Ejecute el algoritmo EM (con covarianza diagonal agrupada) en sus datos de entrenamiento. Use las variables inferidas "membresía de clase blanda" para binarizar sus observaciones.
- Calcule el umbral de decisión partir de los parámetros dados por EM para binarizar nuevos datos generados por el mismo proceso. $\tau$

— pichenettes
fuente

2

Para resumir, tiene dos distribuciones con parámetros desconocidos y una medición que puede haberse originado de cualquier proceso estocástico. Esto generalmente se conoce como un problema de asociación de datos y es muy común y ampliamente estudiado dentro de la comunidad de seguimiento. Puede considerar usar un filtro de asociación de datos de probabilidad (PDAF) o un algoritmo de seguimiento de hipótesis múltiples (MHT). Esto debería proporcionarle estimaciones de la media y la varianza para cada distribución.
Alternativamente, dado que su ruido es blanco y gaussiano, ML, MAP y MMSE son todos equivalentes y se pueden encontrar minimizando el error cuadrático medio (función de costo), como se describe efectivamente en la respuesta anterior. Usaría un enfoque de programación dinámica para encontrar el mínimo de la función de costo. Esto debería ser menos complejo (computacionalmente) que los métodos EM / clustering descritos anteriormente. Un comentario más: el PDAF es recursivo. Dado el modelo de señal simple, debería funcionar de manera muy efectiva y lo que espero es una fracción de la complejidad computacional del algoritmo EM. Buena suerte

— Brant Jameson
fuente

1

Hay un algoritmo de mediados de la década de 1980 de Kittler e Illingworth llamado "Umbral de error mínimo" que resuelve este problema para las distribuciones gaussianas. Recientemente Mike Titterington (Universidad de Glasgow) y JH Xue (ahora en UCL) han puesto esto en un marco estadístico más formal, ver sus publicaciones conjuntas en revistas.

— servicial
fuente