Prueba de hipótesis y distancia de variación total vs. divergencia Kullback-Leibler

En mi investigación me he encontrado con el siguiente problema general: tengo dos distribuciones $P$ y $Q$ sobre el mismo dominio, y una gran cantidad (pero finita) de muestras de esas distribuciones. Las muestras se distribuyen de forma independiente e idéntica a partir de una de estas dos distribuciones (aunque las distribuciones pueden estar relacionadas: por ejemplo, $Q$ puede ser una mezcla de $P$ y alguna otra distribución). La hipótesis nula es que las muestras provienen de $P$ , la hipótesis alternativa es que muestras provienen de $Q$ .

Estoy tratando de caracterizar el tipo I y tipo II errores en la prueba de la muestra, a sabiendas de las distribuciones $P$ y $Q$ . En particular, estoy interesado en que delimita un error dado a la otra, además del conocimiento de $P$ y $Q$ .

Hice una pregunta sobre matemáticas. SE con respecto a la relación de la distancia de variación total entre $P$ y $Q$ con la prueba de hipótesis, y recibí una respuesta que acepté. Esa respuesta tiene sentido, pero todavía no he podido entender el significado más profundo detrás de la relación de la distancia de variación total y la prueba de hipótesis en relación con mi problema. Por lo tanto, decidí recurrir a este foro.

Mi primera pregunta es: ¿está la variación total ligada a la suma de las probabilidades de los errores de Tipo I y Tipo II independientemente del método de prueba de hipótesis que uno emplea? En esencia, siempre que haya una probabilidad distinta de cero de que la muestra pueda haber sido generada por cualquiera de las distribuciones, la probabilidad de al menos uno de los errores debe ser distinta de cero. Básicamente, no puede escapar a la posibilidad de que su probador de hipótesis cometa un error, sin importar cuánto procesamiento de señal realice. Y la variación total limita esa posibilidad exacta. ¿Es correcto mi entendimiento?

También hay otra relación entre los errores de Tipo I y II y las distribuciones de probabilidad subyacentes y : la divergencia KL . Por lo tanto, mi segunda pregunta es: ¿la unión de la divergencia KL solo es aplicable a un método de prueba de hipótesis específico (parece surgir mucho del método de relación de probabilidad logarítmica) o puede aplicarse en general a todos los métodos de prueba de hipótesis? Si es aplicable a todos los métodos de prueba de hipótesis, ¿por qué parece ser tan diferente del límite de variación total? ¿Se comporta de manera diferente? $P$ $Q$

Y mi pregunta subyacente es: ¿hay un conjunto de circunstancias prescritas en las que debería usar cualquiera de los límites, o es puramente una cuestión de conveniencia? ¿Cuándo se debe derivar el resultado usando una retención enlazada usando la otra?

Pido disculpas si estas preguntas son triviales. Soy un científico de la computación (así que esto me parece un problema elegante de comparación de patrones :).) Conozco la teoría de la información razonablemente bien, y también tengo experiencia en teoría de la probabilidad. Sin embargo, apenas estoy empezando a aprender todo este material de prueba de hipótesis. Si es necesario, haré todo lo posible para aclarar mis preguntas.

— MBM
fuente

Respuestas:

Literatura: La mayor parte de la respuesta que necesita está ciertamente en el libro de Lehman y Romano . El libro de Ingster y Suslina trata temas más avanzados y puede darle respuestas adicionales.

$L_1$ $TV$ $n$ $L_1$

Desarrollo: denotémonos por

$g_1(\alpha_0,P_1,P_0)$ $\leq\alpha_0$ $P_0$ $P_1$
$g_2(t,P_1,P_0)$ $t$ $(1-t)$ $P_0$ $P_1$

$L_1$ $L_1$ $L_1$ $TV$

$L_1$ $\chi^2$ $P_1$ $P_0$ $P_i=p_i^{\otimes n}$ $i=0,1$ $p_1$ $p_0$ $n$ $h(P_1,P_0)$ $h(p_1,p_0)$ $KL$ $\chi^2$ $L_1$

$A_1(\nu_1,\nu_0)$ $\nu_1$ $\nu_2$

A_{1} (ν_{1}, ν_{0}) = \int min (d ν_{1}, d ν_{0})

$A_1(\nu_1,\nu_0)=\int \min(d\nu_1,d\nu_0)$

Teorema 1 Si(la mitad de la televisión dist), entonces $|\nu_1-\nu_0|_1=\int|d\nu_1-d\nu_0|$

$2A_1(\nu_1,\nu_0)=\int (\nu_1+\nu_0)-|\nu_1-\nu_0|_1$ .
$g_1(\alpha_0,P_1,P_0)=\sup_{t\in [0,1/\alpha_0]} \left ( A_1(P_1,tP_0)-t\alpha_0 \right )$
$g_2(t,P_1,P_0)=A_1(t P_0,(1-t)P_1)$

Escribí la prueba aquí .

Teorema 2 Para distribuciones de probabilidad y : $P_1$ $P_0$

\frac{1}{2} | P_{1} - P_{0} |_{1} \leq h (P_{1}, P_{0}) \leq \sqrt{K (P_{1}, P_{0})} \leq \sqrt{χ^{2} (P_{1}, P_{0})}

$\frac{1}{2}|P_1-P_0|_1\leq h(P_1,P_0)\leq \sqrt{K(P_1,P_0)} \leq \sqrt{\chi^2(P_1,P_0)}$

Estos límites se deben a varios estadísticos conocidos (LeCam, Pinsker, ...). es la distancia de Hellinger, la divergencia KL y la divergencia chi-cuadrado. Todos están definidos aquí . y se dan las pruebas de estos límites (se pueden encontrar más cosas en el libro de Tsybacov ). También hay algo que es casi un límite inferior de por Hellinger ... $h$ $K$ $\chi^2$ $L_1$

— robin girard
fuente

Gracias por la respuesta, ahora estoy tratando de digerirlo. En mi problema, he permitido el error Tipo I. También tengo las dos distribuciones y . Sé que la televisión entre ellos (así como KL). Entonces, lo que está diciendo es que la TV ofrece un límite inferior más estrecho en el error de Tipo II que KL, lo que significa que debería usar la TV para mi análisis si deseo un límite inferior lo más ajustado posible.

P_{0}

$P_0$

P_{1}

$P_1$

— MBM

Y gracias por la sugerencia del libro de Lehmann y Romano, se ve muy útil y no demasiado para mí. ¡Además, mi biblioteca posee una copia! :)

— MBM

@Bullmoose lo que dice el Teorema 1 aquí es que la TV (o L1) está relacionada con la igualdad con que está relacionada con la igualdad con g_2 o g_1 (la suma mínima de errores o error tipo II con tipo controlado I). No hay desigualdades aquí. Las desigualdades se producen cuando necesitas pasar de L1 a Kullback.

A_{1}

$A_1$

— robin girard

Desafortunadamente, solo tengo antecedentes mínimos en la teoría de la medida. Creo que entiendo qué son y , pero no tengo claro . Digamos que tengo dos distribuciones gaussianas. El televisor (o L1) entre ellos es Pero, ¿cuál sería ? Por definición, parece ...

g_{1}

$g_1$

g_{2}

$g_2$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} | \frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}} - \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}} | d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\left|\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1}-\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right|dx$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} min (\frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}}, \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}}) d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\min\left(\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1},\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right)dx$

— MBM

... pero ¿cómo a esto desde la primera viñeta del teorema?

\int (ν_{1} + ν_{2})

$\int (\nu_1+\nu_2)$

— MBM

Responda a su primera pregunta: Sí, uno menos la distancia de variación total es un límite inferior en la suma de las tasas de error Tipo I + Tipo II. Este límite inferior se aplica sin importar el algoritmo de prueba de hipótesis que elija.

Justificación: La respuesta que obtuvo en Math.SE proporciona la prueba estándar de este hecho. Arreglar una prueba de hipótesis. Supongamos que denota el conjunto de resultados en los que esta prueba rechazará la hipótesis nula (dicho conjunto siempre debe existir). Luego, el cálculo en la respuesta Math.SE prueba el límite inferior. $A$

(Hablando estrictamente, esta línea de razonamiento asume que su prueba de hipótesis es un procedimiento determinista. Pero incluso si considera procedimientos aleatorios, es posible demostrar que el mismo límite todavía se aplica).

— DW
fuente