¿Preguntas sobre la divergencia de KL?

14

Estoy comparando dos distribuciones con la divergencia KL que me devuelve un número no estandarizado que, según lo que leí sobre esta medida, es la cantidad de información que se requiere para transformar una hipótesis en la otra. Tengo dos preguntas:

a) ¿Hay alguna manera de cuantificar una divergencia KL para que tenga una interpretación más significativa, por ejemplo, como un tamaño de efecto o un R ^ 2? ¿Alguna forma de estandarización?

b) En R, cuando se usa KLdiv (paquete flexmix), se puede establecer el valor 'esp' (estándar esp = 1e-4) que establece todos los puntos más pequeños que esp en algún estándar para proporcionar estabilidad numérica. He estado jugando con diferentes valores esp y, para mi conjunto de datos, obtengo una divergencia KL cada vez más grande cuanto menor es el número que elijo. Que esta pasando? Esperaría que cuanto más pequeño sea el esp, más confiables serán los resultados ya que permiten que más 'valores reales' se conviertan en parte de la estadística. ¿No? Tengo que cambiar el esp ya que de lo contrario no calcula la estadística, sino que simplemente aparece como NA en la tabla de resultados ...

distributions kullback-leibler information-geometry

— Amplio
fuente

10

Suponga que recibe n muestras de IID generadas por p o por q. Desea identificar qué distribución los generó. Tome como hipótesis nula que fueron generados por q. Deje a indicar la probabilidad de error de Tipo I, rechazando erróneamente la hipótesis nula, yb indique la probabilidad de error de Tipo II.

Entonces, para n grande, la probabilidad de error de Tipo I es al menos

$\exp(-n \text{KL}(p,q))$

En otras palabras, para un procedimiento de decisión "óptimo", la probabilidad de Tipo I cae como máximo por un factor de exp (KL (p, q)) con cada punto de datos. El error tipo II cae por factor de como máximo. $\exp(\text{KL}(q,p))$

Para arbitraria n, ayb están relacionados de la siguiente manera

$b \log \frac{b}{1-a}+(1-b)\log \frac{1-b}{a} \le n \text{KL}(p,q)$

y

$a \log \frac{a}{1-b}+(1-a)\log \frac{1-a}{b} \le n \text{KL}(q,p)$

Si expresamos el límite anterior como el límite inferior en a en términos de b y KL y disminuimos b a 0, el resultado parece aproximarse al límite "exp (-n KL (q, p))" incluso para pequeños n

Más detalles en la página 10 aquí , y en las páginas 74-77 de "Teoría de la información y estadísticas" de Kullback (1978).

Como nota al margen, esta interpretación puede usarse para motivar la métrica de información de Fisher, ya que para cualquier par de distribuciones p, q a la distancia k de Fisher entre sí (pequeña k) necesita la misma cantidad de observaciones para distinguirlas

— Yaroslav Bulatov
fuente

1

+1 ¡Me gusta esta interpretación! ¿podría aclarar "p debajo de e"? ¿Por qué tomas e pequeña? dices "la probabilidad de cometer el error opuesto es" ¿es un límite superior o una probabilidad exacta? Si recuerdo, este tipo de enfoque se debe a Chernoff, ¿tiene las referencias (creo que su primera referencia no aclara el punto :))?

— robin girard

1

¿Por qué tomo una pequeña e ... hmm ... eso es lo que hizo el artículo de Balasubramanian, pero ahora, volviendo a Kullback, parece que su límite vale para cualquier e, y también da límite para n finito, déjenme actualizar la respuesta

— Yaroslav Bulatov

ok, no necesitamos que la pequeña e (ahora llamada b, error de Tipo II) sea pequeña para que el límite se mantenga, pero b = 0 es el valor para el que se simplificó (exp (-n KL (p, q)) coincide con el límite más complicado de arriba Curiosamente, el límite inferior para el error Tipo I dado 0 El error Tipo II es <1, me pregunto si <1 La tasa de error Tipo II es realmente posible

— Yaroslav Bulatov

1

En realidad, una referencia mucho más fácil de entender para esto es la "Teoría de los elementos de la información" de Cover, página 309, 12.8 "Lema de Stein"

— Yaroslav Bulatov

8

KL tiene un significado profundo cuando visualiza un conjunto de dentaduras como una variedad dentro del tensor métrico de pescador, da la distancia geodésica entre dos distribuciones "cercanas". Formalmente:

$ds^2=2KL(p(x, \theta ),p(x,\theta + d \theta))$

Las siguientes líneas están aquí para explicar con detalles lo que se entiende por estas fórmulas matemáticas.

Definición de la métrica de Fisher.

Considere una familia parametrizada de distribuciones de probabilidad (dada por las densidades en ), donde es una variable aleatoria y theta es un parámetro en . Todos pueden saber que la matriz de información del pescador es $D=(f(x, \theta ))$ $R^n$ $x$ $R^p$ $F=(F_{ij})$

$F_{ij}=E[d(\log f(x,\theta))/d \theta_i d(\log f(x,\theta))/d \theta_j]$

Con esta notación es una variedad riemanniana y es un tensor métrico riemanniano. (El interés de esta métrica viene dado por el teorema del límite inferior de Cramer Rao) $D$ $F(\theta)$

Puedes decir ... OK abstracción matemática pero ¿dónde está KL?

No es abstracción matemática, si realmente puede imaginar su densidad parametrizada como una curva (en lugar de un subconjunto de un espacio de dimensión infinita) y está conectado a la curvatura de esa curva ... (vea el seminal papel de Bradley Efronhttp://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282) $p=1$ $F_{11}$

La respuesta geométrica a parte del punto a / en su pregunta: la distancia al cuadrado entre dos distribuciones (cercanas) y $ds^2$ $p(x,\theta)$ en la variedad (piense en la distancia geodésica en la tierra de dos puntos que están cerca, está relacionada con la curvatura de la tierra) viene dada por la forma cuadrática: $p(x,\theta+d \theta)$

$ds^2= \sum F_{ij} d \theta^i d \theta^j$

y se sabe que es el doble de la divergencia Kullback Leibler:

$ds^2=2KL(p(x, \theta ),p(x,\theta + d \theta))$

Si desea obtener más información al respecto, le sugiero leer el documento de Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Creo que también hay un libro de Amari sobre geometría riemanniana en estadística pero no recuerdo el nombre)

— robin girard
fuente

Por favor agregue $ alrededor de su LaTeX. Ahora debería hacerse bien. Ver meta.math.stackexchange.com/questions/2/…

— Rob Hyndman

1

Como no soy matemático ni estadístico, me gustaría volver a decir lo que estaba diciendo para asegurarme de que no entendí mal. Entonces, está diciendo que tomar ds ^ 2 (dos veces el KL) tendría un significado similar a R ^ 2 (en un modelo de regresión) para una distribución general. ¿Y que esto realmente podría usarse para cuantificar distancias geométricamente? ¿Tiene ds ^ 2 un nombre para poder leer más sobre esto? ¿Existe algún documento que describa directamente esta métrica y muestre aplicaciones y ejemplos?

— Ampleforth

Creo que está lejos de comprender el punto, y no estoy seguro de que deba intentar ir más lejos ahora. Si está motivado, puede leer el documento de Bradley Efron que mencioné o el documento de Amari projecteuclid.org/… .

— robin girard

1

Esto parece ser una caracterización de la derivada direccional de KL en lugar de KL en sí misma, y no parece posible obtener la divergencia de KL porque, a diferencia de la derivada, la divergencia de KL no depende de la geometría del múltiple

— Yaroslav Bulatov

7

La divergencia KL (p, q) entre las distribuciones p (.) Y q (.) Tiene una interpretación teórica de la información intuitiva que puede resultarle útil.

Supongamos que observamos los datos x generados por alguna distribución de probabilidad p (.). Un límite inferior en la longitud de código promedio en bits requeridos para indicar los datos generados por p (.) Viene dado por la entropía de p (.).

Ahora, como no conocemos p (.) Elegimos otra distribución, digamos, q (.) Para codificar (o describir, indicar) los datos. La longitud de código promedio de los datos generados por p (.) Y codificados usando q (.) Será necesariamente más larga que si la distribución verdadera p (.) Se usara para la codificación. La divergencia KL nos informa sobre las ineficiencias de este código alternativo. En otras palabras, la divergencia KL entre p (.) Y q (.) Es el número promedio de bits adicionales requeridos para codificar datos generados por p (.) Usando la distribución de codificación q (.). La divergencia KL es no negativa e igual a cero si la distribución de generación de datos real se usa para codificar los datos.

— emakalic
fuente

2

Para la parte (b) de su pregunta, es posible que se encuentre con el problema de que una de sus distribuciones tiene densidad en una región donde la otra no.

re (PAG ‖ Q) = \sum {pag}_{yo} En \frac{{pag}_{yo}}{q_{yo}}

$D( P \Vert Q ) = \sum p_i \ln \frac{p_i}{q_i}$

Esto diverge si existe un $i$ dónde $p_i>0$ y $q_i=0$ . El épsilon numérico en la implementación de R "lo salva" de este problema; pero significa que el valor resultante depende de este parámetro (técnicamente $q_i=0$ no es necesario, solo eso $q_i$ es menor que el épsilon numérico).

— Dave
fuente