¿Por qué la divergencia KL no es negativa?


18

¿Por qué la divergencia KL no es negativa?

Desde la perspectiva de la teoría de la información, tengo una comprensión tan intuitiva:

Digamos que hay dos conjuntos y que se componen del mismo conjunto de elementos etiquetados por . y son diferentes distribuciones de probabilidad sobre el conjunto y respectivamente.ABxp(x)q(x)AB

Desde la perspectiva de teoría de la información, es la menor cantidad de bits que requiere para la grabación de un elemento para conjunto . Para que la expectativa pueda interpretarse como al menos cuántos bits necesitamos para registrar un elemento en en promedio.log2(P(x))xA

xensemblep(x)ln(p(x))
A

Dado que esta fórmula pone un límite inferior en los bits que necesitamos en promedio, de modo que para un conjunto diferente que produce una distribución de probabilidad diferente , el límite que proporciona para cada elemento seguramente no será un bit que sea dado por , lo que significa tomar la expectativa, esta longitud promedio seguramente será mayor que la anterior, lo que lleva a no pongo aquí, ya que y son diferentes.q ( x ) x p ( x )siq(x)xp(x)

xensemblep(x)ln(q(x))

xensemblep(x)ln(p(x))ln(q(x))>0
p(x)q(x)

Esta es mi comprensión intuitiva, ¿existe una forma puramente matemática de probar que la divergencia de KL no es negativa? El problema se puede expresar como:

Dado que y son positivos sobre la línea real, y , . Probar no es negativo.q ( x ) + - p ( x ) d x = 1 + - q ( x ) d x = 1 + - p ( x ) ln p ( x )pag(X)q(X)+p(x)dx=1+q(x)dx=1

+p(x)lnp(x)q(x)

¿Cómo se puede probar esto? ¿O puede probarse esto sin condiciones adicionales?


1
Si comprende la prueba de la desigualdad de Fano, es fácil deducir la no negatividad de la entropía relativa.
Lerner Zhang

Respuestas:


30

Prueba 1:

Primero tenga en cuenta que para todo a > 0 .lnaa1a>0

Ahora mostraremos que que significa queDKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

Para la desigualdad (a) utilizamos la desigualdad explicada al principio.ln

Alternativamente, puede comenzar con la desigualdad de Gibbs que establece:

xp(x)log2p(x)xp(x)log2q(x)

Entonces, si llevamos el término izquierdo a la derecha, obtenemos:

xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

La razón por la que no incluyo esto como una prueba separada es porque si me pidiera que probara la desigualdad de Gibbs, tendría que comenzar desde la no negatividad de la divergencia KL y hacer la misma prueba desde arriba.


Prueba 2: Usamos la desigualdad de Log log sum :

i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

Entonces podemos mostrar que : DKL(p||q)0

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

donde hemos usado el Log sum desigualdad en (b).


Prueba 3:

(Tomado del libro "Elementos de la teoría de la información" de Thomas M. Cover y Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

donde en (c) hemos utilizado la desigualdad de Jensen y el hecho de que es una función cóncava.log

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.