Análisis de la divergencia Kullback-Leibler

18

Consideremos las siguientes dos distribuciones de probabilidad

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

He calculado la divergencia de Kullback-Leibler que es igual a $0.492820258$ , quiero saber en general ¿qué me muestra este número? En general, la divergencia Kullback-Leibler me muestra cuán lejos está una distribución de probabilidad de otra, ¿verdad? Es similar a la terminología de entropía, pero en términos de números, ¿qué significa? Si tengo un resultado de 0.49, ¿puedo decir que aproximadamente una distribución está lejos de otra en un 50%?

interpretation information-theory kullback-leibler

— dato datuashvili
fuente

Vea la discusión aquí que puede ser de ayuda.

— Glen_b -Reinstale a Monica el

¿Leíste el artículo de Wikipedia?

— Neil G

42

La divergencia Kullback-Leibler no es una medida propiamente dicha, ya que no es simétrica y tampoco satisface la desigualdad del triángulo. Por lo tanto, los "roles" desempeñados por las dos distribuciones son diferentes, y es importante distribuir estos roles de acuerdo con el fenómeno del mundo real en estudio.

Cuando escribimos (el OP ha calculado la expresión usando logaritmos de base 2)

K (P | | Q) = \sum_{i} \log_{2} (p_{i} / q_{i}) p_{i}

$\mathbb K\left(P||Q\right) = \sum_{i}\log_2 (p_i/q_i)p_i$

consideramos que la distribución es la "distribución objetivo" (generalmente considerada como la distribución verdadera), que aproximamos utilizando la distribución $P$ $Q$

Ahora,

\sum_{i} \log_{2} (p_{i} / q_{i}) p_{i} = \sum_{i} \log_{2} (p_{i}) p_{i} - \sum_{i} \log_{2} (q_{i}) p_{i} = - H (P) - E_{P} (\ln (Q))

$\sum_{i}\log_2 (p_i/q_i)p_i = \sum_{i}\log_2 (p_i)p_i-\sum_{i}\log_2 (q_i)p_i = -H(P) - E_P(\ln(Q))$

donde es la entropía de Shannon de distribución y se llama "entropía cruzada de y " -también no simétrica. $H(P)$ $P$ $-E_P(\ln(Q))$ $P$ $Q$

Escritura

K (P | | Q) = H (P, Q) - H (P)

$\mathbb K\left(P||Q\right) = H(P,Q) - H(P)$

(aquí también, el orden en el que escribimos las distribuciones en la expresión de la entropía cruzada es importante, ya que tampoco es simétrico), nos permite ver que la divergencia KL refleja un aumento en la entropía sobre la entropía inevitable de la distribución . $P$

Entonces, no , es mejor que la divergencia de KL no se interprete como una "medida de distancia" entre distribuciones, sino más bien como una medida de aumento de entropía debido al uso de una aproximación a la distribución verdadera en lugar de la distribución verdadera en sí .

Entonces estamos en la teoría de la información de la tierra. Para escucharlo de los maestros (Cover & Thomas) "

... si supiéramos la verdadera distribución de la variable aleatoria, podríamos construir un código con una longitud de descripción promedio . Si, en cambio, utilizamos el código para una distribución , necesitaríamos bits en promedio para describir la variable aleatoria. $P$ $H(P)$ $Q$ $H(P) + \mathbb K (P||Q)$

Los mismos sabios dicen

... no es una distancia real entre distribuciones ya que no es simétrica y no satisface la desigualdad del triángulo. Sin embargo, a menudo es útil pensar en la entropía relativa como una "distancia" entre distribuciones.

Pero este último enfoque es útil principalmente cuando se intenta minimizar la divergencia de KL para optimizar algún procedimiento de estimación. Para la interpretación de su valor numérico per se , no es útil, y uno debería preferir el enfoque de "aumento de entropía".

Para las distribuciones específicas de la pregunta (siempre usando logaritmos de base 2)

K (P | | Q) = 0.49282, H (P) = 1.9486

$\mathbb K\left(P||Q\right) = 0.49282,\;\;\;\; H(P) = 1.9486$

En otras palabras, se necesita 25% más bits para describir la situación si se va a utilizar , mientras que la verdadera distribución es . Esto significa líneas de código más largas, más tiempo para escribirlas, más memoria, más tiempo para leerlas, mayor probabilidad de errores, etc ... no es casualidad que Cover & Thomas digan que KL-Divergence (o "entropía relativa") " mide la ineficiencia causada por la aproximación ". $Q$ $P$

— Alecos Papadopoulos
fuente

Respuesta extremadamente útil e informativa.

— MadHatter

1

KL Divergence mide la pérdida de información requerida para representar un símbolo de P usando símbolos de Q. Si obtiene un valor de 0.49, eso significa que en promedio puede codificar dos símbolos de P con los dos símbolos correspondientes de Q más un bit de información adicional .

— Aaron
fuente

1

$P$ $Q$ $P$

— Neil G
fuente