La divergencia Kullback-Leibler no es una medida propiamente dicha, ya que no es simétrica y tampoco satisface la desigualdad del triángulo. Por lo tanto, los "roles" desempeñados por las dos distribuciones son diferentes, y es importante distribuir estos roles de acuerdo con el fenómeno del mundo real en estudio.
Cuando escribimos (el OP ha calculado la expresión usando logaritmos de base 2)
K(P||Q)=∑ilog2(pi/qi)pi
consideramos que la distribución es la "distribución objetivo" (generalmente considerada como la distribución verdadera), que aproximamos utilizando la distribución Q.PQ
Ahora,
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
donde es la entropía de Shannon de distribución P y - E P ( ln ( Q ) ) se llama "entropía cruzada de P y Q " -también no simétrica.H(P)P−EP(ln(Q))PQ
Escritura
K(P||Q)=H(P,Q)−H(P)
(aquí también, el orden en el que escribimos las distribuciones en la expresión de la entropía cruzada es importante, ya que tampoco es simétrico), nos permite ver que la divergencia KL refleja un aumento en la entropía sobre la entropía inevitable de la distribución .P
Entonces, no , es mejor que la divergencia de KL no se interprete como una "medida de distancia" entre distribuciones, sino más bien como una medida de aumento de entropía debido al uso de una aproximación a la distribución verdadera en lugar de la distribución verdadera en sí .
Entonces estamos en la teoría de la información de la tierra. Para escucharlo de los maestros (Cover & Thomas) "
... si supiéramos la verdadera distribución de la variable aleatoria, podríamos construir un código con una longitud de descripción promedio H ( P ) . Si, en cambio, utilizamos el código para una distribución Q , necesitaríamos H ( P ) + K ( P | | Q ) bits en promedio para describir la variable aleatoria.PH(P)QH(P)+K(P||Q)
Los mismos sabios dicen
... no es una distancia real entre distribuciones ya que no es simétrica y no satisface la desigualdad del triángulo. Sin embargo, a menudo es útil pensar en la entropía relativa como una "distancia" entre distribuciones.
Pero este último enfoque es útil principalmente cuando se intenta minimizar la divergencia de KL para optimizar algún procedimiento de estimación. Para la interpretación de su valor numérico per se , no es útil, y uno debería preferir el enfoque de "aumento de entropía".
Para las distribuciones específicas de la pregunta (siempre usando logaritmos de base 2)
K(P||Q)=0.49282,H(P)=1.9486
En otras palabras, se necesita 25% más bits para describir la situación si se va a utilizar , mientras que la verdadera distribución es P . Esto significa líneas de código más largas, más tiempo para escribirlas, más memoria, más tiempo para leerlas, mayor probabilidad de errores, etc ... no es casualidad que Cover & Thomas digan que KL-Divergence (o "entropía relativa") " mide la ineficiencia causada por la aproximación ".QP