La divergencia Kullback-Leibler tiene algunas buenas propiedades, una de ellas es que aborrece las regiones donde tiene masa no nula y tiene masa nula. Esto puede parecer un error, pero en realidad es una característica en ciertas situaciones.KL[q;p]q(x)p(x)
Si está tratando de encontrar aproximaciones para una distribución compleja (intratable) por una distribución aproximada (manejable)
, desea estar absolutamente seguro de que cualquier 𝑥 que sea muy improbable se extraerá de también sería muy improbable extraer de . Que KL tenga esta propiedad se muestra fácilmente: hay un en el integrando. Cuando 𝑞 (𝑥) es pequeño pero no lo es, está bien. Pero cuando es pequeño, esto crece muy rápidamente si no es también pequeño. Entonces, si está eligiendo para minimizarp(x)q(x)p(x)q(x)q(x)log[q(x)/p(x)]p(x)p(x)q(x)q(x)KL[q;p], es muy improbable que asigne mucha masa en regiones donde está cerca de cero.q(x)p(x)
La divergencia Jensen-Shannon no tiene esta propiedad. Se comporta bien cuando y son pequeños. Esto significa que no penalizará tanto una distribución de la que puede muestrear valores que son imposibles en .p(x)q(x)q(x)p(x)