Jensen Shannon Divergence vs Kullback-Leibler Divergence?


14

Sé que KL Divergence no es simétrica y no puede considerarse estrictamente como una métrica. Si es así, ¿por qué se usa cuando JS Divergence satisface las propiedades requeridas para una métrica?

¿Hay escenarios en los que se puede utilizar la divergencia KL pero no la divergencia JS o viceversa?


Ambos se usan, solo depende del contexto. Cuando está claro que es necesario tener una métrica estricta, por ejemplo, cuando se realiza la agrupación, entonces JS es una opción más preferible. Por otro lado, en la selección del modelo, el uso de AIC que se basa en KL está muy extendido. Los pesos de Akaike tienen una buena interpretación para la cual JS no puede proporcionar una contraparte o aún no se ha hecho popular.
James

Respuestas:


5

Encontré una respuesta muy madura en Quora y la puse aquí para las personas que la buscan aquí:

La divergencia Kullback-Leibler tiene algunas buenas propiedades, una de ellas es que aborrece las regiones donde tiene masa no nula y tiene masa nula. Esto puede parecer un error, pero en realidad es una característica en ciertas situaciones.𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

Si está tratando de encontrar aproximaciones para una distribución compleja (intratable) por una distribución aproximada (manejable) , desea estar absolutamente seguro de que cualquier 𝑥 que sea muy improbable se extraerá de también sería muy improbable extraer de . Que KL tenga esta propiedad se muestra fácilmente: hay un en el integrando. Cuando 𝑞 (𝑥) es pequeño pero no lo es, está bien. Pero cuando es pequeño, esto crece muy rápidamente si no es también pequeño. Entonces, si está eligiendo para minimizar𝑝(𝑥)𝑞(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]𝑝(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝐾𝐿[𝑞;𝑝], es muy improbable que asigne mucha masa en regiones donde está cerca de cero.𝑞(𝑥)𝑝(𝑥)

La divergencia Jensen-Shannon no tiene esta propiedad. Se comporta bien cuando y son pequeños. Esto significa que no penalizará tanto una distribución de la que puede muestrear valores que son imposibles en .𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)


1

La divergencia KL tiene una interpretación teórica de información clara y es bien conocida; pero soy la primera vez que oigo que la simetrización de la divergencia KL se llama divergencia JS. La razón por la que la divergencia JS no se usa con tanta frecuencia es probablemente porque es menos conocida y no ofrece propiedades imprescindibles.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.