¿Por qué la divergencia KL no es negativa?
Desde la perspectiva de la teoría de la información, tengo una comprensión tan intuitiva:
Digamos que hay dos conjuntos y que se componen del mismo conjunto de elementos etiquetados por . y son diferentes distribuciones de probabilidad sobre el conjunto y respectivamente.
Desde la perspectiva de teoría de la información, es la menor cantidad de bits que requiere para la grabación de un elemento para conjunto . Para que la expectativa pueda interpretarse como al menos cuántos bits necesitamos para registrar un elemento en en promedio.
Dado que esta fórmula pone un límite inferior en los bits que necesitamos en promedio, de modo que para un conjunto diferente que produce una distribución de probabilidad diferente , el límite que proporciona para cada elemento seguramente no será un bit que sea dado por , lo que significa tomar la expectativa,
esta longitud promedio seguramente será mayor que la anterior, lo que lleva a
no pongo aquí, ya que y son diferentes.q ( x ) x p ( x )
Esta es mi comprensión intuitiva, ¿existe una forma puramente matemática de probar que la divergencia de KL no es negativa? El problema se puede expresar como:
Dado que y son positivos sobre la línea real, y , . Probar no es negativo.q ( x ) ∫ + ∞ - ∞ p ( x ) d x = 1 ∫ + ∞ - ∞ q ( x ) d x = 1 ∫ + ∞ - ∞ p ( x ) ln p ( x )
¿Cómo se puede probar esto? ¿O puede probarse esto sin condiciones adicionales?