La divergencia KL es una forma natural de medir la diferencia entre dos distribuciones de probabilidad. La entropía de una distribución proporciona el número mínimo posible de bits por mensaje que se necesitaría (en promedio) para codificar sin pérdidas los eventos extraídos de . Lograr este límite requeriría el uso de un código óptimo diseñado para , que asigna palabras de código más cortas a eventos de mayor probabilidad. puede interpretarse como el número esperado de bits adicionales por mensaje necesarios para codificar eventos extraídos de la distribución verdadera , si se usa un código óptimo para la distribución lugar deH(p)pppDKL(p∥q)pqp. Tiene algunas buenas propiedades para comparar distribuciones. Por ejemplo, si y son iguales, entonces la divergencia KL es 0.pq
La entropía cruzada puede interpretarse como el número de bits por mensaje necesario (en promedio) para codificar eventos extraídos de la distribución verdadera , si se usa un código óptimo para la distribución . Observe la diferencia: mide el número promedio de bits adicionales por mensaje, mientras que mide el número promedio de bits totales por mensaje. Es cierto que, para fijo , crecerá a medida que vuelve cada vez más diferente de . Pero, si no se mantiene fijo, es difícil interpretarH(p,q)pqDKL(p∥q)H(p,q)pH(p,q)qppH(p,q)como medida absoluta de la diferencia, porque crece con la entropía de .p
La divergencia KL y la entropía cruzada están relacionadas como:
DKL(p∥q)=H(p,q)−H(p)
Podemos ver de esta expresión que, cuando y son iguales, la entropía cruzada no es cero; más bien, es igual a la entropía de .pqp
La entropía cruzada aparece comúnmente en las funciones de pérdida en el aprendizaje automático. En muchas de estas situaciones, se trata como la distribución 'verdadera' como el modelo que estamos tratando de optimizar. Por ejemplo, en problemas de clasificación, la pérdida de entropía cruzada comúnmente utilizada (también conocida como pérdida de registro ) mide la entropía cruzada entre la distribución empírica de las etiquetas (dadas las entradas) y la distribución predicha por el clasificador. La distribución empírica para cada punto de datos simplemente asigna probabilidad 1 a la clase de ese punto de datos y 0 a todas las demás clases. Nota al margen: La entropía cruzada en este caso resulta ser proporcional a la probabilidad logarítmica negativa, por lo que minimizarla es equivalente a maximizar la probabilidad.pq
Tenga en cuenta que (la distribución empírica en este ejemplo) es fija. Por lo tanto, sería equivalente decir que estamos minimizando la divergencia KL entre la distribución empírica y la distribución predicha. Como podemos ver en la expresión anterior, los dos están relacionados por el término aditivo (la entropía de la distribución empírica). Debido a que es fijo, no cambia con los parámetros del modelo, y puede pasarse por alto en la función de pérdida. Es posible que aún deseemos hablar sobre la divergencia KL por razones teóricas / filosóficas, pero, en este caso, son equivalentes desde la perspectiva de resolver el problema de optimización. Esto puede no ser cierto para otros usos de la entropía cruzada y la divergencia KL, dondepH(p)pH(p)p puede variar
t-SNE se ajusta a una distribución en el espacio de entrada. Cada punto de datos se asigna al espacio de incrustación, donde se ajusta la distribución correspondiente. El algoritmo intenta ajustar la incrustación para minimizar . Como arriba, se mantiene fijo. Entonces, desde la perspectiva del problema de optimización, minimizar la divergencia KL y minimizar la entropía cruzada son equivalentes. De hecho, van der Maaten y Hinton (2008) dicen en la sección 2: "Una medida natural de la fidelidad con la que modela es la divergencia Kullback-Leibler (que está en este caso igual a la entropía cruzada hasta una constante aditiva) ".pqDKL(p∥q)pqj∣ipj∣i
van der Maaten y Hinton (2008) . Visualización de datos utilizando t-SNE.