La minimización de la entropía cruzada se usa a menudo como un objetivo de aprendizaje en modelos generativos donde p es la distribución verdadera yq es la distribución aprendida.
La entropía cruzada de p y q es igual a la entropía de p más la divergencia KL entre p y q.
H(p,q)=H(p)+DKL(p||q)
Puede pensar en como una constante porque proviene directamente de los datos de entrenamiento y el modelo no lo aprende. Entonces, solo el término de divergencia KL es importante. La motivación para la divergencia de KL como una distancia entre las distribuciones de probabilidad es que le dice cuántos bits de información se obtienen al usar la distribución p en lugar de la aproximación q.H(p)p
Tenga en cuenta que la divergencia KL no es una medida de distancia adecuada. Por un lado, no es simétrico en p y q. Si necesita una métrica de distancia para distribuciones de probabilidad, tendrá que usar otra cosa. Pero, si está usando la palabra "distancia" de manera informal, puede usar la divergencia KL.