Esta pregunta da una definición cuantitativa de entropía cruzada, en términos de su fórmula.
Estoy buscando una definición más teórica, wikipedia dice:
En teoría de la información, la entropía cruzada entre dos distribuciones de probabilidad mide el número promedio de bits necesarios para identificar un evento a partir de un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad dada q, en lugar de la distribución "verdadera" p .
He enfatizado la parte que me está dando problemas para entender esto. Me gustaría una buena definición que no requiera una comprensión separada (preexistente) de Entropy.