Sin citar fuentes, Wikipedia define la entropía cruzada de distribuciones discretas y como
¿Quién fue el primero en comenzar a usar esta cantidad? ¿Y quién inventó este término? Miré en:
JE Shore y RW Johnson, "Derivación axiomática del principio de máxima entropía y el principio de mínima entropía cruzada", Teoría de la información, Transacciones IEEE, vol. 26, no. 1, pp. 26-37, enero de 1980.
Seguí su introducción a
A. Wehrl, "Propiedades generales de la entropía", Reviews of Modern Physics, vol. 50, no. 2, págs. 221-260, abril de 1978.
quien nunca usa el término.
Tampoco lo hace
S. Kullback y R. Leibler, "Sobre información y suficiencia", The Annals of Mathematical Statistics, vol. 22, no. 1, págs. 79-86, 1951.
Miré en
TM Cover y JA Thomas, Elementos de la teoría de la información (Serie Wiley en telecomunicaciones y procesamiento de señales). Wiley-Interscience, 2006.
y
I. Bueno, "Entropía máxima para la formulación de hipótesis, especialmente para tablas de contingencia multidimensionales", The Annals of Mathematical Statistics, vol. 34, no. 3, págs. 911-934, 1963.
pero ambos artículos definen la entropía cruzada como sinónimo de divergencia KL.
El papel original
CE Shannon, "Una teoría matemática de la comunicación", revista técnica del sistema Bell, vol. 27 de 1948.
No menciona la entropía cruzada (y tiene una definición extraña de "entropía relativa": "La relación entre la entropía de una fuente y el valor máximo que podría tener mientras se limita a los mismos símbolos").
Finalmente, busqué en algunos libros y papeles viejos de Tribus.
¿Alguien sabe cómo se llama la ecuación anterior y quién la inventó o tiene una buena presentación?