Definición y origen de "entropía cruzada"

15

Sin citar fuentes, Wikipedia define la entropía cruzada de distribuciones discretas y como $P$ $Q$

\begin{aligned} H^{\times} (PAG; Q) & = - \sum_{X} pag (X) Iniciar sesión q (X) . \end{aligned}

$\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align}$

¿Quién fue el primero en comenzar a usar esta cantidad? ¿Y quién inventó este término? Miré en:

JE Shore y RW Johnson, "Derivación axiomática del principio de máxima entropía y el principio de mínima entropía cruzada", Teoría de la información, Transacciones IEEE, vol. 26, no. 1, pp. 26-37, enero de 1980.

Seguí su introducción a

A. Wehrl, "Propiedades generales de la entropía", Reviews of Modern Physics, vol. 50, no. 2, págs. 221-260, abril de 1978.

quien nunca usa el término.

Tampoco lo hace

S. Kullback y R. Leibler, "Sobre información y suficiencia", The Annals of Mathematical Statistics, vol. 22, no. 1, págs. 79-86, 1951.

Miré en

TM Cover y JA Thomas, Elementos de la teoría de la información (Serie Wiley en telecomunicaciones y procesamiento de señales). Wiley-Interscience, 2006.

y

I. Bueno, "Entropía máxima para la formulación de hipótesis, especialmente para tablas de contingencia multidimensionales", The Annals of Mathematical Statistics, vol. 34, no. 3, págs. 911-934, 1963.

pero ambos artículos definen la entropía cruzada como sinónimo de divergencia KL.

El papel original

CE Shannon, "Una teoría matemática de la comunicación", revista técnica del sistema Bell, vol. 27 de 1948.

No menciona la entropía cruzada (y tiene una definición extraña de "entropía relativa": "La relación entre la entropía de una fuente y el valor máximo que podría tener mientras se limita a los mismos símbolos").

Finalmente, busqué en algunos libros y papeles viejos de Tribus.

¿Alguien sabe cómo se llama la ecuación anterior y quién la inventó o tiene una buena presentación?

information-theory entropy

— Neil G
fuente

7

Parece estar estrechamente relacionado con el concepto de divergencia Kullback-Leibler (ver Kullback y Leibler, 1951 ). En su artículo, Kullback y Leibler discuten la información media para discriminar entre dos hipótesis (definidas como en las ) y citan las páginas 18-19 de The Mathematical Theory of Communication de Shannon y Weaver. (1949) y p. 76 de Wiener's Cybernetics (1948). $I_{1:2}(E)$ $2.2-2.4$

EDITAR:

Los alias adicionales incluyen la medida de información Kullback-Leibler, la medida de información relativa, la entropía cruzada, la divergencia I y la inexactitud de Kerridge .

— Itamar
fuente

¡Gracias! Revisé esas referencias, pero todavía tengo problemas para encontrar el término "entropía cruzada" o una ecuación coincidente. Avíseme si vio uno en uno de los artículos o libros.

— Neil G

1

También puede buscar hacia atrás en Google Scholar artículos con diferentes alias publicados hasta cierto año (p. Ej., Entropía cruzada hasta 1980 ).

— Itamar

1

Con respecto a su edición reciente, estoy interesado en el historial del formulario que figura en mi pregunta. Ya noté que los primeros trabajos usaban "entropía cruzada" para significar "divergencia KL". (Tenga en cuenta que el artículo de Kullback está en mi pregunta.)

— Neil G

Lo siento, me perdí el artículo de Kullback en la pregunta

— Itamar

4

Gracias a la sugerencia de @ Itamar, encontré una mención en:

IJ Good, "Some Terminology and Notation in Information Theory," Proceedings of the IEE - Part C: Monographs, vol. 103, no. 3, págs. 200-204, marzo de 1956.

Todavía sería realmente útil para mí encontrar una buena presentación de la entropía cruzada.

— Neil G
fuente

2

Gracias por esto - buen resumen de la literatura de fondo. El artículo de 1980 de Shore and Johnson en IEEE es un buen comienzo, pero el puntero de @ itamar a la monografía Good de 1956 es aún mejor. El concepto parece provenir del trabajo de Shannon, con la nota AMS de 1951 de Kullback & Leibler como el origen del uso actual del término. En cuanto al origen del término "entropía cruzada" se relaciona con las redes neuronales artificiales, existe un término utilizado en un artículo en Science, presentado en 1994, publicado en 1995, por GE Hinton, P. Dayan, BJ Frey y RM Neal, en que hay un uso temprano del término "Máquina de Hemholtz", posiblemente el primero. Url para copia: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf En ese documento, "El algoritmo Wake-sleep para redes neuronales no supervisadas", la nota antes de la ecuación # 5 dice: "Cuando hay muchas formas alternativas de describir un vector de entrada, es posible diseñar un esquema de codificación estocástico que aproveche el entropía a través de descripciones alternativas [1]. El costo es entonces: "(ver el artículo para la ecuación # 5)" El segundo término es entonces la entropía de la distribución que los pesos de reconocimiento asignan a las diversas representaciones alternativas ". Más adelante en el documento, la ecuación # 5 se reescribe como la ecuación # 8, con el último término descrito como la divergencia Kullback-Leibler entre la distribución de probabilidad inicial y la distribución de probabilidad posterior. El documento establece: "Entonces, para dos modelos generativos que asignan igual probabilidad a d, ) Este documento todavía describe el proceso de minimización para este algoritmo específico como minimizar la divergencia Kullback-Leibler, pero parece que podría ser donde el término "entropía a través de descripciones alternativas" se acortó a solo "entropía cruzada". Para un ejemplo numérico de entropía cruzada, usando TensorFlow, vea la publicación aquí, es útil: ) Este documento todavía describe el proceso de minimización para este algoritmo específico como minimizar la divergencia Kullback-Leibler, pero parece que podría ser donde el término "entropía a través de descripciones alternativas" se acortó a solo "entropía cruzada". Para un ejemplo numérico de entropía cruzada, usando TensorFlow, vea la publicación aquí, es útil: /programming/41990250/what-is-cross-entropy Tenga en cuenta que la solución de CE = 0.47965 se deriva simplemente tomando el registro natural de la probabilidad de .619. En el ejemplo anterior, el uso de la codificación "one hot" significa que las otras dos probabilidades iniciales y posteriores se ignoran debido a la multiplicación por la probabilidad inicial de valor cero, en la suma de la entropía cruzada.

— gemesyscanada
fuente

+1 Esto podría ser correcto. Entonces, ¿estás diciendo que 1994 es el origen de la definición moderna de entropía cruzada?

— Neil G