Perplejidad y entropía cruzada para modelos de n gramos

10

Tratando de entender la relación entre la entropía cruzada y la perplejidad. En general, para un modelo M , Perplejidad (M) = 2 ^ entropía (M) . ¿Esta relación es válida para todos los n-gramos diferentes, es decir, unigram, bigram, etc.?

natural-language entropy perplexity

— Margalit
fuente

Esa es en realidad la definición de perplejidad; el

cosa se deriva de ella;)

\sqrt[N]{Π_{i = 1}^{N} \frac{1}{P (w_{i} | w_{1}, . . . w_{i - 1})}}

$\sqrt[N]{\Pi^N_{i=1} \frac{1}{P(w_i|w_1, ... w_{i-1})}}$

— WavesWashSands

9

Sí, la perplejidad siempre es igual a dos al poder de la entropía. No importa qué tipo de modelo tenga, n-gram, unigram o red neuronal.

Hay algunas razones por las cuales las personas que modelan el lenguaje prefieren la perplejidad en lugar de simplemente usar la entropía. Una es que, debido al exponente, las mejoras en la perplejidad "se sienten" como si fueran más sustanciales que la mejora equivalente en la entropía. Otra es que antes de que comenzaran a usar la perplejidad, se informó de la complejidad de un modelo de lenguaje utilizando una medición simplificada del factor de ramificación que es más similar a la perplejidad que a la entropía.

— Aaron
fuente

1

De acuerdo con la respuesta de @Aaron con una ligera modificación:

No siempre es igual a dos al poder de la entropía. En realidad, será (base para el registro) al poder de la entropía. Si ha usado e como su base, entonces sería e ^ entropía.

— Prashant Gupta
fuente