Perplejidad y entropía cruzada para modelos de n gramos


10

Tratando de entender la relación entre la entropía cruzada y la perplejidad. En general, para un modelo M , Perplejidad (M) = 2 ^ entropía (M) . ¿Esta relación es válida para todos los n-gramos diferentes, es decir, unigram, bigram, etc.?


Esa es en realidad la definición de perplejidad; el cosa se deriva de ella;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Respuestas:


9

Sí, la perplejidad siempre es igual a dos al poder de la entropía. No importa qué tipo de modelo tenga, n-gram, unigram o red neuronal.

Hay algunas razones por las cuales las personas que modelan el lenguaje prefieren la perplejidad en lugar de simplemente usar la entropía. Una es que, debido al exponente, las mejoras en la perplejidad "se sienten" como si fueran más sustanciales que la mejora equivalente en la entropía. Otra es que antes de que comenzaran a usar la perplejidad, se informó de la complejidad de un modelo de lenguaje utilizando una medición simplificada del factor de ramificación que es más similar a la perplejidad que a la entropía.


1

De acuerdo con la respuesta de @Aaron con una ligera modificación:

No siempre es igual a dos al poder de la entropía. En realidad, será (base para el registro) al poder de la entropía. Si ha usado e como su base, entonces sería e ^ entropía.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.