Tratando de entender la relación entre la entropía cruzada y la perplejidad. En general, para un modelo M , Perplejidad (M) = 2 ^ entropía (M) . ¿Esta relación es válida para todos los n-gramos diferentes, es decir, unigram, bigram, etc.?
Tratando de entender la relación entre la entropía cruzada y la perplejidad. En general, para un modelo M , Perplejidad (M) = 2 ^ entropía (M) . ¿Esta relación es válida para todos los n-gramos diferentes, es decir, unigram, bigram, etc.?
Respuestas:
Sí, la perplejidad siempre es igual a dos al poder de la entropía. No importa qué tipo de modelo tenga, n-gram, unigram o red neuronal.
Hay algunas razones por las cuales las personas que modelan el lenguaje prefieren la perplejidad en lugar de simplemente usar la entropía. Una es que, debido al exponente, las mejoras en la perplejidad "se sienten" como si fueran más sustanciales que la mejora equivalente en la entropía. Otra es que antes de que comenzaran a usar la perplejidad, se informó de la complejidad de un modelo de lenguaje utilizando una medición simplificada del factor de ramificación que es más similar a la perplejidad que a la entropía.
De acuerdo con la respuesta de @Aaron con una ligera modificación:
No siempre es igual a dos al poder de la entropía. En realidad, será (base para el registro) al poder de la entropía. Si ha usado e como su base, entonces sería e ^ entropía.