Me he preguntado esto también. La primera explicación no es mala, pero aquí están mis 2 nats para lo que sea que valga la pena.
En primer lugar, la perplejidad no tiene nada que ver con caracterizar con qué frecuencia adivina algo bien. Tiene más que ver con caracterizar la complejidad de una secuencia estocástica.
Estamos viendo una cantidad, 2−∑xp(x)log2p(x)
Primero cancelemos el registro y la exponenciación.
2−∑xp(x)log2p(x)=1∏xp(x)p(x)
Creo que vale la pena señalar que la perplejidad es invariable con la base que usas para definir la entropía. Entonces, en este sentido, la perplejidad es infinitamente más única / menos arbitraria que la entropía como medida.
Relación con los dados
Juguemos un poco con esto. Digamos que solo estás mirando una moneda. Cuando la moneda es justa, la entropía es máxima y la perplejidad es máxima de 11212×1212=2
Ahora, ¿qué pasa cuando miramos un dado de N lados? La perplejidad es 1(1N1N)N=N
Entonces, la perplejidad representa el número de lados de un dado justo que, cuando se tira, produce una secuencia con la misma entropía que la distribución de probabilidad dada.
Numero de Estados
NN+1NϵNN+1ϵNxpxNp′x=px(1−ϵ)
1ϵϵ∏Nxp′xp′x=1ϵϵ∏Nx(px(1−ϵ))px(1−ϵ)=1ϵϵ∏Nxppx(1−ϵ)x(1−ϵ)px(1−ϵ)=1ϵϵ(1−ϵ)(1−ϵ)∏Nxppx(1−ϵ)x
In the limit as ϵ→0, this quantity approaches 1∏Nxpxpx
So as you make make rolling one side of the die increasingly unlikely, the perplexity ends up looking as though the side doesn't exist.