¿Qué tan bueno es el código Huffman cuando no hay letras de gran probabilidad?

El código de Huffman para una distribución de probabilidad $p$ es el código de prefijo con la longitud de palabra de código promedio ponderada mínima $\sum p_i \ell_i$ , donde $\ell_i$ es la longitud de la $i$ ésima palabra de código. Es un teorema bien conocido que la longitud promedio por símbolo del código Huffman está entre $H(p)$ y $H(p)+1$ , donde $H(p) = -\sum_i \, p_i \log_2 p_i$ es la entropía de Shannon de la distribución de probabilidad.

El mal ejemplo canónico, donde la longitud promedio excede la entropía de Shannon en casi 1, es una distribución de probabilidad como $\{.999, .001\}$ , donde la entropía es casi 0, y la longitud promedio de la palabra de código es 1. Esto da una brecha entre la entropía y la longitud de la palabra de código de casi $1$ .

Pero, ¿qué sucede cuando hay un límite en la mayor probabilidad en la distribución de probabilidad? Supongamos, por ejemplo, que todas las probabilidades son menores que $\frac{1}{2}$ . La brecha más grande que pude encontrar en este caso es para una distribución de probabilidad como $\{.499, .499, .002\}$ , donde la entropía es levemente mayor que 1 y la longitud promedio de la palabra de código es levemente menor que 1.5, dando una brecha cercana $0.5$ . ¿Es esto lo mejor que puedes hacer? ¿Puede dar un límite superior en el espacio que sea estrictamente menor que 1 para este caso?

Ahora, consideremos el caso donde todas las probabilidades son muy pequeñas. Supongamos que elige una distribución de probabilidad sobre $M$ letras, cada una con probabilidad $1/M$ . En este caso, la brecha más grande se produce si elige $M \approx 2^k \ln 2$ . Aquí, obtienes una brecha de alrededor de

\frac{1 + \ln \ln 2 - \ln 2}{\ln 2} \approx 0.08607.

$\frac{1 + \ln \ln 2 - \ln 2}{\ln 2} \approx 0.08607.$ ¿Es esto lo mejor que puede hacer en una situación en la que todas las probabilidades son pequeñas?

Esta pregunta fue inspirada por esta pregunta de TCS Stackexchange .

optimization it.information-theory coding-theory

— Peter Shor
fuente

Respuestas:

Hay muchos documentos que estudian exactamente el problema que mencionas. El primero de la serie es un artículo de Gallager, "Variations on a Theme by Huffman", IEEE-IT, vol. 24, 1978, págs. 668-674. Se demuestra que la diferencia entre la longitud de palabra de código medio de un código de Huffman y la entropía (que él llama esa cantidad "redundancia") es siempre estrictamente inferior a (= probabilidad más grande de la distribución de probabilidad), en el caso , y es menor que , si . Se conocen mejores límites, puede encontrarlos en los numerosos documentos que citan el trabajo de Gallager. $p$ $p\geq 1/2$ $p+0.086$ $p<1/2$

— Ugo
fuente

Manstetten ha encontrado el límite óptimo, límites estrechos en la redundancia de los códigos de Huffman .

— Yuval Filmus

A juzgar por el límite , creo que tenía la intención de hacer una pregunta diferente ... o simplemente no especificó cómo toma el "promedio". Entonces responderé a ambas. La respuesta es no a ambas preguntas. $H(p) \leq \ldots \leq H(p)+1$

$2^{-q}$ $q+k$ $2^{q-1}$ $q$ $2^{q+k-1}$ $q+k$ $q+k$ $q+\frac{k}{2}$

$p$ $2^{q\pm 1/2}$ $q \in {\mathbb Z}.$

$q = 7.$

$A + B = 128, A\sqrt{2}+B/\sqrt{2}\leq 128, \max_{A \in {\mathbb Z}} A$ $A = 52, B = 76$ $52$ $2^{-6.5}$ $76$ $2^{-7.5}$

Entonces , mientras que el código Huffman logra pérdida de entropía. (Por cierto, la pérdida de entropía tiene un nombre, ya sea que realice la codificación Huffman o la codificación arbitraria de : la divergencia Kullback-Liebler . Al , descubrí hace unos días, conduce a límites de Chernoff de doble cara más estrictos, como puede ver en Wikipedia para los límites de Chernoff). $H(X) = (52\cdot 6.5 + 76 \cdot 7.5)/128 = 7.09375$ $(52 \cdot 0.5 - 76 \cdot 0.5)/128 \approx 0.99436$ $Q$ $D(P\Vert Q) = \sum p_i \log \frac{p_i}{q_i} + \sum (1-p_i) \log \frac{1-p_i}{1-q_i}$

— Carl
fuente

Estoy algo desconcertado por este segundo ejemplo. Si tiene 128 palabras de código, entonces hay un código con una longitud promedio de palabra 7 (de hecho, todas las longitudes de palabra tienen 7), lo que contradice su afirmación de que la entropía es 7.09375. La entropía de esta distribución (que se obtiene al tomar un promedio ponderado de y no un promedio) es 6.88, mientras que la longitud promedio del código Huffman es 7. Esto da una brecha (o divergencia Kullback-Liebler) de alrededor de 0.12, que parece ser bastante mejor que mi ejemplo, pero no cercano a 1.

- \log_{2} p_{i}

$-\log_2 p_i$

— Peter Shor

Y de hecho, tienes razón. Tenía la intención de preguntar sobre la longitud de la palabra de código esperada bajo la distribución de probabilidad .

p

$p$

— Peter Shor

Vaya, calculé mal sobre vs . Todavía queremos que ligeramente inferior a , pero algo así como , forzar las entradas menores en la fila inferior. Esto da

A

$A$

B

$B$

A \sqrt{2} + B / \sqrt{2}

$A\sqrt{2}+B/\sqrt{2}$

2^{k}

$2^k$

A + 2 B = 2^{k}

$A+2B=2^k$

A = \frac{2 - 1 / \sqrt{2}}{\sqrt{2} - 1} B .

$A = \frac{2-1/\sqrt{2}}{\sqrt{2}-1}B.$

— Carl

En realidad, eso sería ... pero este sistema de ecuaciones no tiene una solución positiva: parece que no podemos forzar que todo sea potencias de enteros . Entonces, en lugar de y podemos considerar, por ejemplo, para la mitad del código de Huffman y por lo demás, dando entradas ...

2 A + B

$2A+B$

2

$2$

\sqrt{2}

$\sqrt{2}$

1 / \sqrt{2}

$1/\sqrt{2}$

(1 + x) / 2^{k}

$(1+x)/2^k$

(1 - x) / 2^{k + 1}

$(1-x)/2^{k+1}$

3 * 2^{k}

$3*2^k$

— Carl

Entonces, intente esto (no es óptimo; supongo que eso depende de cómo decida redondear hacia arriba o hacia abajo). entradas con probabilidad y entradas con probabilidad tiene entropía . En cambio, cambie eso a entradas con probabilidad y entradas con probabilidad . La entropía de esta distribución es que da 6.4023, mientras que la entropía del código Huffman es 7.5 bajo uniforme, yEntonces, a menos que calcule mal (y lo hago a menudo), esto me da una brecha de aproximadamente

64

$64$

1 / 128

$1/128$

128

$128$

1 / 256

$1/256$

7.5

$7.5$

64

$64$

1 / 128 \sqrt{2}

$1/128\sqrt{2}$

128

$128$

1 / 256 (2 - 1 / \sqrt{2})

$1/256(2-1/\sqrt{2})$

1 / (2 \sqrt{2}) * 7.5 + (1 - 1 / (2 \sqrt{(} 2))) * 5.802

$1/(2\sqrt{2})*7.5+(1-1/(2\sqrt(2)))*5.802$

(1 - 2^{- 1.5}) * 7 + 2^{- 1.5} * 8 = 7.3535.

$(1-2^{-1.5})*7+2^{-1.5}*8 = 7.3535.$

0.95

$0.95$ .

— Carl