Estaba leyendo sobre algoritmos de compresión de datos y el límite teórico para la compresión de datos. Recientemente encontré un método de compresión llamado "Codificación de entropía combinatoria", la idea principal de este método es codificar el archivo como los caracteres presentados en el archivo, sus frecuencias y el índice de permutación de estos caracteres representado por el archivo.
Estos documentos pueden ayudar a explicar este método:
https://arxiv.org/pdf/1703.08127
http://www-video.eecs.berkeley.edu/papers/vdai/dcc2003.pdf
https://www.thinkmind.org/download.php?articleid=ctrq_2014_2_10_70019
Sin embargo, en el primer documento que leí que al usar este método podrían comprimir algo de texto por debajo del límite de Shannon (no consideraron el espacio necesario para guardar la frecuencia de los caracteres y el espacio necesario para guardar el meta datos del archivo). Lo pensé y descubrí que este método no será muy eficiente para archivos muy pequeños, pero por otro lado puede funcionar bien con archivos grandes. En realidad no entiendo muy bien este algoritmo o el límite de Shannon, solo sé que es la suma de la probabilidad de cada personaje multiplicada por del recíproco de la probabilidad.
Entonces tengo algunas preguntas:
¿Este método de compresión realmente comprime archivos más pequeños que el límite de Shannon?
¿Hay algún algoritmo de compresión que comprima archivos a menos del límite de Shannon (la respuesta a esta pregunta hasta donde sé es que no)?
¿Puede existir un método de compresión que comprima archivos más pequeños que el límite de Shannon?
Si la codificación combinatoria realmente comprime archivos más allá del límite de Shannon, ¿no es posible comprimir el archivo una y otra vez hasta que alcancemos el tamaño de archivo que queremos?