Estoy tratando de medir ahora mucha información no redundante (real) que contiene mi archivo. Algunos llaman a esto la cantidad de entropía.
Por supuesto, existe el estándar p (x) log {p (x)}, pero creo que Shannon solo lo estaba considerando desde el punto de vista de transmitir a través de un canal. Por lo tanto, la fórmula requiere un tamaño de bloque (digamos en bits, 8 típicamente). Para un archivo grande, este cálculo es bastante inútil, ignorando correlaciones de corta a larga distancia entre símbolos.
Existen métodos de árbol binario y Ziv-Lempel, pero estos parecen de naturaleza altamente académica.
La compresibilidad también se considera una medida de entropía, pero parece que no hay un límite inferior en cuanto al grado de compresión. Para mi archivo hiss.wav,
- hiss.wav original = 5.2 MB
- entropía a través de la fórmula de Shannon = 4.6 MB
- hiss.zip = 4.6 MB
- hiss.7z = 4.2 MB
- hiss.wav.fp8 = 3.3 MB
¿Existe algún método razonablemente factible para medir cuánta entropía existe dentro de hiss.wav?