Realmente, el hecho de que los archivos ya estén comprimidos no es el problema crucial. Es esto: la compresión en general solo puede funcionar si los datos tienen algún tipo de redundancia . Ese es prácticamente siempre el caso de los archivos sin comprimir; sin embargo, no es necesariamente obvio cuál es la redundancia. Los algoritmos de compresión de propósito general se dirigen principalmente al tipo de cosas obvias en los archivos de texto: muchas palabras aparecen no solo una vez sino muchas veces en forma idéntica, tal vez se pueden combinar frases de palabras, etc. etc. Los algoritmos son bastante buenos en generalizando esto a cualquier cosa, desde listas de números de teléfono codificados en ASCII sobre poesía china hasta código de máquina binario, pero no pueden funcionar para ningún tipo de datos. En particular, los archivos multimedia son conceptualmentedatos analógicos , en una representación digital ruidosa. Eso significa que en realidad no hay ningún tipo de redundancia de archivos de texto: algunos motivos pueden ser recurrentes, pero siempre con una configuración ligeramente diferente del ruido del sensor. Es por eso que todos los formatos de imagen / AV comprimidos usan alguna transformación ingeniosamente elegida como su primer paso de codificación, normalmente basado en DCT o wavelets . Estas transformaciones, en términos generales, mueven las porciones de imagen y las porciones de ruido a diferentes ubicaciones, por lo que pueden separarse bien y con una compresión con pérdida, retiene solo la información que cree que es más "importante", que no incluye el ruido, mientras que " buena información "tiene mucha redundancia. (En realidad no es así, pero más o menos).
Si los compresores de uso general usaran estas transformaciones, el efecto sería el opuesto: la mayoría de la información digital se clasificaría erróneamente como algún tipo de ruido, porque carece de la estructura "uniforme" que se encuentra en las señales analógicas. Y después de la compresión de video con pérdida, obviamente, ya no se puede encontrar ni la suavidad analógica ni la recurrencia digital (si lo fuera, ¡los códecs usarían otra etapa bzip o algo por sí mismos!)