Casi todos los archivadores modernos hacen exactamente esto, la única diferencia es que se refieren a esto como un archivo "sólido", ya que en todos los archivos se concatenan en una sola secuencia antes de pasar al algoritmo de compresión. Esto es diferente de la compresión zip estándar que comprime cada archivo uno por uno y agrega cada archivo comprimido al archivo.
7-zip por su propia naturaleza logra efectivamente la desduplicación. 7-Zip, por ejemplo, buscará archivos, los ordenará por tipos de archivo y nombres de archivo similares, por lo que dos archivos del mismo tipo y datos se colocarán uno al lado del otro en la secuencia que va a los algoritmos del compresor. El compresor verá una gran cantidad de datos que ha visto recientemente y esos dos archivos verán un gran aumento en la eficiencia de compresión en comparación con la compresión de los archivos uno por uno.
Linux ha visto un comportamiento similar durante mucho tiempo a través de la prevalencia de su formato ".tgz" (o ".tar.gz" para usar su forma completa) ya que el tar simplemente fusiona todos los archivos en una sola secuencia (aunque sin ordenar y agrupar archivos) y luego comprimirlos con gzip. Lo que se pierde es la clasificación que está haciendo 7-zip, lo que puede disminuir ligeramente la eficiencia, pero sigue siendo mucho mejor que simplemente juntar una gran cantidad de archivos comprimidos individualmente como lo hace zip.