Usted pregunta:
- ¿Es esto realmente factible como lo sugieren los autores? Según el documento, sus resultados son muy eficientes y siempre comprimen los datos a un tamaño más pequeño. ¿No será enorme el tamaño del diccionario?
Sí, por supuesto. Incluso para su ejemplo seleccionado a mano ("THE FOX SILVER FOX JUMPS OVER THE LAZY DOG"), no logran la compresión, porque el diccionario contiene cada subcadena de 4 bytes del texto (menos 4 bytes por la repetición de " EL ") ... y la versión" comprimida "del texto tiene que incluir el diccionario completo más toda esta basura de números primos.
- ¿No podría usarse esto para volver a comprimir iterativamente los datos comprimidos usando el mismo algoritmo? Es obvio, y se ha demostrado, que tales técnicas (donde los datos comprimidos se vuelven a comprimir tantas veces como sea posible, reduciendo drásticamente el tamaño del archivo) son imposibles; de hecho, no habría biyección entre el conjunto de todos los datos aleatorios y los datos comprimidos. Entonces, ¿por qué parece que esto sería posible?
Una vez más, parece tener una buena comprensión intuitiva de la situación. Se ha dado cuenta intuitivamente de que ningún esquema de compresión puede ser efectivo en todas las entradas, porque si lo fuera, podríamos aplicarlo una y otra vez para comprimir cualquier entrada a un solo bit, ¡y luego a la nada!
Para decirlo de otra manera: una vez que haya comprimido todos sus archivos .wav a .mp3, no obtendrá ninguna mejora en el tamaño del archivo comprimiéndolos. Si su compresor MP3 ha hecho su trabajo, no quedará ningún patrón para que explote el compresor ZIP.
(Lo mismo se aplica al cifrado: si tomo un archivo de ceros y lo cifro de acuerdo con mi algoritmo criptográfico de elección, es mejor que el archivo resultante no sea compresible , ¡o de lo contrario mi algoritmo de cifrado está filtrando "patrón" en su salida!)
- Incluso si la técnica aún no es perfecta, obviamente se puede optimizar y mejorar mucho. ¿Por qué esto no es más conocido / estudiado? Si de hecho estas afirmaciones y resultados experimentales son ciertos, ¿no podría esto revolucionar la informática?
Estas afirmaciones y resultados experimentales no son ciertos.
Como Tom van der Zanden ya señaló, el "algoritmo de compresión" de Chakraborty, Kar y Guchait es defectuoso porque no solo no logra ninguna relación de compresión, sino que también es irreversible (en matemáticas, "no biyectivo"): hay Una multitud de textos que todos "comprimen" a la misma imagen, porque su algoritmo es básicamente multiplicación y la multiplicación es conmutativa.
Debe sentirse bien porque su comprensión intuitiva de estos conceptos lo llevó a la conclusión correcta al instante. Y, si puede perder el tiempo, debe sentir lástima por los autores del artículo que claramente pasaron mucho tiempo pensando en el tema sin entenderlo en absoluto.
El directorio de archivos un nivel por encima de la URL que publicó contiene 139 "documentos" de esta misma calidad, todos aparentemente aceptados en las "Actas de la Conferencia Internacional sobre Investigación Emergente en Computación, Información, Comunicación y Aplicaciones". Esto parece ser una conferencia simulada del tipo habitual. El propósito de tales conferencias es permitir a académicos fraudulentos reclamar "publicación en una revista", al tiempo que permite que organizadores sin escrúpulos ganen mucho dinero. (Para obtener más información sobre conferencias falsas, consulte este hilo de reddit o varias publicaciones de StackExchange sobre el tema ). Existen conferencias falsas en todos los campos. Simplemente aprenda a confiar en sus instintos y no creer todo lo que lee en un "procedimiento de conferencia", y lo hará bien.