Heredé un grupo de investigación con ~ 40 TB de datos en tres sistemas de archivos. Los datos se remontan a casi 15 años, y es muy probable que haya una buena cantidad de duplicados a medida que los investigadores copian los datos de los demás por diferentes razones y luego simplemente se quedan con las copias.
Sé sobre herramientas de eliminación de duplicados como fdupes y rmlint. Estoy tratando de encontrar uno que funcione en un conjunto de datos tan grande. No me importa si toma semanas (o tal vez incluso meses) rastrear todos los datos; probablemente lo estrangularé de todos modos para ser fácil en los sistemas de archivos. Pero necesito encontrar una herramienta que sea de alguna manera súper eficiente con RAM, o que pueda almacenar todos los datos intermedios que necesita en archivos en lugar de RAM. Supongo que mi RAM (64 GB) se agotará si rastreo todos estos datos como un conjunto.
Estoy experimentando con fdupes ahora en un árbol de 900 GB. Está en un 25% y el uso de RAM se ha estado incrementando lentamente todo el tiempo, ahora es de 700 MB.
O, ¿hay alguna manera de dirigir un proceso para usar RAM asignada en disco para que haya mucho más disponible y no use RAM del sistema?
Estoy ejecutando CentOS 6.