Tenemos una estructura de carpetas en nuestra intranet que contiene alrededor de 800,000 archivos divididos en alrededor de 4,000 carpetas. Necesitamos sincronizar esto con un pequeño grupo de máquinas en nuestras DMZ. La profundidad de la estructura es muy superficial (nunca excede los dos niveles de profundidad).
La mayoría de los archivos nunca cambian, cada día hay unos pocos miles de archivos actualizados y 1-2 mil archivos nuevos. Los datos son datos de informes históricos que se mantienen donde se han purgado los datos de origen (es decir, estos son informes finalizados para los cuales los datos de origen son lo suficientemente antiguos como para archivarlos y eliminarlos). Sincronizar una vez al día es suficiente dado que puede suceder en un plazo razonable. Los informes se generan durante la noche y sincronizamos a primera hora de la mañana como una tarea programada.
Obviamente, dado que muy pocos de los archivos cambian regularmente, podemos beneficiarnos enormemente de la copia incremental. Hemos probado Rsync, pero eso puede llevar entre ocho y doce horas solo para completar la operación de "lista de archivos de construcción". Está claro que estamos superando rápidamente lo que rsync es capaz de hacer (el período de tiempo de 12 horas es demasiado largo).
Habíamos estado usando otra herramienta llamada RepliWeb para sincronizar las estructuras, y puede hacer una transferencia incremental en aproximadamente 45 minutos. Sin embargo, parece que hemos excedido su límite, ha comenzado a ver que los archivos se muestran como eliminaciones cuando no lo están (tal vez se haya agotado parte de la estructura de la memoria interna, no estamos seguros).
¿Alguien más se ha encontrado con un proyecto de sincronización a gran escala de este tipo? ¿Hay algo diseñado para manejar estructuras de archivos masivas como esta para la sincronización?