No soy un sistema de archivos distribuido ninja, pero después de consolidar tantas unidades como puedo en la menor cantidad de máquinas que pueda, intentaría usar iSCSI para conectar la mayor parte de las máquinas a una máquina principal. Allí podría consolidar las cosas en un almacenamiento con tolerancia a fallos. Preferiblemente, tolerante a fallas dentro de una máquina (si se apaga una unidad) y entre máquinas (si una máquina completa está apagada).
Personalmente me gusta ZFS. En este caso, la compilación de compresión, deducción y tolerancia a fallos sería útil. Sin embargo, estoy seguro de que hay muchas otras formas de comprimir los datos al tiempo que los hace tolerantes a fallas.
Ojalá tuviera una solución de archivos distribuidos llave en mano real para recomendar, sé que esto es realmente muy difícil, pero espero que te indique la dirección correcta.
Editar: Todavía soy nuevo en ZFS y configuré iSCSI, pero recordé haber visto un video de Sun en Alemania donde mostraban la tolerancia a fallas de ZFS. Conectaron tres concentradores USB a una computadora y pusieron cuatro unidades flash en cada concentrador. Luego, para evitar que cualquier concentrador elimine el grupo de almacenamiento, crearon un volumen RAIDz que consta de una unidad flash de cada concentrador. Luego unen los cuatro volúmenes ZFS RAIDz. De esa forma, solo se utilizaron cuatro unidades flash para la paridad. Luego, por supuesto, el hub desenchufado y eso degradó cada zpool, pero todos los datos estaban disponibles. En esta configuración, se podrían perder hasta cuatro unidades, pero solo si dos unidades no estuvieran en el mismo grupo.
Si esta configuración se usara con la unidad sin formato de cada caja, eso preservaría más unidades para datos y no para paridad. Escuché que FreeNAS puede (o iba a poder) compartir unidades de una manera "cruda" a través de iSCSI, por lo que supongo que Linux puede hacer lo mismo. Como dije, todavía estoy aprendiendo, pero este método alternativo sería menos derrochador desde el punto de vista de la paridad de unidad que mi sugerencia anterior. Por supuesto, dependería del uso de ZFS, que no sé si sería aceptable. Sé que generalmente es mejor atenerse a lo que sabes si vas a tener que construir / mantener / reparar algo, a menos que sea una experiencia de aprendizaje.
Espero que esto sea mejor.
Editar: Investigué un poco y encontré el video del que hablé. La parte donde explican cómo extender la unidad flash USB a través de los hubs comienza a los 2m10s. El video es para hacer una demostración de su servidor de almacenamiento "Thumper" (X4500) y cómo distribuir los discos entre los controladores, de modo que si tiene una falla en el controlador del disco duro, sus datos seguirán siendo buenos. (Personalmente, creo que esto es solo un video de geeks divirtiéndose. Desearía tener una caja Thumper, pero a mi esposa no le gustaría que pasara una transpaleta por la casa.: D Esa es una caja grande).
Editar: recordé venir a través de un sistema de archivos distribuido llamado OpenAFS . No lo había intentado, solo había leído algo al respecto. Quizás otros sepan cómo se maneja en el mundo real.