Respuestas:
Verifique menosFS, sistema de archivos de deduplicación de datos, para Linux. Todavía está en beta pero puedes probarlo:
Saludos,
MV
La deduplicación llega a ZFS en OpenSolaris, pero esa funcionalidad no está disponible actualmente.
Fue prototipo de Jeff Bonwick y Bill Moore el invierno pasado y están trabajando para integrarlo este verano. Por lo tanto, debería estar disponible en la próxima versión de OpenSolaris o antes si desea jugar con la rama de desarrollo.
Para las personas que pueden no estar familiarizadas con la deduplicación de datos, es una técnica mediante la cual los datos se analizan a nivel de archivo (o bloque, supongo), y donde los archivos / bloques idénticos en todo el sistema de archivos se reemplazan con un token más pequeño. Esto tiene el efecto de reducir considerablemente el tamaño efectivo en el disco. Podría considerarse una forma de copia en escritura . Lea la página wiki en él.
No hay ningún sistema de archivos del que haya oído hablar en Linux para hacer dedupciones, archivos o niveles de bloque. Tal bestia sería útil, aunque bastante procesador intensivo.
Un año después, pero aquí hay una solución para OpenBSD llamada Epitome: http://www.peereboom.us/epitome/ . Siempre que se trate de licencias liberales, bien podría ingresar al kernel de Linux.
Acabo de publicar un proyecto en el que he estado trabajando que hace deduplicación en línea. Puedes echarle un vistazo aquí si estás interesado. Se basa en fusibles y se ejecuta en Linux.
No conozco ninguna implementación gratuita de dedup para Linux. He visto a algunos proveedores de almacenamiento recomendar el uso de un sistema HSM (gestión de almacenamiento jerárquico) con una VTL (Biblioteca de almacenamiento virtual) que deduplica.
También podría considerar un sistema similar a Occarina que no es transparente pero puede proporcionar mejores resultados que la deducción.
entonces ... ¿no hay noticias sobre deduplicación en Linux? opendedup puede ser una opción, pero teniendo en cuenta la plataforma Java en la que se ejecuta, no quiero tener dolores de cabeza. Lo he intentado sí, pero esta máquina Java y el resto no están mejorando con mis necesidades de tiempos de respuesta de almacenamiento y seguridad.
La opción de deduplicación está disponible en Linux, en sistemas de archivos BTRFS y ZFS. BTRFS se desarrolla de forma nativa en Linux y tiene una herramienta de deduplicación fuera de línea. No estoy pensando 'fuera de línea', debes desmontar fs. Sin conexión significa que los datos escritos activamente no se deduplican. Pero luego ejecutas la herramienta para deduplicar los pensamientos almacenados ahora. En realidad, probablemente la herramienta está en beta. Otra forma es dentro de ZFS. Disponible como FUSE y de forma nativa: http://zfsonlinux.org/ . Esto hace deduplicación en línea, desafortunadamente esto ralentiza las escrituras porque todo debe calcularse sobre la marcha. Puede conectar y desconectar este comportamiento en línea. Después de desactivar la deduplicación, todos los datos deduplicados se almacenarán como deduplicados. Las nuevas escrituras se almacenarán como 'duplicadas'. Si desea deduplicar esos datos en el futuro, debe activar la deduplicación y reescribir todos los archivos 'duplicados'.
Ver el documento disponible en la página. Para acelerar las escrituras y las lecturas, puede agregar dispositivos más rápidos al grupo de almacenamiento (especialmente unidades SDD o quizás flash USB más rápido, preste atención a la confiabilidad del dispositivo).
¡DRBD hace exactamente eso y lo hace muy bien! Puede hacer Master / Slave o Master / Master :-)