Desduplicación a nivel de bloque en Linux

10

NetApp proporciona deduplicación a nivel de bloque (ASIS). ¿Conoce algún sistema de archivos (incluso basado en FUSE) en Linux (u OpenSolaris, * BSD) que proporcione la misma funcionalidad?

(No estoy interesado en deduplicaciones falsas como enlaces duros).

linux netapp deduplication

— Benoît
fuente

6

Verifique menosFS, sistema de archivos de deduplicación de datos, para Linux. Todavía está en beta pero puedes probarlo:

http://www.lessfs.com/

Saludos,

MV

— MV.
fuente

Excelente! Eso sigue siendo beta, pero definitivamente es algo para comenzar.

— Benoît

7

La deduplicación llega a ZFS en OpenSolaris, pero esa funcionalidad no está disponible actualmente.

Fue prototipo de Jeff Bonwick y Bill Moore el invierno pasado y están trabajando para integrarlo este verano. Por lo tanto, debería estar disponible en la próxima versión de OpenSolaris o antes si desea jugar con la rama de desarrollo.

— 3dinfluence
fuente

Vea la respuesta de @ jlliagre: ya está disponible.

— James Moore

4

Para las personas que pueden no estar familiarizadas con la deduplicación de datos, es una técnica mediante la cual los datos se analizan a nivel de archivo (o bloque, supongo), y donde los archivos / bloques idénticos en todo el sistema de archivos se reemplazan con un token más pequeño. Esto tiene el efecto de reducir considerablemente el tamaño efectivo en el disco. Podría considerarse una forma de copia en escritura . Lea la página wiki en él.

No hay ningún sistema de archivos del que haya oído hablar en Linux para hacer dedupciones, archivos o niveles de bloque. Tal bestia sería útil, aunque bastante procesador intensivo.

— Matt Simmons
fuente

4

La deduplicación ahora está disponible con ZFS en OpenSolaris (compilación 128a y versiones más recientes).

— jlliagre
fuente

2

Un año después, pero aquí hay una solución para OpenBSD llamada Epitome: http://www.peereboom.us/epitome/ . Siempre que se trate de licencias liberales, bien podría ingresar al kernel de Linux.

1

Acabo de publicar un proyecto en el que he estado trabajando que hace deduplicación en línea. Puedes echarle un vistazo aquí si estás interesado. Se basa en fusibles y se ejecuta en Linux.

0

No conozco ninguna implementación gratuita de dedup para Linux. He visto a algunos proveedores de almacenamiento recomendar el uso de un sistema HSM (gestión de almacenamiento jerárquico) con una VTL (Biblioteca de almacenamiento virtual) que deduplica.

También podría considerar un sistema similar a Occarina que no es transparente pero puede proporcionar mejores resultados que la deducción.

— James
fuente

0

entonces ... ¿no hay noticias sobre deduplicación en Linux? opendedup puede ser una opción, pero teniendo en cuenta la plataforma Java en la que se ejecuta, no quiero tener dolores de cabeza. Lo he intentado sí, pero esta máquina Java y el resto no están mejorando con mis necesidades de tiempos de respuesta de almacenamiento y seguridad.

0

La opción de deduplicación está disponible en Linux, en sistemas de archivos BTRFS y ZFS. BTRFS se desarrolla de forma nativa en Linux y tiene una herramienta de deduplicación fuera de línea. No estoy pensando 'fuera de línea', debes desmontar fs. Sin conexión significa que los datos escritos activamente no se deduplican. Pero luego ejecutas la herramienta para deduplicar los pensamientos almacenados ahora. En realidad, probablemente la herramienta está en beta. Otra forma es dentro de ZFS. Disponible como FUSE y de forma nativa: http://zfsonlinux.org/ . Esto hace deduplicación en línea, desafortunadamente esto ralentiza las escrituras porque todo debe calcularse sobre la marcha. Puede conectar y desconectar este comportamiento en línea. Después de desactivar la deduplicación, todos los datos deduplicados se almacenarán como deduplicados. Las nuevas escrituras se almacenarán como 'duplicadas'. Si desea deduplicar esos datos en el futuro, debe activar la deduplicación y reescribir todos los archivos 'duplicados'.

Ver el documento disponible en la página. Para acelerar las escrituras y las lecturas, puede agregar dispositivos más rápidos al grupo de almacenamiento (especialmente unidades SDD o quizás flash USB más rápido, preste atención a la confiabilidad del dispositivo).

— Znik
fuente

-2

¡DRBD hace exactamente eso y lo hace muy bien! Puede hacer Master / Slave o Master / Master :-)

— Antoine Benkemoun
fuente

¿Me podría indicar el documento de deduplicación? No puedo encontrarlo en drbd.org/home/feature-list .

— Benoît

Creo Antoine significaba 'duplicación', que no es realmente lo que estaba buscando, lo sé

— Matt Simmons

oh mi mal, ¿cuál es la diferencia entre duplicación y deduplicación?

— Antoine Benkemoun

Puse una explicación rápida en mi comentario, pero esencialmente la duplicación envía los datos a otro host, donde como deduplicación elimina información idéntica en todo el filesyste, aumentando el espacio libre de efectivo

— Matt Simmons