Tengo un servidor Linux con muchos discos de 2 TB, todos actualmente en un LVM que dan como resultado unos 10 TB de espacio. Uso todo este espacio en una partición ext4, y actualmente tengo alrededor de 8,8 TB de datos.
El problema es que a menudo recibo errores en mis discos, e incluso si los reemplazo (es decir, copio el disco viejo a uno nuevo con dd y luego pongo el nuevo en el servidor) tan pronto como aparecen los errores, A menudo obtengo alrededor de 100 MB de datos corruptos. Eso hace que e2fsck se vuelva loco cada vez, y a menudo lleva una semana volver a poner el sistema de archivos ext4 en un estado sano.
Entonces la pregunta es: ¿Qué me recomendarías usar como sistema de archivos en mi LVM? ¿O qué me recomendarías que haga (realmente no necesito el LVM)?
Perfil de mi sistema de archivos:
- muchas carpetas de diferentes tamaños totales (algunas por un total de 2 TB, algunas por un total de 100 MB)
- casi 200,000 archivos con diferentes tamaños (3/4 de ellos alrededor de 10 MB, 1/4 entre 100 MB y 4 GB; actualmente no puedo obtener más estadísticas sobre los archivos ya que mi partición ext4 está completamente destruida durante algunos días)
- muchas lecturas pero pocas escrituras
- y necesito tolerancia a fallas (dejé de usar mdadm RAID porque no me gusta tener UN error en todo el disco, y a veces tengo discos defectuosos, que reemplazo tan pronto como puedo, pero eso significa que puedo obtener datos corruptos en mi sistema de archivos)
El principal problema son los discos defectuosos; Puedo perder algunos archivos, pero no puedo permitirme perder todo al mismo tiempo.
Si sigo usando ext4, escuché que debería intentar crear sistemas de archivos más pequeños y "fusionarlos" de alguna manera, pero no sé cómo.
Escuché que btrfs sería bueno, pero no puedo encontrar ninguna pista sobre cómo logra perder una parte de un disco (o un disco completo), cuando los datos NO se replican ( mkfs.btrfs -d single
?).
Cualquier consejo sobre la pregunta será bienvenido, gracias de antemano!