Degradó RAID5 luego de una falla completa del disco

Estoy ejecutando OMV 3.0.99 en mi NAS. He configurado un RAID5 (con mdadm) que contiene tres unidades WD RED de 5TB. He configurado el RAID usando la GUI de OMV en el día (2016).

Recientemente uno de los discos ha fallado (solía ser / dev / sdd). Cuando llegué a casa, he notado que hace un sonido extraño al comenzar y que LINUX ya no lo reconoce. El dispositivo parece estar físicamente roto y he configurado un RMA ya que todavía tengo garantía en las unidades. Ahora estoy esperando la unidad de reemplazo y me pregunto qué debo hacer cuando la nueva unidad esté aquí para recuperar mi RAID.

Algunas notas en mis discos:

/ dev / sda es mi unidad de sistema
el RAID contenido de los discos / dev / sdb, sdc y sdd. La unidad / dev / sdd falló y se ha eliminado físicamente de la caja del NAS.
Ahora / dev / sdd fue asignado a mi disco de respaldo (solía ser sde antes de que fallara el disco RAID)

Aquí hay algunos resultados importantes de mi sistema:

uname -a salida

Linux homenas 4.9.0-0.bpo.6-amd64 #1 SMP Debian 4.9.88-1+deb9u1~bpo8+1 (2018-05-13) x86_64 GNU/Linux

cat /proc/mdstat:

Personalities : [raid6] [raid5] [raid4] 
md127 : active raid5 sdb[0] sdc[1]
        9767278592 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
unused devices: <none>

blkid:

/dev/sda1: UUID="911053a9-f06c-4479-becb-cb8faa2a5783" TYPE="ext4" PARTUUID="2c92f843-01"
/dev/sda5: UUID="28ae7474-1d14-48a6-9e8e-2ed31e060803" TYPE="swap" PARTUUID="2c92f843-05"
/dev/sdb: UUID="bb8b3798-d160-71b4-cc60-bc8fdc8e0761" UUID_SUB="e52bb12c-23e1-7c8f-a7f7-d52d4b2b46a9" LABEL="HomeNAS:NAS" TYPE="linux_raid_member"
/dev/sdc: UUID="bb8b3798-d160-71b4-cc60-bc8fdc8e0761" UUID_SUB="d9eac207-7167-d19e-c1de-8c7525b77d48" LABEL="HomeNAS:NAS" TYPE="linux_raid_member"
/dev/sdd1: UUID="523cffe7-115d-49b4-95e0-7549aecdf064" TYPE="ext4" PARTUUID="fba4a7ee-026a-497f-9b3d-bbdec92cb0d6"
/dev/md127: UUID="bd5ef96f-5587-4211-95c0-10219985ff6d" TYPE="ext4"

fdisk -l | grep "Disk ":

Disk /dev/sda: 29,8 GiB, 32017047552 bytes, 62533296 sectors
Disk identifier: 0x2c92f843
Disk /dev/sdb: 4,6 TiB, 5000981078016 bytes, 9767541168 sectors
Disk /dev/sdc: 4,6 TiB, 5000981078016 bytes, 9767541168 sectors
Disk /dev/sdd: 1,8 TiB, 2000394706432 bytes, 3907020911 sectors
Disk identifier: C0401C51-A74A-4675-935E-AF9BF6706166
Disk /dev/md127: 9,1 TiB, 10001693278208 bytes, 19534557184 sectors

cat /etc/mdadm/mdadm.conf:

# mdadm.conf
#
# Please refer to mdadm.conf(5) for information about this file.
#
        
# by default, scan all partitions (/proc/partitions) for MD superblocks.
# alternatively, specify devices to scan, using wildcards if desired.
# Note, if no DEVICE line is present, then "DEVICE partitions" is assumed.
# To avoid the auto-assembly of RAID devices a pattern that CAN'T match is
# used if no RAID devices are configured.
DEVICE partitions

# auto-create devices with Debian standard permissions
CREATE owner=root group=disk mode=0660 auto=yes

# automatically tag new arrays as belonging to the local system
HOMEHOST <system>

# definitions of existing MD arrays
ARRAY /dev/md/NAS metadata=1.2 name=HomeNAS:NAS UUID=bb8b3798:d16071b4:cc60bc8f:dc8e0761

# instruct the monitoring daemon where to send mail alerts
MAILADDR <<<<REMOVED FOR PRIVACY RESONS>>>>

mdadm --detail --scan --verbose:

ARRAY /dev/md127 level=raid5 num-devices=3 metadata=1.2 name=HomeNAS:NAS UUID=bb8b3798:d16071b4:cc60bc8f:dc8e0761
      devices=/dev/sdb,/dev/sdc

mdadm --detail /dev/md127:

/dev/md127:
          Version : 1.2
Creation Time : Sat Mar 12 17:22:49 2016
       Raid Level : raid5
       Array Size : 9767278592 (9314.80 GiB 10001.69 GB)
  Used Dev Size : 4883639296 (4657.40 GiB 5000.85 GB)
   Raid Devices : 3
  Total Devices : 2
    Persistence : Superblock is persistent
        
            Update Time : Sun Jan 27 13:11:42 2019
                  State : clean, degraded 
         Active Devices : 2
        Working Devices : 2
         Failed Devices : 0
          Spare Devices : 0
        
                 Layout : left-symmetric
             Chunk Size : 512K
        
                   Name : HomeNAS:NAS
                   UUID : bb8b3798:d16071b4:cc60bc8f:dc8e0761
                 Events : 305
        
            Number   Major   Minor   RaidDevice State
               0       8       16        0      active sync   /dev/sdb
               1       8       32        1      active sync   /dev/sdc
               4       0        0        4      removed

Busqué en Internet y encontré diferentes pasos, pero no sé cuáles son los necesarios en mi situación:

marcar el disco como fallido
quitar el disco de la matriz
Copie la tabla de particiones de un disco restante de la matriz en la nueva unidad de reemplazo
vuelva a agregar la unidad a la matriz (- & gt; la reconstrucción se iniciará automáticamente)

Como el disco falló completamente y ya no estaba presente en Linux, no pude marcarlo como fallido y eliminarlo de la matriz. He encontrado el siguiente comando para eliminar un disco de la matriz que ya no está presente: mdadm /dev/md127 -r detached

¿Se recomienda usar este comando antes de instalar la nueva unidad? ¿O no es necesario quitar la unidad de la matriz en mi caso?

¡Realmente apreciaría su guía! Gracias por adelantado

mdadm raid-5

— bash0r1988
fuente

Por favor revise el ayuda de formato para aprender sobre cómo formatear correctamente el texto en los sitios de Stack Exchange.

— Daniel B

Debería estar usando RAID5 con 9 tb de disco: las posibilidades de un segundo fallo durante la reconstrucción son muy altas. Vonsider en el futuro convirtiendo a RAID10

— davidgo

Básicamente es solo un simple

mdadm /dev/md127 --add /dev/newdrive

y entonces watch cat /proc/mdstat y / o dmesg -w para reconstruir el progreso o el fracaso.

Cuanto antes agregue una nueva unidad a la matriz, mejor. Si otra unidad falla mientras esperas, eso es todo. Si no tiene una copia de seguridad de sus datos, haga uno lo antes posible.

Normalmente, también creará primero una tabla de partición en la unidad y luego usará la partición para el RAID, y no la unidad directamente. Pero no es posible en su caso ya que ya tiene unidades sin particiones en su matriz, y al agregar una tabla de particiones ahora, el tamaño ya no coincidirá.

La ejecución de unidades sin tabla de particiones es una causa potencial de pérdida de datos. Demasiado software por ahí que crea una tabla de particiones útil si no la ve, también es fácil hacerlo por sí mismo.

— frostschutz
fuente

Gracias por su respuesta. He apagado el NAS hasta que tenga la unidad de reemplazo. Tengo una copia de seguridad de mis datos importantes. ¿Qué pasa con el RaidDevice 4 que se muestra como "eliminado"? ¿No tengo que eliminarlo de la matriz antes de agregar un nuevo disco?

— bash0r1988

Degradó RAID5 luego de una falla completa del disco - ¿Qué hacer ahora?