El conjunto de volúmenes Areca 1280ml RAID6 falló

Hoy nos topamos con el peor de los casos y estamos abiertos a cualquier tipo de buenas ideas.

Aquí está nuestro problema:

Estamos utilizando varios servidores de almacenamiento dedicados para alojar nuestras máquinas virtuales. Antes de continuar, aquí están las especificaciones:

Máquina de servidor dedicada
Controlador RAID Areca de 1280 ml, firmware 1.49
12 discos duros Samsung de 1 TB

Configuramos un conjunto RAID6 con 10 discos que contiene un volumen lógico. Tenemos dos repuestos activos en el sistema.

Hoy un disco duro falló. Esto sucede de vez en cuando, así que lo reemplazamos. Al reconstruir un segundo disco falló. Normalmente esto no es divertido. Detuvimos las operaciones pesadas de E / S para garantizar una reconstrucción RAID estable.

Lamentablemente, el disco de repuesto en caliente falló durante la reconstrucción y todo se detuvo.

Ahora tenemos la siguiente situación:

El controlador dice que el conjunto de incursiones se está reconstruyendo
El controlador dice que el volumen falló

Es un sistema RAID 6 y fallaron dos discos, por lo que los datos deben estar intactos, pero no podemos volver a poner el volumen en línea para acceder a los datos.

Mientras buscamos encontramos los siguientes leads. No sé si son buenos o malos:

Duplicar todos los discos en un segundo conjunto de unidades. Entonces tendríamos la posibilidad de probar cosas diferentes sin perder más de lo que ya tenemos.
Intentando reconstruir la matriz en R-Studio. Pero no tenemos experiencia real con el software.
Extraer todas las unidades, reiniciar el sistema, cambiar a la BIOS del controlador areca y volver a insertar los discos duros uno por uno. Algunas personas dicen que esto puso en línea el sistema. Algunos dicen que el efecto es cero. Algunos dicen que lo arruinaron todo.
Usar comandos areca no documentados como "rescate" o "LeVel2ReScUe".
Contactando a un servicio de informática forense. Pero vaya ... las estimaciones primarias por teléfono superaron los 20.000 €. Es por eso que amablemente pedimos ayuda. Tal vez nos estamos perdiendo lo obvio?

Y sí, por supuesto, tenemos copias de seguridad. Pero algunos sistemas perdieron una semana de datos, por eso nos gustaría que el sistema vuelva a funcionar.

Cualquier ayuda, sugerencias y preguntas son más que bienvenidas.

— Ricardo
fuente

Yo diría que, hagas lo que hagas, tu primer paso debe ser un ddespejo de todos los discos, solo para evitar más daños y tener un plan alternativo cuando trabajes en una solución real.

— Sven

Haremos esto ...

— Richard

¿Qué pasa con los hotspares?

— Cawflands

¿Puede ponerse en contacto con el proveedor para obtener asistencia? Asumiendo que no puede (y ha usado dd para reflejar todo, según la excelente sugerencia de @ SvenW), ¿por qué no reemplazar las unidades fallidas, reiniciar y ver qué sucede? No necesariamente sacaría todas las unidades, solo las fallidas. Pero realmente, su primera apuesta es el vendedor, ellos entienden su software.

— Jeremy

¿Encontraste una solución? Si es así, háganos saber lo que fue para futuras referencias, por favor!

— Grant

Respuestas:

Creo que la opción 1. es tu mejor.

Tome 12 discos duros nuevos, 1x controlador RAID nuevo Intente duplicar (dd if = of =) discos viejos a los nuevos 1: 1 usando cualquier caja de Linux. Cree un nuevo servidor utilizando el nuevo controlador RAID 1x más los 12 HDD nuevos

Intente reconstruir la matriz en el nuevo servidor. ¿Éxito? Excelente. Detener.
Reconstrucción fallida? Refleje los discos viejos a los nuevos nuevamente, pruebe la Opción i + 1

— cipy
fuente

Este es un escenario muy común desafortunadamente. Hubo un buen estudio de Google sobre esto hace años, y resulta que la pérdida de datos con RAID puede ocurrir durante la reconstrucción de la matriz. Esto puede afectar a diferentes sistemas RAID con diferente gravedad. Aquí está el escenario RAID6:

su matriz tiene 3 datos y 2 discos de paridad.
Si pierde un disco, es seguro que todos los datos son recuperables.
si pierde 2 discos, perdió datos

¿Porqué es eso?

Piense en lo siguiente: permita tener algunos datos, suponga que los primeros 3 bloques de un archivo tiene los siguientes bloques de datos: A1 + A2 + A3 y la siguiente paridad: Ap + Ap sentado en hdd1 ... hdd5

Si pierde dos discos entre 1 y 3, perdió datos porque los datos no son recuperables, tiene 2 paridad y 1 bloque de datos.

Ahora, el mismo escenario con 10 discos puede ser diferente, pero supongo que se manejó de la misma manera que divide los datos en 8 bloques y guarda la paridad en otras 2 unidades y tiene 2 repuestos dinámicos. ¿Conoces los detalles de la configuración de tu controlador RAID?

Comenzaría a recuperarme de la copia de seguridad externa (supongo que tiene algo), y el servicio está de vuelta, intente recuperar la mayor cantidad de datos posible, utilizando Unix y dd las unidades a imágenes y utilizándolas como dispositivo de bucle, por ejemplo.

http://wiki.edseek.com/guide:mount_loopback

Debe saber qué tipo de metadatos utiliza el controlador RAID y, si tiene suerte, es compatible con alguna herramienta como dmraid.

Pero esto no significa que pueda recuperar datos en absoluto, ya que los archivos se distribuyen entre muchos bloques por lo general, es probable que la recuperación no recupere ninguno de sus datos.

Más sobre RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

— Istvan
fuente