Hoy nos topamos con el peor de los casos y estamos abiertos a cualquier tipo de buenas ideas.
Aquí está nuestro problema:
Estamos utilizando varios servidores de almacenamiento dedicados para alojar nuestras máquinas virtuales. Antes de continuar, aquí están las especificaciones:
- Máquina de servidor dedicada
- Controlador RAID Areca de 1280 ml, firmware 1.49
- 12 discos duros Samsung de 1 TB
Configuramos un conjunto RAID6 con 10 discos que contiene un volumen lógico. Tenemos dos repuestos activos en el sistema.
Hoy un disco duro falló. Esto sucede de vez en cuando, así que lo reemplazamos. Al reconstruir un segundo disco falló. Normalmente esto no es divertido. Detuvimos las operaciones pesadas de E / S para garantizar una reconstrucción RAID estable.
Lamentablemente, el disco de repuesto en caliente falló durante la reconstrucción y todo se detuvo.
Ahora tenemos la siguiente situación:
- El controlador dice que el conjunto de incursiones se está reconstruyendo
- El controlador dice que el volumen falló
Es un sistema RAID 6 y fallaron dos discos, por lo que los datos deben estar intactos, pero no podemos volver a poner el volumen en línea para acceder a los datos.
Mientras buscamos encontramos los siguientes leads. No sé si son buenos o malos:
Duplicar todos los discos en un segundo conjunto de unidades. Entonces tendríamos la posibilidad de probar cosas diferentes sin perder más de lo que ya tenemos.
Intentando reconstruir la matriz en R-Studio. Pero no tenemos experiencia real con el software.
Extraer todas las unidades, reiniciar el sistema, cambiar a la BIOS del controlador areca y volver a insertar los discos duros uno por uno. Algunas personas dicen que esto puso en línea el sistema. Algunos dicen que el efecto es cero. Algunos dicen que lo arruinaron todo.
Usar comandos areca no documentados como "rescate" o "LeVel2ReScUe".
Contactando a un servicio de informática forense. Pero vaya ... las estimaciones primarias por teléfono superaron los 20.000 €. Es por eso que amablemente pedimos ayuda. Tal vez nos estamos perdiendo lo obvio?
Y sí, por supuesto, tenemos copias de seguridad. Pero algunos sistemas perdieron una semana de datos, por eso nos gustaría que el sistema vuelva a funcionar.
Cualquier ayuda, sugerencias y preguntas son más que bienvenidas.
dd
espejo de todos los discos, solo para evitar más daños y tener un plan alternativo cuando trabajes en una solución real.