DL380 G5, RAID5, ext3, RAID falló

9

Tenemos un antiguo servidor HP DL380G5, con 5 discos SCSI 3.5 '' de 300 GB en una matriz RAID5, en una bahía externa, formateado como un volumen lógico con un sistema de archivos ext3, que aloja 1.2 TB de datos de pacientes clínicos sensibles.

Dos discos mostraron fallas predictivas en hpacucli, así que reemplacé uno de ellos primero, y vi que estaba bien, pero no vi que también indica "Listo para la reconstrucción". Cambié totalmente descuidadamente el segundo también, y ahora dice que la INCURSIÓN FALLÓ.

Devolví el disco anterior, intenté reiniciar el servidor pero ahora me pone en modo de recuperación durante el arranque y dice que no puede encontrar el volumen lógico.

¿Algo que pueda hacer para intentar restaurar esto? No tenemos una copia de seguridad, por desgracia. Cualquier ayuda sería realmente apreciada!

Estaba pensando en devolver AMBAS unidades antiguas, ¿hay alguna posibilidad de que esto reviva el RAID?

raid5 ext3

— undernaut
fuente

Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .

— Michael Hampton

44

Me imagino que su grupo comenzará a hacer copias de seguridad ahora. Si alguna vez fue una cuestión de necesidad o costo, esta debería ser una advertencia bastante clara.

— Jonathon Reinhart

25

Lo siento. Pero este es un error del operador.

Tenía dos discos defectuosos en una matriz RAID5 y eliminó más discos de los que la matriz podía soportar.

Hacer esto sin ninguna copia de seguridad es el error más grande.

Debe comunicarse con una empresa de recuperación de datos para intentar recuperar los datos de la unidad lógica rota.

— ewwhite
fuente

1

Parece que sabe que es un error del operador ... Esa no es una razón para no preguntar qué puede hacer ahora

— StarWeaver

@StarWeaver Sí ... contactar con una empresa de recuperación de datos es el siguiente paso apropiado.

— ewwhite

11

No vuelva a encender el sistema. Ciérrelo, llame a un servicio de recuperación de datos. Existen varios servicios que permiten la recuperación remota de este tipo de falla. En este punto, todo lo que puede hacer es empeorarlo.

Esto a menudo implica conectar todas las unidades directamente a un HBA bueno (¡no una tarjeta RAID u otro controlador!) Y comenzar una imagen de linux descargable específica con herramientas de administración remota. Luego, la empresa accede de forma remota al sistema, evalúa el estado del disco y recupera los metadatos RAID que quedan. Mediante el uso de software patentado, pueden volver a ensamblar un disco RAID virtual (detalles técnicos: a menudo algo que se conecta al sistema estándar de mapeo de dispositivos Linux). Esto expone el software RAID de solo lectura (sin acelerador RAID SoC). Los siguientes pasos son verificar que los datos no estén dañados más allá del uso y clonar el disco virtual en un nuevo disco para completar la recuperación de datos. Después de eso, puede preocuparse por volver a poner en funcionamiento el sistema.

Si bien no voy a nombrar ningún servicio aquí, la mayoría de ellos son fáciles de encontrar y para los que tienen servicios remotos (ahorrándole el viaje de ida y vuelta de enviarles las unidades RAID + unidad de recuperación y esperando la recuperación + clon y luego los envían de vuelta) obtiene el beneficio de que los datos nunca abandonen sus instalaciones.

Una pequeña cantidad de buenas noticias: siempre y cuando el controlador RAID (o usted) no haya escrito datos nuevos en ninguno de los discos, y la advertencia previa al fallo no sea una advertencia de fallo, existe prácticamente un 99.9999% de posibilidades Un buen equipo de recuperación de datos puede restaurar todo, y razonablemente rápido también.

— John Keates
fuente

5

Re: restaurar los viejos discos.

Debido a que su RAID está completamente muerta tal como está, tiene poco que perder al volver a instalar las dos unidades anteriores a la falla.

Instálelos en las bahías originales.

Recuerde que son previos a la falla, no fallaron por completo, por lo que existe una buena posibilidad de que se ejecuten el tiempo suficiente para rescatar sus datos.

Existe la posibilidad de que la incursión simplemente no aparezca, y una pequeña posibilidad de que el controlador solicite "reiniciar" la incursión (elija NO / CANCELAR) y una pequeña posibilidad de que el controlador de incursión reinicie automáticamente la incursión que negaría cualquier valor agregado por una empresa de recuperación de datos.

Por lo tanto, su máxima prioridad si surge el RAID es quitar los datos. Eso significa que tiene por lo menos 1,2 TB de espacio disponible y listo para copiar los datos fuera, y una herramienta como robocopyo xcopy32, o en su caso de Linux rsync lista para funcionar. No querrá perder el tiempo leyendo páginas de manual y descifrando la sintaxis si sus unidades están desperdiciando sus últimos minutos.

Una vez que sus datos estén seguros, vuelva a crear la incursión como una incursión6 con las nuevas unidades. Perderá 300 GB de capacidad, pero obtendrá una tolerancia de dos unidades. O agregue una unidad adicional y considere una incursión10 sobre 6 unidades. O considere retirar esta máquina por completo; el G5 tiene más de 10 años y ya no es adecuado para tareas de producción importantes.

Y no tratando de poner el arranque, pero configure una solución de respaldo adecuada también. Habrá una próxima vez.

— Criggie
fuente

2

Solo para aclarar: existe una pequeña pero no nula posibilidad de que hacer esto dificultará que cualquier empresa comercial de recuperación de datos tenga éxito en ayudarlo. Personalmente, trataría de volver a armar la incursión, y si eso no funciona, haga un balance.

— Criggie