¿Qué quiere decir tw_cli de 3Ware con un disco "DEGRADED" frente a "ECC-ERROR"?

Tengo una triste matriz RAID en una tarjeta 3ware 9650SE-16ML. Lo que no puedo decir es si acabo de sufrir una falla de doble disco (¡bummer!) O si estoy leyendo esto mal. La salida relativa de /c0 show alles:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ

Y el fallo es (de show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Yo creo que lo que pasó es p0 fallado, y luego P1 tenía un error ECC (aka, mis datos se ha ido). Pero ... tal vez no? Se mantiene al 97% reconstruido, pero no puede superar este error.

Por lo que puedo decir, un administrador anterior apagó la verificación periódica, que es lo que nos llevó a este estado. ¡Esto no es algo por lo que la mayoría de las personas deba preocuparse con sus RAID 3Ware!

Actualizar

Después de golpearlo durante un par de días, hice el bit IgnoreECC y se reconstruyó, pero mis datos están guardados. Gorrón.

linux raid 3ware

— Bill Weiss
fuente

Pruebe el método Freezer Recovery si tiene datos importantes.

— Chris S

¿No estoy en contra del truco del congelador, pero no es para un modo de falla específico, no solo "mi unidad murió"?

— Bill Weiss

El disco etiquetado como DEGRADED es el disco de destino de la operación REBUILD.

— wazoox

Respuestas:

El error de ECC significa que hay al menos un sector ilegible en la unidad. Sin embargo, si tiene suerte, ese sector podría no ser utilizado por el sistema de archivos ubicado en ese volumen, por lo tanto, aún podría copiar sus datos de la matriz en este estado.

También hay algunas opciones para ignorar los errores de ECC durante la reconstrucción:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Sin embargo, el uso de estas opciones significa que la banda RAID afectada por un sector defectuoso se dañará (no estoy seguro de qué hará exactamente la tarjeta en este caso; podría reemplazar toda la banda con ceros, o incluso con datos aleatorios), por lo tanto, " "matriz recuperada" en realidad podría tener daños indetectables (si la banda afectada estaba en el medio de algún archivo de datos). Copiar sus datos de la matriz a otro lugar antes de intentar reconstruir puede ser más seguro (al menos debería obtener errores al intentar leer el área incorrecta).

Debe configurar la verificación programada de la matriz para detectar sectores ilegibles antes, de modo que pueda reemplazar una unidad que acaba de comenzar a fallar.

— Sergey Vlasov
fuente

Estoy haciendo el bit ignoreECC ahora. No se ve muy bien para mis datos.

— Bill Weiss

Y sí, deberíamos dejar que las matrices verifiquen de vez en cuando. Especularé que el tipo que configuró esto apagó eso por razones de rendimiento :(

— Bill Weiss

Bueno, eso lo consiguió a través de la reconstrucción, pero nominado en mis datos. Gorrón. Eso nos enseñará a desactivar la verificación ...

— Bill Weiss

Nunca he experimentado una unidad física (p0) para entrar en estado DEGRADED, sin embargo, es posible que pueda recuperar la unidad ECC-ERROR o incluso la unidad DEGRADED eliminándolas a través de

/c0 p1 remove

y luego emitiendo un reescaneo

/c0 rescan

ponerlos de nuevo en la unidad de banda a través de

maint rebuild c0 u0 p1

Las unidades SATA que me fallaron con ECC-ERROR pude resucitar aunque solo fuera por unas horas antes de fallar nuevamente.

— ZaphodB
fuente

Quitar la unidad p1 en el estado actual probablemente manguería la matriz por completo.

— Sergey Vlasov

Hice esto con la unidad p0 (suponiendo que fuera la mala) y está tratando de reconstruir, pero marcó la unidad como DEGRADADA casi de inmediato. Gorrón.

— Bill Weiss

AFAIR, la unidad se mantiene marcada como DEGRADADA durante la reconstrucción; consulte, por ejemplo, aquí . Lo importante es el estado de la matriz (¿RECONSTRUCCIÓN u otra cosa?).

— Sergey Vlasov

Hm. De hecho, se está reconstruyendo ... Las cuatro unidades parpadean mucho, es una buena señal, ¿verdad?

— Bill Weiss

Reconstrucción de Stiiiiiil ... está al 37% después de 4 horas. Gorrón.

— Bill Weiss

Es muy probable que sus datos hayan desaparecido. Error de ECC significa un error irrecuperable mientras se lee desde este disco.

Si no tiene una copia de seguridad, puede intentar volcar el estado actual de la matriz. Esto podría ser posible porque el controlador no sabe si perdió datos o solo un área vacía (carece de información sobre el sistema de archivos).

— Sven
fuente