Tengo una triste matriz RAID en una tarjeta 3ware 9650SE-16ML. Lo que no puedo decir es si acabo de sufrir una falla de doble disco (¡bummer!) O si estoy leyendo esto mal. La salida relativa de /c0 show all
es:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Y el fallo es (de show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Yo creo que lo que pasó es p0 fallado, y luego P1 tenía un error ECC (aka, mis datos se ha ido). Pero ... tal vez no? Se mantiene al 97% reconstruido, pero no puede superar este error.
Por lo que puedo decir, un administrador anterior apagó la verificación periódica, que es lo que nos llevó a este estado. ¡Esto no es algo por lo que la mayoría de las personas deba preocuparse con sus RAID 3Ware!
Actualizar
Después de golpearlo durante un par de días, hice el bit IgnoreECC y se reconstruyó, pero mis datos están guardados. Gorrón.