¿Cuántas reasignaciones del sector SMART indican problemas?

17

Tengo un dispositivo NAS que tiene poco más de un mes. Está configurado para enviarme alertas por correo electrónico generadas a partir de los datos SMART de los discos duros. Después de un día, uno de los discos duros informó que un sector había salido mal y había sido reasignado. Durante la primera semana, ese número aumentó a seis sectores totales para el disco duro en cuestión. Después de un mes, el número se ubica en nueve sectores reasignados. La tasa definitivamente parece estar desacelerándose.

El NAS está configurado con seis unidades de 1,5 TB en una configuración RAID-5. Con unidades de tan alta capacidad, esperaría que un sector fallara de vez en cuando, por lo que no me preocupaba cuando los primeros sectores fueron reubicados. Sin embargo, me molesta que ninguno de los otros discos informe problemas.

¿A qué velocidad de reubicaciones, o número total de reubicaciones, debo comenzar a preocuparme por la salud del disco? ¿Podría esto variar según la capacidad de la unidad?

— Jeremy
fuente

Buena, Jeremy. uno de los mejores en serverfault ya que muchos otros aquí lo encontrarán útil y no es fácil encontrar una respuesta. definitivamente merece más de +2. es posible que desee reformular la pregunta por lo que no es específica para NetGear, pero el almacenamiento en general, sin embargo

— nombre de usuario

Gracias por los comentarios, hice los cambios que sugirió y actualicé la situación.

— Jeremy

1

Reemplazo unidades en un sector reasignado. Debería esperar cero durante el período de garantía de la unidad. Los fabricantes siempre han cumplido con la garantía de estas unidades.

— Michael Hampton

13

Las unidades, como la mayoría de los componentes, tienen una tasa de falla en la curva de la bañera. Fallan mucho al principio, tienen una tasa de falla relativamente baja en el medio y luego fallan mucho al llegar al final de su vida.

Así como toda la unidad sigue esta curva, áreas particulares del disco también seguirán esta curva. Verá muchas reasignaciones de sectores al comienzo del uso de la unidad, pero esto debería disminuir. Cuando la unidad comienza a fallar al final de la vida, comenzará a perder más y más sectores.

No necesita preocuparse por 6 (dependiendo de la unidad, consulte al fabricante), pero debe observar y ver la frecuencia de cada nueva reasignación. Si el deterioro se acelera o permanece igual, preocúpese. De lo contrario, debería estar bien después del período inicial de rodaje.

-Adán

— Adam Davis
fuente

Un pequeño punto: las unidades fallarán MUCHO antes de su MTBF. Creo que quiere decir que fallan mucho a medida que se acercan a su vida útil esperada.

— Eddie

55

¿Google no desacreditó bastante bien la teoría de la "curva de la bañera"?

— Insyte

20

Al releer el documento de Google sobre el tema, " Tendencias de fallas en una gran población de unidades de disco ", creo que puedo decir con seguridad que la respuesta de Adam es incorrecta. En su análisis de una población de unidades extremadamente masiva, aproximadamente el 9% tenía recuentos de reasignación distintos de cero. La cita reveladora es esta:

Después de su primera reasignación, las unidades tienen más de 14 veces más probabilidades de fallar en 60 días que las unidades sin recuentos de reasignación, lo que hace que el umbral crítico para este parámetro también sea uno.

Es aún más interesante cuando se trata de "reasignaciones fuera de línea", que son reasignaciones descubiertas durante la limpieza en segundo plano de la unidad, no durante las operaciones de E / S solicitadas. Su conclusión:

Después de la primera reasignación fuera de línea, las unidades tienen más de 21 veces más posibilidades de falla en 60 días que las unidades sin reasignaciones fuera de línea; un efecto que es nuevamente más drástico que las reasignaciones totales.

Mi política a partir de ahora será que las unidades con recuentos de reasignación distintos de cero deben programarse para su reemplazo.

— Insyte
fuente

Es interesante, había oído hablar de ese documento, pero es posible que deba volver a leerlo. FWIW, 4 de las 6 unidades en mi NAS tienen sectores reasignados. Gracias por la respuesta.

— Jeremy

3

Diferentes unidades probablemente tienen diferentes parámetros. En una unidad que verifiqué por última vez que era un disco de la serie empresarial de 1 TB de un proveedor, había 2048 sectores reservados para la reasignación.

Puede estimar el número de sectores reservados que buscan en el informe SMART en una unidad que tiene un número distinto de cero de sectores reasignados. Considere un informe sobre una unidad fallida a continuación.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Aquí se ha utilizado el 95% de su capacidad reservada, que es de 1955 sectores. Por lo tanto, la capacidad inicial era de aproximadamente 2057. De hecho, es 2048, la diferencia se debe al error de redondeo.

El SMART convierte la unidad en un estado de falla cuando el número de sectores reasignados alcanza un cierto umbral. Para la unidad en cuestión, este umbral se establece en el 64% de la capacidad reservada. Eso es aproximadamente 1310 sectores reasignados.

Sin embargo, los sectores reservados no se encuentran en un lapso continuo. En su lugar, se dividen en varios grupos, cada grupo se utiliza para reasignar sectores de una parte específica del disco. Esto se hace para mantener los datos locales en un área del disco.

La desventaja de la localidad es que el disco podría tener muchos sectores reservados. Sin embargo, un área ya puede quedarse sin capacidad reservada. En este caso, el comportamiento depende del firmware. En una unidad, observamos que entra en un estado FALLIDO y se bloquea cuando se produce un error en una parte que ya no está protegida.

— Dmitri Chubarov
fuente

¿Cómo determinó que "había 2048 sectores reservados para la reasignación"?

— AJ.

Quizás 2047 es la cantidad máxima de sectores reasignables. Una de mis unidades tenía exactamente 2047 cuando se compró en eBay por "nuevo", que es 0x7FF, también b11,111,111,111. Ir a 2048 desperdiciaría un poco más.

— davide

2

Es posible que desee ejecutar una autocomprobación SMART larga, si la unidad lo admite. Esto puede brindarle más información sobre el estado de la unidad. Si su NAS no puede hacer esto, y si puede extraer la unidad o apagar el NAS durante unas horas, puede hacer la autocomprobación larga con el disco duro conectado a otra máquina.

— Eddie
fuente

1

Cuando una unidad así de nueva se comporta así, ¡no se puede confiar en absoluto!

Devuélvalo lo antes posible y obtenga una unidad de reemplazo.

— Nils-Anders Nøttseter
fuente

1

Diferentes fabricantes tienen diferentes números de "pérdida aceptable" (la misma idea que con los monitores y los píxeles defectuosos). Consulte con el fabricante de la unidad para averiguar cuál es su estándar.

Sin embargo, parece una mala tendencia ...

— Brian Knoblauch
fuente

-1

Western Digital especialmente orgulloso por la tecnología que recupera el sector defectuoso en un tiempo aceptable en lugar de congelar el disco colocado en RAID, su nombre TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). El tiempo es típicamente de 5..7 segundos.

Como descubrí en la web, hay unidades de disco WD con opción deshabilitada, pero algunas personas habilitaron esta característica en unidades WD ecológicas baratas y luego las colocaron en RAID.

La utilidad WDTLER se eliminó del sitio de soporte de WD pero se puede descubrir fácilmente a través de Google.

PD: uso esta utilidad solo para leer el estado y no uso RAID por ahora :)