¿Cómo interpreto los resultados de HDD SMART?

58

Mi computadora portátil recientemente comenzó a ser un poco poco confiable, y por alguna razón comencé a sospechar que mi HDD estaba empezando a fallar. Después de buscar un poco en Internet, encontré la Utilidad de disco de Ubuntu en el menú Sistema y ejecuté los largos diagnósticos SMART a partir de esto.

Sin embargo, dado que la documentación de Disk Utility es muy pobre ( palimpsest?), No estoy seguro de cómo interpretar los resultados:

¿Valor de más de 50 millones para una tasa de error de lectura, pero la prueba es buena?

Por ejemplo, la tasa de error de lectura supera los 50 millones (!), Sin embargo, la evaluación se considera "buena".

Entonces, ¿a alguien le importaría explicarme cómo interpretar los resultados de estas pruebas (especialmente los números Normalizado, Peor, Umbral y Valor)? ¿Y quizás decirme qué piensan de los resultados que obtuve para mi HDD? (Gracias)

hard-drive smart

— Marty
fuente

¿El "ECC de hardware recuperado" tiene el mismo valor que "Tasa de error de lectura"? Mi disco tiene 676 ciclos de energía, se encendió 285 días y tiene 193 millones de errores. En comparación con el mío, su disco tiene demasiados errores, pero solo estoy especulando aquí. De todos modos, me preocupaba mucho

— danizmax

Sí, ¡ambos números son iguales!

— Marty

54

Tiene una buena descripción de cómo funciona SMART en wikipedia . Pero una introducción rápida:

Valor: este es el valor bruto que informa el controlador. Por lo general, es un valor fácil de entender (como horas de encendido o temperatura), pero a veces no lo es (como la tasa de error de lectura). Diferentes fabricantes pueden usar diferentes estructuras y significados para estos datos.
Normalizado: este es el valor anterior normalizado, por lo que un valor más alto siempre es mejor. Por lo tanto, una tasa de 114 en lectura / error es mejor que 113. Una vez más, la forma en que su disco duro convierte los datos en bruto en un valor normalizado es específico del proveedor.
Peor: el peor valor normalizado que tenía su unidad en el pasado (donde 99 es probablemente la configuración de fábrica).
Umbral: cuando el valor normalizado es inferior a este valor, es probable que la unidad falle.

Entonces, su disco duro parece estar bien. El valor de la tasa de error de lectura no son las veces que falló su unidad, sino alguna estructura de datos que depende del fabricante de su disco.

— Javier Rivera
fuente

Si una unidad en particular no informa un valor normalizado , ¿significa eso peor y el umbral se informará en términos o todas las unidades usan valores normalizados y solo algunos eligen etiquetarlos como "valor"?

— DeveloperACE

25

Sí, generalmente el valor bruto para la tasa de error de lectura no tiene sentido. Los valores que desea vigilar son el recuento de sector reasignado, el recuento pendiente y el fuera de línea no corregible. Esos son el recuento de sectores defectuosos que han estado, están a la espera de ser o no pueden corregirse, y los valores brutos allí generalmente tienen sentido y son el recuento de sectores.

Si la lectura de un sector falla, queda pendiente. La próxima vez que intente escribir en ese sector, la unidad intenta reescribirlo y, si eso funciona, todo vuelve a la normalidad. Si no puede escribir correctamente el sector, reasignará el sector del grupo de reserva. Si no puede hacer eso (¿tal vez ya se ha agotado el grupo de repuesto?), Entonces se vuelve offline_corregible e intenta leer o escribir en él solo errores.

— psusi
fuente

1

Tengo una unidad que prácticamente solo falla la tasa de error de lectura sin procesar. La prueba solo falla después de que la unidad ha estado funcionando durante un tiempo, tal vez 15 minutos; En Windows, el síntoma es que cualquier acceso a la unidad bloquea el proceso, por lo que estoy usando las herramientas de Ubuntu para determinar qué está mal, pero no sé qué dice que está mal con la unidad, ya que la tasa de error de lectura no Parece indicar cualquier tipo de falla inminente de la unidad, ¡pero la unidad definitivamente tiene problemas!

— Michael

También debo agregar que los resultados de la prueba en sí mismos son ambiguos. La prueba general dice que falló, pero la prueba de tasa de error de lectura, a pesar de tener un valor ridículo (100/100, peor, normalizado) dice "Ok".

— Michael

9

psusi lo clava.

Si lee las hojas de datos (documentos técnicos) en seagate.com, verá cómo se hacen, prueban y funcionan realmente los discos duros. No hay un HDD perfecto, nunca lo fue, nunca lo será (historia y realidad). En los viejos tiempos, teníamos que ingresar los sectores defectuosos en el controlador HDD de una lista en papel que venía en la nueva caja de la unidad, por lo que el controlador los omite.

Las unidades modernas tienen corrección de errores. Desde el día 1 los sectores son malos.

Entonces los mapean, esto significa que la unidad omite sectores defectuosos. De hecho, están "intercambiados lógicamente": el sector defectuoso se asigna a un nuevo, bueno, sector de cilindro de repuesto (tiene cilindros de repuesto, piense en los cilindros como pistas). Todo esto es transparente para el mundo exterior, a excepción de la utilidad SMART.

Cada fabricante puede hacer lo que quiera, por lo que algunos establecen los recuentos de errores en cero, aunque puede haber 10 sectores defectuosos tan pronto como se fabrica la unidad.

Hay una regla de 3 veces en el firmware de la unidad: lee un sector 3 veces y si las 3 veces es malo, entonces puede hacer una "recalibración" sobre la marcha y leer 3 veces más. Si la unidad todavía no está bien, asignará ese sector a uno de los sectores libres. Esto es profundo en el firmware, pero ocurre continuamente en segundo plano, todo transparente para el usuario.

Si el fabricante opta por informar errores sin procesar siempre que haya 3 lecturas incorrectas o después de que el calibrado dependa de ellos. Entonces, como dice anteriormente, no es importante a menos que tenga muchas unidades del mismo tipo y vea algunas tendencias extrañas.

Punto 2: todos los discos duros tienen errores de lectura naturales, también puede aprender eso en Seagate, si lo desea. pero todos tienen errores sobre la marcha. y se leen nuevamente, y generalmente pasan la prueba de errores de CRC. si no, la UNIDAD intenta cambiarla. si ejecuta el disco frío, durará mucho tiempo y muchos nunca se quedarán sin cilindros de repuesto. ¡pero mira eso como te dice psusi!

Estoy escribiendo esto, en una PC vieja, ejecutando uno de los primeros discos duros de 1 gb que se haya hecho. y sigue siendo bueno (Estoy respaldado) (sin falta de enfriamiento nunca ...) el calor es el asesino número 1 y las sobretensiones, ejecuto un UPS. Saludos y buen día. Espero que esto ayude. (¿Alguna vez has visto un disco duro DatA General bloqueado? y llenar la habitación con grandes cantidades de lana de aluminio, señales rizadas? Mucha diversión en ese entonces ... nunca un momento aburrido ...

— jtgh
fuente