El punto de los atributos actuales / peores, como la temperatura, es exactamente esto: para decirle si la unidad ha estado alguna vez fuera de su temperatura máxima de funcionamiento y, por lo tanto, podría haber sufrido daños permanentes.
Es por eso que dice "falló en el pasado", no "falla ahora": apenas tocaste el umbral de temperatura máxima. Tenga en cuenta que la pantalla de atributos muestra "normalizado: 50, umbral: 45, peor: 45". (Estos son 0..200 valores normalizados como para cualquier otro atributo, no temperaturas Celsius sin procesar).
También tiene algunos sectores defectuosos (errores de sector no corregibles), por lo tanto, ya sea que la breve temperatura alta lo haya causado o no, probablemente sea hora de deshacerse de esa unidad.
Una mejor interfaz de usuario de software SMART le mostrará la temperatura actual y máxima . por ejemplo,
smartctl -a /dev/sda
o smartctl -x /dev/sda
( -x
imprime todos los datos SMART y no SMART disponibles que puede obtener del disco, incluido un registro del historial de temperatura si el disco tiene uno, con un gráfico de barras ASCII).
smartctl -x incluye esto para un viejo disco duro WD Green de 1TB (WD10EADS):
Current Temperature: 36 Celsius
Power Cycle Min/Max Temperature: 25/42 Celsius
Lifetime Min/Max Temperature: 35/46 Celsius
Parece que el software que está utilizando solo muestra la temperatura actual, que está ligeramente por debajo del umbral, pero no ocultará el hecho de que la unidad estaba fuera de especificaciones en algún momento en el pasado.
Ciertamente podría justificar ignorar esa alta temperatura momentánea, si realmente la corrigió en minutos. Pero nunca (o no debería) ser capaz de hacer que la unidad en sí mienta sobre el hecho de que superó su temperatura máxima nominal durante algún tiempo y, por lo tanto, el atributo falló en el pasado.
Puede configurar smartd
para ignorar cualquier atributo dado para que aún pueda recibir una notificación útil si cualquier otra cosa cruza un umbral en territorio oficialmente defectuoso. : smartd.conf(5)
dice:
-i ID [ATA only]
Ignore la ID del número de atributo del dispositivo cuando verifique la falla de los atributos de uso. ID debe ser un número entero decimal en el rango de 1 a 255. Esta Directiva modifica el comportamiento de la Directiva '-f' y no tiene ningún efecto sin ella.
Esto es útil, por ejemplo, si tiene un disco muy antiguo y no desea seguir recibiendo mensajes sobre el error del atributo de horas de vida (generalmente el atributo 9). Esta directiva puede aparecer varias veces para un solo dispositivo, si desea ignorar múltiples atributos.
Atributos de historial de temperatura extendidos
Acabo de recibir un nuevo Seagate Barracuda de 6 TB (ST6000DM003-2CY186 firmware 0001, una unidad de 5425 RPM), que tiene algunas estadísticas interesantes, que incluyen el tiempo invertido que excede los puntos operativos mínimos / máximos, y altas / bajas de temperaturas a corto plazo y a corto plazo .
SCT Status Version: 3
SCT Version (vendor specific): 522 (0x020a)
Device State: Active (0)
Current Temperature: 33 Celsius
Power Cycle Min/Max Temperature: 27/33 Celsius
Lifetime Min/Max Temperature: 27/33 Celsius
Under/Over Temperature Limit Count: 0/0
SCT Temperature History Version: 2
Temperature Sampling Period: 3 minutes
Temperature Logging Interval: 59 minutes
Min/Max recommended Temperature: 14/55 Celsius
Min/Max Temperature Limit: 10/60 Celsius
Temperature History Size (Index): 128 (2)
Y en la sección de detalles completos:
0x05 ===== = = === == Temperature Statistics (rev 1) ==
0x05 0x008 1 33 --- Current Temperature
0x05 0x010 1 - --- Average Short Term Temperature
0x05 0x018 1 - --- Average Long Term Temperature
0x05 0x020 1 33 --- Highest Temperature
0x05 0x028 1 30 --- Lowest Temperature
0x05 0x030 1 - --- Highest Average Short Term Temperature
0x05 0x038 1 - --- Lowest Average Short Term Temperature
0x05 0x040 1 - --- Highest Average Long Term Temperature
0x05 0x048 1 - --- Lowest Average Long Term Temperature
0x05 0x050 4 0 --- Time in Over-Temperature
0x05 0x058 1 55 --- Specified Maximum Operating Temperature
0x05 0x060 4 0 --- Time in Under-Temperature
0x05 0x068 1 13 --- Specified Minimum Operating Temperature
(La unidad solo ha estado encendida durante un par de minutos; presumiblemente es por eso que no -
hay datos en algunos de los campos).
Si conduce tiene estos atributos extendidos, puede mostrarle a alguien que el tiempo que pasó fuera de la temperatura permitida fue muy corto (si ese es el caso). Presumiblemente, si fuera a modificar los datos SMART, simplemente lo habría hecho y habría eliminado cualquier mención de que esté fuera del rango, pero obviamente no puede confiar al 100% en ningún dato de un disco de segunda mano que Alguien intenta venderte.
Consulte /superuser/1389522/what-does-it-mean-when-my-new-hdd-reports-errors-at-a-time-that-shouldnt-exist para obtener más información sobre las unidades usadas con "reversión del odómetro" en su atributo "Power_On_Hours", por ejemplo.