Tenemos un servidor Linux que ha estado en uso intensivo durante 3 años. Estamos ejecutando una serie de servidores virtualizados en él, algunos que no se han comportado bien, y durante un tiempo significativo se superó la capacidad de io del servidor, lo que provocó una mala espera. Tiene 4 unidades Barracuda sata de 500 gb conectadas a un controlador RAID 3com. 1 Drive tiene el sistema operativo, y los otros 3 están configurados raid-5.
Ahora tenemos un debate sobre la condición de las unidades y si están fallando activamente.
Aquí hay una parte de la salida para 1 de los 4 discos. Todos tienen estadísticas relativamente similares:
Número de revisión de la estructura de datos de atributos SMART: 10 Atributos SMART específicos del proveedor con umbrales: ID # ATTRIBUTE_NAME VALOR DE LA BANDERA PEOR TIPO DE UMBRAL ACTUALIZADO CUANDO_FALLO RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-error siempre - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Pre-fallo siempre - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Siempre - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 077 060 030 Pre-error siempre - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Siempre - 27856 10 Spin_Retry_Count 0x0013 100100 097 Pre-fail Always - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Siempre - 26 184 Atributo_desconocido 0x0032 100100 099 Old_age Siempre - 0 187 Reportado_ Incorrecto 0x0032 100 100 000 Old_age Siempre - 0 188 Atributo_desconocido 0x0032 100 100 000 Old_age Siempre - 1 189 High_Fly_Writes 0x003a 100100 000 Old_age Siempre - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Lifetime Min / Max 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Siempre - 29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always - 169074425 197 Current_Pending_Sector 0x0012 100100 000 Old_age Siempre - 0 198 Offline_Irecorrectable 0x0010 100100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200200 000 Old_age Siempre - 0 Versión de registro de errores SMART: 1 No se registraron errores
Mi interpretación de esto es que no hemos tenido sectores defectuosos u otras indicaciones de que alguna de las unidades está fallando activamente.
Sin embargo, el alto Raw_Read_Error_Rate y Seek_Error_Rate se señala como indicaciones de que las unidades están muriendo.