Arreglando bloques malos


Después de conseguir

WARNING: Your hard drive is failing
Device: /dev/sdb [SAT], 1 Offline uncorrectable sectors


$ sudo smartctl -a /dev/sdb
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.10.0-514.26.2.el7.x86_64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke,

Device Model:     KingDian S200 60GB
Serial Number:    2017022100551
LU WWN Device Id: 0 000000 000000000
Firmware Version: P0707F1
User Capacity:    60,022,480,896 bytes [60.0 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 T13/2015-D revision 3
SATA Version is:  SATA >3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue Oct  3 10:56:08 2017 BST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (  120) seconds.
Offline data collection
capabilities:            (0x11) SMART execute Offline immediate.
                    No Auto Offline data collection support.
                    Suspend Offline collection upon new
                    No Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    No Selective Self-test supported.
SMART capabilities:            (0x0002) Does not save SMART data before
                    entering power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    (  10) minutes.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
  1 Raw_Read_Error_Rate     0x0032   100   100   050    Old_age   Always       -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   050    Old_age   Always       -       3
  9 Power_On_Hours          0x0032   100   100   050    Old_age   Always       -       4486
 12 Power_Cycle_Count       0x0032   100   100   050    Old_age   Always       -       13
160 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       1
161 Unknown_Attribute       0x0033   100   100   050    Pre-fail  Always       -       98
163 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       0
164 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       9724
165 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       9
166 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       1
167 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       5
168 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       1500
169 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       100
175 Program_Fail_Count_Chip 0x0032   100   100   050    Old_age   Always       -       0
176 Erase_Fail_Count_Chip   0x0032   100   100   050    Old_age   Always       -       0
177 Wear_Leveling_Count     0x0032   100   100   050    Old_age   Always       -       9602
178 Used_Rsvd_Blk_Cnt_Chip  0x0032   100   100   050    Old_age   Always       -       3
181 Program_Fail_Cnt_Total  0x0032   100   100   050    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   050    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   050    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   100   100   050    Old_age   Always       -       28
195 Hardware_ECC_Recovered  0x0032   100   100   050    Old_age   Always       -       3994818
196 Reallocated_Event_Count 0x0032   100   100   050    Old_age   Always       -       2414
197 Current_Pending_Sector  0x0032   100   100   050    Old_age   Always       -       3
198 Offline_Uncorrectable   0x0032   100   100   050    Old_age   Always       -       1
199 UDMA_CRC_Error_Count    0x0032   100   100   050    Old_age   Always       -       0
232 Available_Reservd_Space 0x0032   100   100   050    Old_age   Always       -       98
241 Total_LBAs_Written      0x0030   100   100   050    Old_age   Offline      -       36124
242 Total_LBAs_Read         0x0030   100   100   050    Old_age   Offline      -       10259
245 Unknown_Attribute       0x0032   100   100   050    Old_age   Always       -       9799

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      4486         -

Selective Self-tests/Logging not supported

El smartctlresultado detallado muestra:

Como nadie lo ha puesto en letras enormes todavía. SI NO TIENES UNA COPIA DE SEGURIDAD. HAZ UNO AHORA

Puede forzar la unidad a reasignar el sector defectuoso escribiendo ceros en él. Esta guía podría ayudar: BadBlockHowto . Si usted se siente seguro puede omitir la debugfsparte, y sobrescribir el bloque directamente condd if=/dev/zero of=/dev/sdb bs=512 skip={decimal LBA_of_first_error} count=1 oflag=direct,sync

@ Nazar554 Por favor, abstenerse de publicar respuestas en los comentarios, por lo que sabemos, podría ser un comando que sobrescribe toda la unidad con ceros y no existe la posibilidad de rechazar los comentarios, por lo que, si lo fuera, no se rechazaría.



He tenido este problema en el pasado. IIRC, "sectores no corregibles fuera de línea" significa que el controlador de disco (el que está dentro del disco, no el controlador SATA / SCSI en su PC) ha tenido repetidos errores de lectura con un sector y ha decidido que definitivamente no era utilizable.

Entonces, ¿debo declarar que ese sector es malo para el sistema de archivos que lo usa?

No. Afortunadamente, los discos de hoy reemplazan automáticamente los sectores defectuosos con los buenos tomados de un grupo de sectores de repuesto. Por lo tanto, no tiene que declarar esos sectores defectuosos en su sistema de archivos para que ya no los use. Por supuesto, el tamaño de ese grupo es limitado ( Available_Reservd_Space sectorssupongo) y una vez que se hayan utilizado todos los sectores de reserva, los sectores defectuosos permanecerán inutilizables y tendrá que declararlos como tales en su FS.

Entonces, todo está bien, ¿este es un mensaje inofensivo?

Realmente no. Su disco ha intentado varias veces leer el sector defectuoso, y falla cada vez; por lo que se ha puesto en cola para su reemplazo, pero la unidad no puede hacerlo por sí sola (sigue esperando que eventualmente pueda leerla). Hasta que el sector se sobrescriba con nuevos datos, permanecerá "incorregible"; una vez que se sobrescribe, o si la unidad de alguna manera logra leerlo, se reasignará y se reemplazará con un sector adicional (en la smartctlsalida, se Offline_Uncorrectablereducirá en 1 y Reallocated_Sector_Ctse incrementará en 1).

¿Que puedo hacer?

En tal caso, generalmente fuerzo a mi matriz RAID 1 a resincronizarse (disco bueno -> disco defectuoso) para que ese nuevo sector tenga el contenido correcto. En cualquier caso, haga una fscky, si tiene una copia de seguridad de esa partición (debería), compare la copia de seguridad con su contenido real.

Una cosa importante a tener en cuenta es que la aparición de un "fuera de línea no corregible" es una señal de advertencia de que la unidad puede fallar por completo en el futuro cercano.


Ejecute una smartctlprueba larga , si resulta positivo para errores, tiene un problema, de lo contrario, debería estar bien usar el disco duro.

smartctl -t long /dev/sdb

Nota: Recuerde hacer una copia de seguridad de los datos en su disco duro antes de probarlo, dependiendo de la condición de su unidad, el estrés de la prueba podría dañar aún más su disco.

Use Diskscan para tratar de corregir uncorrectable sectorssi tiene errores con su smartctlprueba.

Pero primero haga una copia de seguridad de sus datos valiosos. Debido a que la prueba genera estrés adicional en su disco y si está en mal estado, el problema puede empeorar rápidamente.
Jaroslav Kucera

@JaroslavKucera Parece que no recibo errores, pero los mensajes de advertencia
