¿Cómo debo grabar en discos duros?


41

Google realizó un estudio muy exhaustivo sobre fallas en el disco duro que encontró que una porción significativa de los discos duros falla en los primeros 3 meses de uso intensivo.

Mis compañeros de trabajo y yo estamos pensando que podríamos implementar un proceso de grabación para todos nuestros nuevos discos duros que potencialmente podría ahorrarnos un poco de dolor al perder tiempo en discos nuevos y no probados. Pero antes de implementar un proceso de quemado, nos gustaría obtener una idea de otros que tienen más experiencia:

  • ¿Qué tan importante es grabar en un disco duro antes de comenzar a usarlo?
  • ¿Cómo se implementa un proceso de quemado?
    • ¿Cuánto tiempo se quema en un disco duro?
    • ¿Qué software utilizas para grabar en unidades?
  • ¿Cuánto estrés es demasiado para un proceso de quemado?

EDITAR: Debido a la naturaleza del negocio, los RAID son imposibles de usar la mayor parte del tiempo. Tenemos que confiar en unidades individuales que se envían por correo en todo el país con bastante frecuencia. Realizamos copias de seguridad de las unidades tan pronto como podemos, pero aún encontramos fallas aquí y allá antes de tener la oportunidad de realizar copias de seguridad de los datos.

ACTUALIZAR

Mi empresa ha implementado un proceso de quemado desde hace un tiempo y ha demostrado ser extremadamente útil. Inmediatamente quemamos todas las unidades nuevas que tenemos en stock, lo que nos permite encontrar muchos errores antes de que caduque la garantía y antes de instalarlos en nuevos sistemas informáticos. También ha demostrado ser útil para verificar que una unidad se haya estropeado. Cuando una de nuestras computadoras comienza a encontrar errores y un disco duro es el principal sospechoso, volveremos a ejecutar el proceso de grabación en esa unidad y veremos los errores para asegurarnos de que la unidad realmente sea el problema antes de comenzar el proceso de RMA o lanzar en la basura

Nuestro proceso de quemado es simple. Tenemos un sistema Ubuntu designado con muchos puertos SATA, y ejecutamos bloques defectuosos en modo lectura / escritura con 4 pases en cada unidad. Para simplificar las cosas, escribimos un script que imprime una advertencia de "DATOS SERÁN BORRADOS DE TODOS SUS DISCOS" y luego ejecuta bloqueos defectuosos en cada unidad, excepto la unidad del sistema.


15
Curiosamente, ¿por qué envías las unidades por todo el país? Parece que es más probable que se encuentre con una falla de la unidad como resultado de una falla de choque y un mal manejo general por parte del servicio postal que por razones que detectaría una quemadura.
Paperjam

66
@Lie Ryan: el envío de hardware de almacenamiento sigue siendo la forma más rápida de transferir datos. Internet es muy lento, y si necesita pasar a través de redes institucionales y firewalls, empeora aún más.
Jonas

44
@Lie Ryan: Si se trata de datos secretos clasificados por el gobierno, SSH no lo hará . En general, una computadora que contiene esos datos puede no estar conectada a la Internet pública. Si tiene que transferir gigabytes de datos clasificados, enviar por correo una unidad encriptada es la opción más eficiente.
benzado

3
@Lie Ryan: Exatly. Incluso con una conexión a Internet realmente rápida, le toma un mes entregar 7TB (y eso si tiene el lujo de tener control sobre su rendimiento y el del receptor). Con UPS, los 7 TB están allí al día siguiente.
Jonas

55
Eso es bueno y todo, excepto cuando tienes equipos móviles en el camino recolectando grandes cantidades de datos. Lo que significa que tiene que confiar en las conexiones de Internet del hotel o móviles, y nunca estará en un lugar por más de 8 horas.
Phil

Respuestas:


36

¿Qué tan importante es grabar en un disco duro antes de comenzar a usarlo?

Si tiene una buena copia de seguridad y buenos sistemas de alta disponibilidad, entonces no mucho. Dado que la restauración de una falla debería ser bastante fácil.

¿Cómo se implementa un proceso de quemado? ¿Qué software utilizas para grabar en unidades? ¿Cuánto estrés es demasiado para un proceso de quemado?

Por lo general, ejecutaré badblocks contra una unidad o un nuevo sistema cuando lo obtenga. Lo ejecutaré cada vez que resucite una computadora de la pila de repuestos. Un comando como este ( badblocks -c 2048 -sw /dev/sde) en realidad escribirá en cada bloque 4 veces cada vez con un patrón diferente (0xaa, 0x55, 0xff, 0x00). Esta prueba no hace nada para probar muchas lecturas / escrituras aleatorias, pero debería probar que cada bloque también se puede escribir y leer.

También puede ejecutar bonnie ++ , o iometer, que son herramientas de evaluación comparativa. Estos deberían tratar de estresar un poco sus impulsos. Las unidades no deberían fallar incluso si intentas maximizarlas. Así que también podrías tratar de ver qué pueden hacer. Aunque no hago esto. Obtener un punto de referencia de E / S de su sistema de almacenamiento en el momento de la instalación / configuración puede ser muy útil en el futuro cuando esté buscando problemas de rendimiento.

¿Cuánto tiempo se quema en un disco duro?

En mi opinión, una sola ejecución de bloques defectuosos es suficiente, pero creo que tengo un sistema de respaldo muy sólido y que mis necesidades de HA no son tan altas. Puedo permitirme un tiempo de inactividad para restaurar el servicio en la mayoría de los sistemas que soporto. Si está tan preocupado, que cree que puede ser necesaria una configuración de varios pasos, entonces probablemente debería tener RAID, buenas copias de seguridad y una buena configuración de HA de todos modos.

Si tengo prisa, puedo omitir una quema. Mis copias de seguridad y RAID deberían estar bien.


49

IMNSHO, no debe confiar en un proceso de grabación para eliminar las unidades defectuosas y "proteger" sus datos. El desarrollo de este procedimiento y su implementación requerirá un tiempo que podría utilizarse mejor en otros lugares e incluso si una unidad pasa el quemado, aún puede fallar meses después.

Debe usar RAID y copias de seguridad para proteger sus datos. Una vez que esté en su lugar, deje que se preocupe por las unidades. Los buenos controladores RAID y subsistemas de almacenamiento tendrán procesos de 'depuración' que revisan los datos de vez en cuando y aseguran que todo esté bien.

Una vez que se haya solucionado todo esto, no hay necesidad de hacer un fregado de disco, aunque, como otros han mencionado, no está de más hacer una prueba de carga del sistema para asegurarse de que todo funcione como espera. No me preocuparía en absoluto los discos individuales.


Como se ha mencionado en los comentarios, no tiene mucho sentido usar discos duros para su caso de uso particular. Enviarlos es mucho más probable que provoque errores de datos que no estarán allí cuando hiciste la grabación.

Los medios de cinta están diseñados para ser enviados. Puede obtener 250 MBps (o hasta 650 MBps comprimidos) con una sola unidad IBM TS1140 que debería ser más rápida que su disco duro. Y más grande también: un solo cartucho puede proporcionarle hasta 4 TB (sin comprimir).

Si no desea usar cinta, use SSD. Pueden tratarse de manera mucho más dura que los discos duros y satisfacer todos los requisitos que ha dado hasta ahora.


Después de todo eso, aquí están mis respuestas a sus preguntas:

  • ¿Qué tan importante es grabar en un disco duro antes de comenzar a usarlo?
    De ningún modo.
  • ¿Cómo se implementa un proceso de quemado?
    • ¿Cuánto tiempo se quema en un disco duro?
      Una o dos carreras.
    • ¿Qué software utilizas para grabar en unidades?
      Una simple ejecución de, digamos, shredy badblocksservirá. Verifique los datos SMART después.
  • ¿Cuánto estrés es demasiado para un proceso de quemado?
    Sin estrés es demasiado. Deberías poder arrojar cualquier cosa a un disco sin que explote.

1
Lo único que lamento de esta publicación es que solo puedo votarla una vez. @ Phil, estás reinventando la rueda allí. La forma de garantizar que no pierda datos debido a fallas de unidades aleatorias (u otro hardware relacionado) son las copias de seguridad y las matrices RAID.
Rob Moir

8
Estoy de acuerdo en que no debe confiar en él, pero ejecutar un análisis contra un sistema antes de ponerlo en producción me ha identificado un problema potencial un par de veces. Si no tienes mucha prisa, dejar que una computadora se escanee por uno o dos días no suele dañar nada.
Zoredache

77
Esta respuesta tiene los votos más altos, pero no ha respondido la pregunta más. El OP ha declarado que los RAID son imposibles. Si "se están enviando unidades individuales por toda la nación", entonces no se puede construir una redada. Existe un proceso de copia de seguridad, pero parece que el OP desea encontrar cualquier cosa para ayudar a ahorrar tiempo en caso de que una unidad se dañe. (Nota: trabajo en la misma compañía que el OP, así que sé la situación, los datos se copian en un RAID una vez que se entregan). Si tuviera que grabar discos, hipotéticamente, ¿cómo lo haría?
jsmith

3
En ese caso, la pregunta debería proporcionar este contexto. Por lo que está diciendo, la pregunta debería ser "Necesitamos enviar discos duros por correo postal / carga. ¿Cómo deberíamos hacer una prueba de quemado antes de enviarlos para minimizar las fallas?" Curiosamente, la respuesta no cambia. ¡Envía un par de unidades! O mejor, use cintas. Las cintas están diseñadas para usarse de esta manera, los discos duros no. Más información lleva a una respuesta diferente.
MikeyB

2
¿Las cintas no pueden escribir datos tan rápido como los discos duros? ¿250 MBps (sin comprimir) no es lo suficientemente bueno para ti? Diría que un proceso de quemado en realidad no ayudará a proteger contra fallas con su caso de uso.
MikeyB

8

Dada su aclaración, no parece que ningún proceso de quemado sea de alguna utilidad para usted. Las unidades fallan principalmente debido a factores mecánicos, generalmente calor y vibración; no por ningún tipo de bomba de tiempo oculta. Un proceso de "quemado" prueba el entorno de instalación tanto como cualquier otra cosa. Una vez que mueves la cosa, vuelves a donde empezaste.

Pero aquí hay algunos consejos que pueden ayudarlo:

Las unidades portátiles generalmente están diseñadas para resistir un mayor empuje y vibración que las unidades de escritorio. Mis amigos que trabajan en tiendas de recuperación de datos siempre envían datos a clientes en unidades portátiles por ese motivo. Nunca he probado este hecho, pero parece ser "conocimiento común" en industrias seleccionadas.

Las unidades flash (por ejemplo, unidades de memoria USB) son las más resistentes a los golpes de cualquier medio que pueda encontrar. Debería ser aún menos probable que pierda datos en tránsito si usa medios flash.

Si envía una unidad Winchester, realice un escaneo de superficie antes de ponerla en uso. O mejor aún, simplemente no lo pongas en uso. En cambio, es posible que desee designar ciertas unidades como unidades de "envío", que ven todo el abuso, pero en las que no confía para la integridad de los datos. (Es decir: copie los datos en la unidad para enviarlos, cópielos después del envío, muy sumas de verificación en ambos lados, ese tipo de cosas).


"Una vez que mueves la cosa, vuelves a donde empezaste". - no es verdad. así es como se ve un gráfico MTTF para un disco: cs.cmu.edu/~bianca/fast/img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/… las pruebas en el período inicial pueden filtrar Después de muchas unidades problemáticas, los fabricantes hacen estas pruebas de esfuerzo para hacer un producto más confiable, pero por supuesto no es económico hacer la prueba hasta que el gráfico se aplana.
Karoly Horvath

3
@yi_H: Creo que tylerl está implicando que probablemente la causa de la falla temprana se deba al proceso de envío en sí (que no es inverosímil, me gustaría ver un gráfico que traza la falla de la unidad frente a la frecuencia de envío), por lo tanto, si envía un disco duro en todo el país, el MTTF se reiniciará; así que si envía una unidad por correo cada tres meses, siempre estará en la zona de falla temprana.
Lie Ryan

5

Tu proceso está mal. Deberías usar matrices de incursiones. Donde trabajo, hemos fabricado conjuntos de incursiones resistentes diseñados para ser transportados. No es una ciencia exacta. El montaje a prueba de golpes de las unidades en gabinetes de gran tamaño con grandes aisladores de vibraciones de goma mejorará enormemente la confiabilidad. (Las unidades Seagate constellation-es, como ejemplo, están clasificadas para choque de 300G pero solo vibración 2G, no funcionan: por lo tanto, la caja de envío debe aislar la unidad de vibración. Http://www.novibes.com/Products&productID=62 o http : //www.novibes.com/Products&productId=49 [parte # 50178])

Sin embargo, realmente desea grabar en discos duros de prueba, así que aquí va.

He trabajado en sistemas como discos duros y quemar en encontrado algunos problemas pero ...

Para las pruebas aceleradas del ciclo de vida de los PCB para detectar fallas, nada supera a algunos ciclos de frío / calor. (operar ciclos de frío-calor funciona aún mejor ... pero es más difícil para usted, especialmente con bancos de HDD)

Consígase una cámara ambiental lo suficientemente grande para la cantidad de unidades que adquiera a la vez. (Estos son bastante caros, sería más barato enviar conjuntos de incursiones) No puede escatimar en las cámaras de prueba, necesitará control de humedad y rampas programables.

Programe en dos rampas de temperatura repetidas, hasta la temperatura mínima de almacenamiento, hasta la temperatura máxima de almacenamiento, haga que las rampas sean lo suficientemente empinadas como para molestar al ingeniero de aplicaciones del fabricante de su disco duro. 3 ciclos de frío-calor en 12 horas deberían hacer que las unidades fallen bastante rápido. Ejecute las unidades al menos 12 horas así. Si algún trabajo después me sorprenderá.

No pensé esto: un lugar en el que trabajé tenía un ingeniero de producción que hizo esto, para que se enviaran más productos con el mismo equipo de prueba, hubo un gran aumento de fallas en la prueba, pero la tasa de muertos al llegar cayó prácticamente a cero.


5

No estoy de acuerdo con todas las respuestas que básicamente dicen "No te molestes con el quemado, ten buenas copias de seguridad".

Si bien siempre debe tener copias de seguridad, ayer pasé 9 horas (además de mi turno habitual de 10 horas) restaurando las copias de seguridad porque el sistema estaba funcionando con unidades que no se habían quemado.

Había 6 unidades en una configuración RAIDZ2 (ZFS equivalente a RAID-6) y tuvimos 3 unidades muertas en el transcurso de 18 horas en una caja que había estado funcionando durante aproximadamente 45 días.

La mejor solución que he encontrado es comprar unidades de un fabricante en particular (no mezclar y combinar), luego ejecutar su herramienta provista para ejercitar las unidades.

En nuestro caso compramos Western Digital y utilizamos sus diagnósticos de disco basados ​​en DOS desde un ISO de arranque. Lo iniciamos, ejecutamos la opción de escribir basura aleatoria en todo el disco, luego ejecutamos la prueba SMART corta seguida de la prueba SMART larga. Eso suele ser suficiente para eliminar todos los sectores defectuosos, leer / escribir reasignaciones, etc.

Todavía estoy tratando de encontrar una forma decente de 'lotes' para poder ejecutarlo en 8 unidades a la vez. Podría usar 'dd if = / dev / urandom of = / dev / whatever' en Linux o 'badblocks'.

EDITAR: Encontré una mejor manera de 'agruparlo'. Finalmente pude configurar un servidor de arranque PXE en nuestra red para abordar una necesidad particular, y noté que el CD Ultimate Boot puede arrancarse con PXE. Ahora tenemos un puñado de máquinas basura que se pueden iniciar PXE para ejecutar diagnósticos de unidades.


3
¿Que sabes? Una respuesta que responde a la pregunta y no predica en el OP. +1
elBradford

3
Si desea que se escriban datos aleatorios en la unidad, no lea desde / dev / urandom; no es tan lento como su primo bloqueador / dev / random, pero sigue siendo lento, y realmente no te gana nada. En su lugar, configure una asignación de dm-crypt simple con una clave aleatoria (que puede obtener de / dev / urandom o / dev / random) y luego simplemente dd / dev / zero en el dispositivo asignado. Probablemente sea entre el doble de rápido y un orden de magnitud más rápido. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuestions "¿Cómo puedo borrar un dispositivo con aleatoriedad de grado criptográfico?" tiene un ejemplo de cómo hacer eso.
un CVn

Excelente sugerencia @ MichaelKjörling
Aaron C. de Bruyn

3

¿Qué tan importante es grabar en un disco duro antes de comenzar a usarlo?

Depende.
Si lo está utilizando en un RAID que proporciona redundancia (1, 5, 6, 10)? No muy.
Si lo está usando standaolone? Un poco, pero es mejor que solo ejecutes smartd o algo para monitorearlo, al menos en mi opinión.

Naturalmente, esto lleva a mi respuesta a " ¿Cómo implementar un proceso de quemado? " - No lo hago.
En lugar de intentar "grabar en discos", los ejecuto en pares redundantes y uso monitoreo predictivo (como SMART) para decirme cuándo un disco se está volviendo inestable. Descubrí que el tiempo extra requerido para realizar una grabación completa (realmente ejercitar todo el disco) es sustancialmente más costoso que lidiar con una falla e intercambio del disco.
Combinando RAID y buenas copias de seguridad, sus datos deberían ser muy seguros, incluso cuando se trata de mortalidad infantil (o el otro extremo de la cura de la bañera cuando comienza a tener unidades mueren de vejez)


1
¿Qué pasa si la unidad no se puede monitorear porque no está en un lugar constante? :)
jsmith

2
@jsmith: luego puede enviarle notificaciones en lugar de sondearlo desde un host de monitoreo: casi no hay situaciones en las que realmente no pueda monitorear algo, solo hay situaciones que requieren un poco de pensamiento creativo :)
voretaq7

2

Spinrite (grc.com) leerá y reescribirá todos los datos en el disco. Es bueno hacer una nueva unidad incluso si no está tratando de hacer que falle. Se tarda mucho tiempo en ejecutarse en el nivel 4, generalmente un par de días para unidades de tamaño actual. También debo agregar que no es destructivo. De hecho, si tiene datos en puntos defectuosos, los moverá y los recuperará. Por supuesto, nunca lo ejecutarías en un SSD.


1

Estoy seguro de que una evaluación comparativa de una vez por semana y una verificación de errores serán suficientes para "grabar en" discos duros. Aunque desde tu publicación nunca he oído hablar de tal cosa.

Citado de "6_6_6" en Stroagereview.com

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

En general, personalmente creo que es una mala idea.

EDITAR: Scource: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/


0

Primero, estoy de acuerdo con otros carteles en que su caso de uso sugiere que las unidades de cinta serán la mejor opción.

Si eso no es posible, si tiene que volar unidades en todo el país, un verdadero RAID no parece ser una opción, ya que tendrá que transportar muchas más unidades, lo que aumenta el riesgo de falla. Sin embargo, ¿qué pasa con un esquema de duplicación simple, enviar una unidad y mantener la otra en el sitio de origen?

Luego, si la unidad falla al llegar, se puede hacer y enviar una nueva copia. Si la unidad es buena a la llegada, el repuesto se puede reutilizar, ya sea para enviar o para hacer una copia de seguridad de los datos originales.


0

Realmente no ha dicho por qué se envían las unidades: ¿es solo una forma de enviar datos, tienen aplicaciones completas / imágenes del sistema operativo listas para arrancar en una PC o algo más?

Estoy de acuerdo con las otras respuestas de que RAID o las copias de seguridad son mejores que el escaneo, debido a los riesgos de enviar una unidad que causa problemas mecánicos.

Una forma más general de expresar esto sería "confiar en datos redundantes para detectar y corregir errores": enviar 2 unidades para cada conjunto de datos o enviar datos redundantes en una sola unidad. Algo como Parchive le permite agregar un nivel definido de redundancia a los datos, lo que permite la recuperación incluso si una gran parte de los datos está dañada. Dado que los discos son bastante baratos en estos días, simplemente comprar un disco más grande de lo estrictamente requerido a menudo será más barato que escanear la unidad, enviar una unidad de reemplazo o enviar 2 unidades.

Esto protegería contra fallas no catastróficas de la unidad; sin embargo, es mejor no reutilizar una unidad enviada excepto para el envío, como se sugirió anteriormente, es decir, verla como una cinta que debe extraerse a una unidad 'real' que está permanentemente instalado y no enviado a ninguna parte.

Esto debería permitirle enviar una gran cantidad de datos (o incluso imágenes de aplicaciones / SO) y reducir el impacto de los errores de disco a cualquier nivel económico.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.