¿Qué medio se debe utilizar para el almacenamiento de datos (archivo) a largo plazo, alto volumen?


56

Esta pregunta fue inspirada por https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Ha habido otras preguntas similares, pero ninguna con los mismos criterios.

Esta es dos preguntas en una.

  1. ¿Cómo almacena registros financieros / críticos que deberían sobrevivir a cualquier cosa menos un incendio y deberían estar disponibles durante décadas?
  2. Digamos que quiero almacenar fotos / videos familiares y quiero que la gente pueda encontrarlos en el almacenamiento dentro de 100 años a partir de ahora y aún poder usarlos. ¿Cómo se haría esto?

Criterios

  1. Largo plazo significa más de 30 años. garantizado . 100+ años promedio. [Si esto no es práctico, use la solución más cercana]
  2. Alto volumen significa un par de terabytes.
  3. Las respuestas pueden ser soluciones "sin compromiso / industriales" o soluciones prácticas para usuarios de pequeñas empresas o de oficinas domésticas.
  4. Los medios no estarán activos durante el período de tiempo. (es decir, si usted sugiere unidades de disco duro, no estarán girando).
  5. Además, no hay ninguna expectativa de necesitar leer estos archivos. Están allí para propósitos de emergencia o "para las generaciones futuras".
  6. No debe requerir mantenimiento (si es posible).

Mis pensamientos:

  1. Los CD-R / DVD-R me han demostrado, incluso a corto plazo, que son un medio terrible para las copias de seguridad. Parecen ser muy frágiles y parecen perder sus datos en muy poco tiempo, incluso cuando están en perfectas condiciones.
  2. No puedo evitar pensar que almacenar datos en un par de discos rígidos de 1 TB y luego esperar que se activen una o dos décadas más tarde sería una idea terrible. ¿Me equivoco?
  3. ¿Las unidades de cinta industriales parecen una opción viable?

No soy un experto, pero diría cinta. Esta pregunta podría ser mejor en Server Fault, pero honestamente no creo que se ajuste perfectamente a ninguno de los dos, así que rechazaré votar. Es una buena pregunta y debe vivir en algún lugar.
Shinrai

Estoy de acuerdo @Shinrai. Soy bienvenido a trasladar esto a otro lugar si alguien puede comentar dónde debería vivir.
user606723

4
Si no desea ningún compromiso, existe una tecnología que está diseñada para durar al menos 40,000 años sin intervención: voyager.jpl.nasa.gov/spacecraft/goldenrec.html
fixer1234

El futuro está en los cristales, potencialmente puede almacenar 360 TB y durar un millón de años. Ver: El 'cristal de memoria Superman' 5D anuncia el almacenamiento ilimitado de datos de por vida
kenorb

Respuestas:


20

Papel

Además de la tinta de archivo en el papel de archivo en almacenamiento sellado, no se ha demostrado que ningún medio actual dure un promedio de 100 años sin ningún tipo de mantenimiento.

Papel de archivo

Los papeles más viejos estaban hechos de materiales como la ropa de cama y el cáñamo, por lo que son naturalmente alcalinos. o libre de ácidos, por lo tanto, duran cientos de años. El papel del siglo XX y la mayoría del papel moderno generalmente está hecho de pulpa de madera, que a menudo es ácida y no se conserva durante largos períodos.

Tintas de archivo

Estas tintas permanentes que no se desvanecen son resistentes a la luz, el calor y el agua, y no contienen impurezas que puedan afectar la permanencia del papel o los materiales fotográficos. Las tintas actínicas negras son químicamente estables y presentan un pigmento inorgánico que no tiene tendencia a absorber las impurezas como pueden hacerlo otros pigmentos de tinta.

Almacenamiento redundante

Torvalds dijo una vez

Solo los wimps usan copia de seguridad en cinta: _real_ men simplemente cargan sus importantes   cosas en ftp, y deja que el resto del mundo lo refleje

Lo que sugiere que no debe confiar en una sola copia en un solo medio.

¿No son medios magnéticos?

http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container

  • Ejemplo típico de degradación irrecuperable de medios magnéticos.
  • Problemas de hardware y software (y formatos de datos)

Sistemas no especializados

En 2002, hubo grandes temores de que los discos se volvieran ilegibles, ya que las computadoras capaces de leer el formato se habían vuelto raras y las unidades capaces de acceder a los discos aún más raras. Aparte de la dificultad de emular el código original, un problema importante era que las imágenes fijas se habían almacenado en el disco láser como video analógico de un solo cuadro,

http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation

Almacenamiento personal a largo plazo

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

  • Tanto los medios como el formato pueden volverse ilegibles.
  • Imprima en papel libre de ácido con tintas pigmentadas y almacénelo en un lugar fresco, seco y oscuro.
  • El primer problema es escoger formatos de datos para una máxima longevidad.
  • Evitar el uso de formatos propietarios.
  • USCSF está transfiriendo todas sus cintas originales, muchas de ellas en formatos ahora obsoletos como BetaSP y VHS, al formato motionJPEG2000 de 75Mbit

1
1) ¿Puede proporcionar detalles sobre esto? ¿Las copias impresas normales no durarán tanto tiempo? (Las fotos de hace 100 años parecen estar bien, AFAIK). 2) Si ningún medio de datos actual durará tanto tiempo, sugiero que utilicemos la solución de armario posible. Es deprimente que dentro de décadas no podamos mirar a través de cajas viejas y esperar poder ver cualquiera de nuestras fotos antiguas, olvidadas, etc.
user606723

@ user606723: ver respuesta actualizada
RedGrittyBrick

Pensé que la impresión láser en papel sin ácido sería una buena manera de almacenar datos (unos pocos megabytes por página) que tienen una alta probabilidad de ser legibles en 100-200 años. El software para leerlo sería relativamente simple, y se supone que los escáneres siempre estarán disponibles, por lo que el formato (siempre que no sea demasiado complejo) nunca "desaparecerá" más allá de la capacidad de recuperación de un aficionado competente.
Daniel R Hicks

60

Respuesta corta

Es imposible garantizar un largo período de tiempo debido a la entropía (¡también llamada muerte!). Los datos digitales decaen y mueren, como cualquier otra cosa en el universo. Pero se puede ralentizar.

Actualmente no hay una manera a prueba de fallas y científicamente probada para garantizar más de 30 años de archivado de datos en frío. Algunos proyectos apuntan a hacer eso, como el Proyecto Rosetta Disks del museo Long Now. , aunque siguen siendo muy costosos y con una baja densidad de datos (unos 50 MB).

Mientras tanto, puede utilizar medios ópticos resistentes científicamente probados para almacenamiento en frío como discos Blu-ray tipo HTL como Panasonic, o DVD + R de archivo como Verbatim Gold Archival, y mantenerlos en cajas herméticas en un lugar suave (evite Temperatura alta) y fuera de la luz.

también ser REDUNDANTE : Realice varias copias de sus datos (al menos 4), y haga cálculos de hashes para verificar con regularidad que todo está bien, y cada pocos años debe volver a escribir sus datos en nuevos discos. Además, usa mucho códigos de corrección de errores , te permitirán reparar tus datos corruptos!

Respuesta larga

¿Por qué los datos se corrompen con el tiempo? La respuesta está en una palabra: entropía . Esta es una de las fuerzas primarias e inevitables del universo, lo que hace que los sistemas se vuelvan cada vez menos ordenados en el tiempo. Corrupción de datos Es exactamente eso: un desorden en bits orden. Así que en otras palabras, El Universo odia tus datos. .

Luchar contra la entropía es exactamente como luchar contra la muerte: es probable que nunca tengas éxito. Pero, puedes encontrar formas de retardar la muerte, al igual que puedes retardar la entropía. También puede engañar a la entropía reparando las corrupciones (en otras palabras: no puede detener las corrupciones, pero puede reparar después de que ocurran si tomó medidas de antemano). Al igual que cualquier cosa sobre la vida y la muerte, no hay una solución mágica, ni una solución para todos, y las mejores soluciones requieren que se involucre directamente en el curación digital de sus datos. E incluso si lo hace todo correctamente, no se garantiza que mantenga sus datos seguros, solo maximiza sus posibilidades.

Ahora las buenas noticias: ahora hay formas bastante eficientes de mantener sus datos, si combinar buena calidad medios de almacenamiento , y bueno estrategias de archivo / curación : debieras diseño para el fracaso .

¿Cuáles son las buenas estrategias de curación? Aclaremos una cosa: la mayor parte de la información que encontrará será sobre las copias de seguridad, no sobre el archivo. El problema es que la mayoría de la gente transferirá sus conocimientos sobre estrategias de copia de seguridad al archivo, por lo que ahora se escuchan muchos mitos. De hecho, almacenar datos durante unos pocos años (copia de seguridad) y almacenar datos durante el mayor tiempo posible durante al menos décadas (archivar) son objetivos totalmente diferentes y, por lo tanto, requieren herramientas y estrategias diferentes.

Afortunadamente, hay mucha investigación y resultados científicos, por lo que aconsejo referirme a esos artículos científicos en lugar de foros o revistas. Aquí resumiré algunas de mis lecturas.

Además, ten cuidado con los reclamos y dependiente estudios científicos, afirmando que tal o cual medio de almacenamiento es perfecto. Recuerda el famoso proyecto Domesday de la BBC: «El libro digital de Domesday dura 15 años, no 1000» . Siempre verifique dos veces los estudios con documentos realmente independientes, y si no hay ninguno, siempre asuma que el medio de almacenamiento no es bueno para archivar.

Aclaremos lo que está buscando (de su pregunta):

  • Archivo a largo plazo : desea conservar copias de sus datos "personales" sensibles e irreproducibles. Archivando es fundamentalmente diferente a una apoyo , como bien explicado aquí : las copias de seguridad son para datos técnicos dinámicos que se actualizan regularmente y, por lo tanto, deben actualizarse en copias de seguridad (es decir, sistema operativo, diseño de carpetas de trabajo, etc.), mientras que los archivos de respaldo estático datos que probablemente escribe solo una vez Y solo leer desde tiempo al tiempo . Los archivos son para datos intemporales. , usualmente personal.

  • Almacenamiento en frio : desea evitar el mantenimiento de sus datos archivados tanto como sea posible. Esta es una restricción GRANDE, ya que significa que el medio debe usar componentes y una metodología de escritura que permanezca estable durante mucho tiempo, sin ninguna manipulación de su parte y sin requerir ninguna conexión a una computadora o suministro eléctrico.

Para facilitar nuestro análisis, primero estudiemos las soluciones de almacenamiento en frío y luego las estrategias de archivo a largo plazo.

Medios de almacenamiento en frío

Definimos anteriormente lo que debería ser un buen medio de almacenamiento en frío: debería conservar los datos durante mucho tiempo sin que se requiera ninguna manipulación (por eso se llama "frío": puede almacenarlo en un armario y no necesita enchufarlo una computadora para mantener los datos).

Papel Puede parecer el medio de almacenamiento más resistente de la tierra, porque a menudo encontramos manuscritos muy antiguos de la antigüedad. Sin embargo, el papel tiene grandes inconvenientes: primero, la densidad de datos es muy baja (no puede almacenar más de ~ 100 KB en un papel, incluso con caracteres pequeños y herramientas de computadora), y se degrada con el tiempo sin ninguna forma de monitorearlo , al igual que los discos duros, sufren de corrupción silenciosa. Pero mientras que puedes monitorear corrupciones silenciosas en datos digitales, no puedes en papel. Por ejemplo, no puede garantizar que una imagen retendrá los mismos colores durante solo una década: los colores se degradarán y no tiene forma de encontrar cuáles fueron los colores originales. Por supuesto que puede cura sus imágenes si usted es un profesional en la restauración de imágenes, pero esto requiere mucho tiempo, mientras que con los datos digitales, puede automatizar este proceso de curación y restauración.

Discos Duros (HDDs) son conocido a tener un promedio de vida útil de 3 a 8 años: no solo se degradan con el tiempo, sino que son garantizado para morir eventualmente (es decir, inaccesible). Las siguientes curvas muestran esta tendencia a que todas las unidades de disco duro mueran a una velocidad asombrosa:

Curva de la bañera mostrando la evolución de la tasa de fallas de HDD dado el tipo de error (también aplicable a cualquier dispositivo diseñado):

curve-hdd1

Curva que muestra la tasa de fallos del disco duro, todos los tipos de error combinados: curve-hdd2

Fuente: Backblaze

Se puede ver que hay 3 tipos de HDD en relación con su falla: las que se están muriendo rápidamente (p. Ej., Error de fabricación, HDD de mala calidad, falla de la cabeza, etc.), las de tasa de muerte constante (buena manufactura, mueren por varios " razones "normales", este es el caso de la mayoría de las unidades de disco duro) y, finalmente, las robustas que viven un poco más que la mayoría de las unidades de disco duro y finalmente mueren poco después de las "unidades normales" (por ejemplo: unidades de disco duro con suerte, no muy usadas, Condiciones ambientales ideales, etc.). Por lo tanto, está garantizado que su HDD morirá.

¿Por qué los HDD mueren tan a menudo? Quiero decir, los datos se escriben en un disco magnético, y el campo magnético puede durar décadas antes de desaparecer. La razón por la que mueren es porque la medio de almacenamiento (disco magnético) y la hardware de lectura (tarjeta electrónica + cabezal giratorio) son acoplado : no pueden disociarse, simplemente no puede extraer el disco magnético y leerlo con otra cabeza, porque primero la placa electrónica (que convierte los datos físicos en digitales) es diferente para casi cada HDD (incluso de la misma marca y referencia) , depende de la fábrica de origen), y el mecanismo interno con el cabezal giratorio es tan intrincado que hoy en día es imposible para un humano colocar perfectamente un cabezal giratorio en los discos magnéticos sin matarlos.

Además, los discos duros son conocidos por desimantar con el tiempo si no se utiliza (incluyendo SSD). Por lo tanto, no puede simplemente almacenar datos en un disco duro, almacenarlos en un armario y pensar que retendrá datos sin ninguna conexión eléctrica: necesita conectar su HDD a una fuente eléctrica al menos una vez al año o por parejas de años . Por lo tanto, los discos duros claramente no son un buen ajuste para el almacenamiento en frío.

Cintas magneticas : a menudo se describen como las necesidades de copias de seguridad de acceso y, por extensión, para el archivo. El problema con las cintas magnéticas es que son MUY sensibles: las partículas de óxido magnético se pueden deteriorar fácilmente con el sol, el agua, el aire, los arañazos, desmagnetizarse con el tiempo o cualquier dispositivo electromagnético o simplemente caerse con el tiempo, o impresión a través . Es por eso que usualmente son utilizados solo en centros de datos por profesionales. Además, nunca se ha demostrado que puedan retener datos durante más de una década. Entonces, ¿por qué a menudo se les aconseja hacer copias de seguridad? Debido a que solían ser baratos: en el pasado, costaba de 10 a 100 veces más barato usar cintas magnéticas que los discos duros, y los discos duros solían ser mucho menos estables que ahora. Así que las cintas magnéticas se recomiendan principalmente para copias de seguridad debido a rentabilidad , no por la resistencia, que es lo que más nos interesa cuando se trata de archivar datos.

Tarjetas CompactFlash y Secure Digital (SD) Se sabe que son bastante resistentes y robustos, capaz de sobrevivir a condiciones catastróficas .

Las tarjetas de memoria en la mayoría de las cámaras son prácticamente indestructibles, según la revista Digital Camera Shopper. Cinco formatos de tarjeta de memoria sobrevivieron al ser hervidos, pisoteados, lavados y sumergidos en café o cola.

Sin embargo, como cualquier otro medio magnético, se basa en un campo eléctrico para retener los datos y, por lo tanto, si la tarjeta se agota, los datos pueden perderse totalmente. Por lo tanto, no es un ajuste perfecto para almacenamiento en frío (ya que de vez en cuando necesita volver a escribir todos los datos en la tarjeta para actualizar el campo eléctrico), pero puede ser un buen medio para copias de seguridad y archivos a corto o mediano plazo.

Medios ópticos: Los medios ópticos son una clase de medios de almacenamiento que dependen del láser para leer los datos, como CD, DVD o Blu-ray (BD). Esto puede verse como una evolución del papel, pero escribimos los datos en un tamaño tan pequeño, que necesitábamos un material más preciso y resistente que el papel, y los discos ópticos son solo eso. Las dos ventajas más grandes de los medios ópticos es que el medio de almacenamiento está desacoplado del hardware de lectura (es decir, si su lector de DVD falla, siempre puede comprar otro para leer su disco) y está basado en láser, lo que lo hace universal y prueba futura (es decir, siempre que sepa cómo hacer un láser, siempre puede modificarlo para que lea los bits de un disco óptico mediante emulación, al igual que CAMILEON lo hizo para el proyecto Domesday BBC. ).

Al igual que con cualquier otra tecnología, las nuevas iteraciones no solo ofrecen mayor densidad (espacio de almacenamiento), sino también una mejor corrección de errores y una mejor resistencia frente a la descomposición del medio ambiente (no siempre, pero en general son ciertas). El primer debate sobre la confiabilidad del DVD fue entre DVD-R y DVD + R, e incluso si el DVD-R todavía es común en la actualidad, se reconoce que el DVD + R es más confiable y preciso . Ahora hay discos DVD de calidad de archivo, específicamente diseñados para almacenamiento en frío, que afirman que pueden soportar un mínimo de ~ 20 años sin ningún tipo de mantenimiento:

El DVD-R de Verbatim Gold Archival [...] ha sido calificado como el DVD-R más confiable en una exhaustiva prueba de resistencia a largo plazo por la prestigiosa revista alemana c't (c't 16/2008, páginas 116-123 ) [...] logrando una durabilidad mínima de 18 años y una durabilidad promedio de 32 a 127 años (a 25ºC, 50% de humedad). Ningún otro disco se acercó a estos valores, el segundo mejor DVD-R tuvo una duración mínima de solo 5 años.

Desde www.linuxtech.net .

Además, algunas empresas especializadas en muy Los archivos de DVD a largo plazo y los comercializan ampliamente, como el M-Disc de Millenniata o el DataTresorDisc, alegando que pueden retener datos durante más de 1000 años, y verificados por algunos (dependiente) estudios (desde 2009) entre otros menos científicos .

¡Todo esto parece muy prometedor! Desafortunadamente, no hay suficientes estudios científicos independientes para confirmar estas afirmaciones, y los pocos disponibles no son tan entusiastas:

La humedad (80% RH) y la temperatura (80 ° C) aceleraron el envejecimiento en varios DVD a lo largo de 2000 horas (aproximadamente 83 días) de la prueba con un control regular de la legibilidad de los datos: Humidity and temperature accelerated ageing on several DVDs brands

Traducido de la institución francesa para el archivo de datos digitales (Archives de France), estudio de 2012.

El primer gráfico muestra un DVD con una lenta evolución de la degradación. El segundo DVD con curvas de degradación rápida. Y el tercero es para DVD especiales de "muy largo plazo" como M-Disc y DataTresorDisc. Como podemos ver, su rendimiento no se ajusta a los reclamos, ¡es inferior o está a la par con los DVD estándar, sin grado de archivo!

Sin embargo, los discos ópticos inorgánicos como M-Disc y DataTresorDisc tienen una ventaja: son bastante insensibles a la degradación de la luz:

Envejecimiento acelerado con luz (750 W / m²) durante 240 horas: Light accelerated ageing on several DVDs brands

Estos son excelentes resultados, pero un DVD de calidad de archivo como el Verbatim Gold Archival también logra el mismo rendimiento y, además, la luz es el parámetro más controlable para un objeto: es bastante fácil de poner un DVD en una caja cerrada o en un armario, y por lo tanto Eliminando cualquier posible impacto de la luz de cualquier tipo. Sería mucho más útil obtener un DVD que sea muy resistente a la temperatura y la humedad que la luz.

Este mismo equipo de investigación también estudió el mercado de Blu-ray para ver si habría alguna marca con un buen medio para el almacenamiento en frío a largo plazo. Aquí está su hallazgo:

La humedad y la temperatura aceleraron el envejecimiento en varias marcas de Blu-ray, bajo los mismos parámetros que para los DVD: temp-bd

Envejecimiento acelerado ligero en varias marcas de BluRays, los mismos parámetros: light-bd

Traducido de este estudio de Archives de France, 2012.

Dos resúmenes de todos los hallazgos (en francés) aquí y aquí .

En resumen, el mejor disco Blu-ray (de Panasonic) se desempeñó de manera similar al DVD de mejor calidad de archivo en la prueba de humedad + temperatura, ¡mientras que es prácticamente insensible a la luz! Y este disco Blu-ray ni siquiera es de archivo. Además, los discos Blu-ray utilizan un código de corrección de errores mejorado que los DVD (ellos mismos usan una versión mejorada en relación con los CD), lo que minimiza aún más los riesgos de pérdida de datos. Por lo tanto, parece que algunos discos BluRay pueden ser una muy buena opción para almacenamiento en frío.

Y, de hecho, algunas empresas están empezando a trabajar en discos Blu-ray de almacenamiento de alta densidad y almacenamiento de alta densidad como Panasonic y Sony. anunciando que podrán ofrecer 300 GB a 1 TB de almacenamiento con una vida útil promedio de 50 años. También, Las grandes empresas se están volcando hacia los medios ópticos para almacenamiento en frío. (ya que consume muchos menos recursos, ya que puede almacenarlos en frío sin necesidad de suministro eléctrico), como Facebook, que desarrolló un sistema robótico para usar discos Blu-ray como "almacenamiento en frío" Para los datos, su sistema rara vez accede.

Iniciativa de archivo de Long Now: Hay otras pistas interesantes como la Proyecto Rosetta Disc por el museo Long Now , que es un proyecto para escribir páginas a escala microscópica del Génesis en todos los idiomas de la tierra a los que se tradujo el Génesis. Este es un gran proyecto, que es el primero en ofrecer un medio que permite almacenar 50 MB para almacenamiento en frío a muy largo plazo (ya que está escrito en carbono), y con acceso preparado para el futuro ya que solo necesita una lupa para acceder al Datos (no hay especificaciones de formatos extraños ni problemas tecnológicos para manejar, como el rayo violeta del Blu-ray, ¡solo necesita una lupa!). Sin embargo, estos todavía se hacen manualmente y, por lo tanto, se estima que cuestan alrededor de $ 20K, lo que es un poco demasiado para un esquema de archivo personal, supongo.

Soluciones basadas en internet : Otro medio para almacenar en frío sus datos está en la red. Sin embargo, las soluciones de copia de seguridad en la nube no son una buena opción, ya que la principal preocupación es que las empresas de alojamiento en la nube no puedan vivir el tiempo que desee para mantener sus datos. Otras razones incluyen el hecho de que la copia de seguridad es horriblemente lenta (ya que se transfiere a través de Internet) y la mayoría de los proveedores requieren que los archivos también existan en su sistema para mantenerlos en línea. Por ejemplo, tanto CrashPlan como Backblaze eliminarán de forma permanente los archivos que no se vean al menos una vez en su computadora en los últimos 30 días, por lo que si desea cargar datos de respaldo que almacena solo en discos duros externos, deberá USB HDD al menos una vez por mes y sincronice con su nube para restablecer la cuenta atrás. Sin embargo, algunos servicios en la nube ofrecen mantener sus archivos por tiempo indefinido (siempre y cuando pague, por supuesto) sin una cuenta atrás, como SpiderOak. Por lo tanto, tenga mucho cuidado con las condiciones y el uso de la solución de copia de seguridad basada en la nube que elija.

Una alternativa a los proveedores de copia de seguridad en la nube es alquilar su propio servidor privado en línea y, si es posible, elegir uno con duplicación / copia de seguridad automática de sus datos en caso de fallas de hardware de su lado (algunos incluso le garantizan la pérdida de datos en sus contratos , pero por supuesto es más caro). Esta es una gran solución, primero porque aún posee sus datos y, segundo, porque no tendrá que administrar los fallos del hardware, esto es responsabilidad de su host. Y si un día su anfitrión cierra su negocio, aún puede recuperar sus datos (elija un anfitrión serio para que no se apaguen durante la noche pero le notifiquen de antemano, tal vez puede pedir que incluya el contrato). y reubicar en otro lugar.

Si no desea la molestia de configurar su propio servidor privado en línea, y si puede costearlo, Amazon ofrece un nuevo servicio de archivo de datos, llamado glaciar . El propósito es exactamente almacenar en frío sus datos a largo plazo: por lo tanto, cuesta mucho almacenar datos en un Glaciar, pero cuesta aún más recuperar estos datos, ya que este servicio se realiza para almacenar datos fuera de alcance , no para guardar los datos a los que desea acceder a menudo. Esto significa que este servicio cotiza precios para escribir datos, pero también para leerlos. Este servicio tiene un costo enorme, pero puede ser una buena oferta para algunos de sus datos más sensibles (es decir, si tiene algunos archivos de texto o imágenes que son MUY razonables, ya que este tipo de datos generalmente es de tamaño pequeño, no te costará mucho almacenar en un glaciar).

Deficiencias de almacenamiento en frío : Sin embargo, hay un gran defecto en cualquier medio de almacenamiento en frío: no hay verificación de integridad, ya que los medios de almacenamiento en frío NO PUEDEN verificar automáticamente la integridad de los datos (solo pueden implementar esquemas de corrección de errores para "curar" un poco del daño después de la corrupción sucedió, pero no se puede prevenir ni administrar automáticamente!) porque, al contrario de lo que ocurre con una computadora, no hay una unidad de procesamiento para computar / registrar / revisar y corregir el sistema de archivos. Mientras que con una computadora y varias unidades de almacenamiento, puede verificar automáticamente la integridad de sus archivos y duplicar automáticamente en otra unidad si es necesario si ocurriera algún daño en un archivo de datos (siempre que tenga varias copias del mismo archivo).

Archivo a largo plazo

Incluso con las mejores tecnologías disponibles en la actualidad, los datos digitales solo pueden almacenarse en frío durante algunas décadas (alrededor de 20 años). Por lo tanto, a largo plazo, no solo puede confiar en el almacenamiento en frío: debe configurar una metodología para su proceso de archivado de datos para garantizar que sus datos puedan recuperarse en el futuro (incluso con cambios tecnológicos) y que minimice los riesgos. de perder tus datos. En otras palabras, necesitas convertirte en el curador digital de sus datos, repare los daños cuando ocurran y vuelva a crear nuevas copias cuando sea necesario.

No hay reglas infalibles, pero aquí hay algunas establecidas estrategias de curación y, en particular, una herramienta mágica que facilitará su trabajo:

  • Principio de redundancia / replicación : La redundancia es la única herramienta que puede revertir los efectos de la entropía. , que es un principio basado en la teoría de la información. Para mantener los datos, necesita duplicar estos datos. Los códigos de error son exactamente una aplicación automática del principio de redundancia. Sin embargo, También debe asegurarse de que sus datos sean redundantes : varias copias de los mismos datos en diferentes discos, múltiples copias en diferentes medios (de modo que si un medio falla debido a problemas intrínsecos, hay pocas posibilidades de que los otros en diferentes medios también falle al mismo tiempo), etc. En particular , siempre debe tener al menos 3 copias de sus datos, también denominadas redundancia modular en ingeniería, de modo que si se corrompen sus copias, puede emitir un voto mayoritario simple para reparar sus archivos de sus 3 copias. Recuerde siempre el consejo de la brújula del marinero:

Es inútil traer dos brújulas, porque si uno sale mal, usted   nunca se puede saber cuál es el correcto, o si ambos están equivocados. Siempre toma   Una brújula, o más de tres.

  • Códigos de corrección de errores : esta es la herramienta mágica que hará su vida más fácil y sus datos más seguros. Los códigos de corrección de errores (ECC) son una construcción matemática que generará datos que pueden usarse para reparar sus datos. Esto es más eficiente, porque Los ECC pueden reparar muchos más datos utilizando mucho menos espacio de almacenamiento que la simple replicación (es decir, hacer copias múltiples de sus archivos), e incluso pueden usarse para verificar si su archivo tiene algún daño, e incluso localiza donde están esas corrupciones . De hecho, esto es exactamente una aplicación del principio de redundancia, pero de una manera más inteligente que la replicación. Esta técnica se usa ampliamente en cualquier comunicación de largo alcance en la actualidad, como 4G, WiMax e incluso las comunicaciones espaciales de la NASA. Desafortunadamente, aunque los ECC son omnipresentes en las telecomunicaciones, no están en reparación de archivos, tal vez porque es un poco complejo. Sin embargo, algunos programas están disponibles, como el conocido PAR2, pero ahora antiguo, DVD Disaster (que ofrece agregar códigos de corrección de errores en discos ópticos) y pyFileFixity (que desarrollo en parte para superar las limitaciones y problemas de PAR2). También hay sistemas de archivos que, opcionalmente, implementan Reed-Solomon, como ZFS para Linux o ReFS para Windows, que técnicamente son una generalización de RAID5.

  • Comprobar la integridad de tus archivos regularmente : Copie sus archivos y revíselos de vez en cuando (es decir, una vez al año, pero depende del medio de almacenamiento y las condiciones ambientales). Cuando vea que sus archivos sufrieron daños, es hora de reparar utilizando los ECC que generó si lo hizo y / o hacer una nueva copia nueva de sus datos en un nuevo medio de almacenamiento. La verificación de datos, la reparación de daños y la realización de nuevas copias son un buen ciclo de curación que garantizará que sus datos estén seguros. La verificación en particular es muy importante porque las copias de sus archivos pueden corromperse silenciosamente, y si luego copia las copias que han sido manipuladas, terminará con archivos totalmente corruptos. Esto es aún más importante con los medios de almacenamiento en frío, como los discos ópticos, que NO PUEDEN verificar automáticamente la integridad de los datos (ya implementan ECCs para curarse un poco, pero no pueden verificar ni crear nuevas copias automáticamente, ¡ese es su trabajo!) . Para monitorear los cambios de archivos, puede usar el script rfigc.py de pyFileFixity u otras herramientas de UNIX como md5deep . También puede verificar el estado de salud de algunos medios de almacenamiento como discos duros usando herramientas como Centinela del disco duro o el código abierto smartmontools .

  • Almacena tus archivos medianos. en diferentes lugares (con al menos una copia fuera de su casa) para evitar eventos catastróficos de la vida real, como inundaciones o incendios. Por ejemplo, un disco óptico en su trabajo o una copia de seguridad basada en la nube puede ser una buena idea para cumplir con este requisito (incluso si los proveedores de la nube pueden cerrarse en cualquier momento, siempre que tenga otras copias, estará seguro). , los proveedores de la nube solo servirán como un archivo externo en caso de emergencia).

  • Almacenar en específico Contenedores con parámetros ambientales controlados. : para medios ópticos, almacene lejos de la luz y en una caja hermética para evitar la humedad. Para discos duros y tarjetas SD, almacene en fundas anti-magnéticas para evitar la electricidad residual para manipular la unidad. También puede almacenar en una bolsa / caja hermética y hermética al agua y almacenar en un congelador: las temperaturas lentas reducirán la entropía, y pueden prolongar bastante la duración de la vida de cualquier medio de almacenamiento como ese (solo asegúrese de que el agua gane). No entres, de lo contrario tu médium morirá rápidamente).

  • Utilizar hardware de buena calidad y verifíquelos de antemano (por ejemplo, cuando compre una tarjeta SD, pruebe toda la tarjeta con un software como HDD Scan para verificar que todo esté bien antes de escribir sus datos). Esto es particularmente importante para las unidades ópticas, ya que su calidad puede cambiar drásticamente la calidad de sus discos grabados, como lo demuestra el estudio Archives de France (una grabadora de DVD defectuosa producirá DVD que durarán mucho menos).

  • Elija cuidadosamente sus formatos de archivo: no todos los formatos de archivo son resistentes a la corrupción, algunos incluso son claramente débiles. Por ejemplo, las imágenes .jpg pueden estar totalmente rotas e ilegibles al manipular solo uno o dos bytes. Lo mismo para los archivos 7zip. Esto es ridículo, así que tenga cuidado con el formato de archivo de los archivos que archiva. Como regla general, lo mejor es un texto claro simple, pero si necesita comprimir, use un zip no sólido y para imágenes, use JPEG2 (aún no es de código abierto ...). Más información y opiniones de curadores profesionales. aquí , aquí y aquí .

  • Almacene junto con sus archivos de datos todos los programas y especificaciones que sean necesarios para leer los datos. Recuerde que las especificaciones cambian rápidamente, y por lo tanto, en el futuro, es posible que sus datos ya no sean legibles, incluso si puede acceder al archivo. Por lo tanto, debería preferir los formatos y el software de código abierto, y almacenar el código fuente del programa junto con sus datos para que siempre pueda adaptar el programa del código fuente para iniciarlo desde un nuevo sistema operativo o computadora.

  • Hay muchos otros métodos y enfoques disponibles aquí , aquí y en varias partes de internet.

Conclusión

Aconsejo usar lo que pueda tener, pero siempre respete el principio de redundancia (¡haga 4 copias!), Y siempre verifique regularmente la integridad (por lo que debe generar una base de datos de hashes MD5 / SHA1 de antemano) y crear nuevos elementos. Copias en caso de corrupción. Si lo hace, técnicamente puede conservar sus datos todo el tiempo que desee, sea cual sea su medio de almacenamiento. El tiempo entre cada verificación depende de la confiabilidad de sus medios de almacenamiento: si es un disquete, verifique cada 2 meses, si es un Blu-ray HTL, verifique cada 2/3 años.

Ahora en el óptimo, aconsejo para el almacenamiento en frío para utilizar Blu-ray HTL discos o DVD de grado de archivo Discos almacenados en cajas opacas herméticas y almacenados en un lugar fresco. Además, puede usar tarjetas SD y proveedores basados ​​en la nube como SpiderOak para almacenar las copias redundantes de sus datos, o incluso los discos duros si es más accesible para usted.

Utilizar muchos códigos de corrección de errores , te salvaran el dia. También puede hacer varias copias de estos archivos ECC (¡pero las copias múltiples de sus datos son más importantes que las copias múltiples de ECC porque los archivos ECC pueden repararse a sí mismos!).

Todas estas estrategias se pueden implementar utilizando el conjunto de herramientas que estoy desarrollando (código abierto): pyFileFixity . De hecho, esta discusión comenzó con esta herramienta, después de descubrir que no había ninguna herramienta gratuita para administrar completamente la corrección de archivos. Además, consulte el archivo Léame y la wiki del proyecto para obtener más información sobre la corrección de archivos y la curación digital.

En una nota final, realmente espero que se ponga más R & amp; D en este problema. Este es un problema importante para nuestra sociedad actual, ya que cada vez se digitalizan más datos, pero sin ninguna garantía de que esta masa de información sobrevivirá más de unos pocos años. Eso es bastante deprimente, y realmente creo que este problema debería ponerse mucho más en el frente, para que esto se convierta en un punto de mercadotecnia para que los constructores y las empresas creen dispositivos de almacenamiento que puedan durar para las generaciones futuras.

/EDITAR: lea a continuación para una rutina de curación práctica .


5
¡Excelente respuesta! Esto necesita lejos más upvotes.
bwDraco

1
¿Planea agregar MÁS información? Considera publicarlo como un libro de texto. :-)
fixer1234

1
@ fixer1234 sí, planeo agregar más información y, lo que es más importante, información más pertinente y confiable. Hay muchos conceptos erróneos y soluciones seguras percibidas falsamente en el campo de la corrección de archivos, por lo que hay mucho que decir. He encontrado tanta información después de publicar esta publicación que es evidente que se necesita una actualización, y ya compilé todo en mis notas junto con las referencias. No estoy seguro de que SuperUser sea el mejor lugar para publicar todos estos datos, pero no tengo un blog propio: - Intentaré ser lo más conciso posible.
gaborous

3
Los DVD + R son bastante confiables si no obtienes falsificaciones. Los CD-R se vieron afectados por cualquier luz del infrarrojo al violeta (y el infrarrojo está en todas partes, a veces en gran parte), los DVD + R solo se ven afectados por el rojo o más corto, que ya son más difíciles. Los DVD también tienen la capa sensible entre dos capas de plástico, los CD tenían la capa justo debajo de la superficie de escritura del lápiz. Los discos BD-R son los mejores: necesitas luz violeta o ultravioleta para arruinarlos, y su superficie es la más fuerte. Yo diría que vaya con BD-R para el archivo práctico con alta probabilidad de éxito después de 30 años. Pero necesitas un jugador.
FarO

1
@OlafM sí, es cierto, cada nueva generación de discos ópticos trae consigo tecnologías más confiables, no solo en su material, sino también en su configuración tecnológica (por ejemplo, la forma en que Los hoyos / ranuras están escritos y manejados. , el código de corrección de errores, etc.), pero también debe prestar atención al material en el que se hicieron las capas, no todos los discos ópticos son iguales, y generalmente (pero no siempre), grado de archivo Los discos están hechos con materiales más resistentes.
gaborous

11

No hay una solución fácil. El mantenimiento del archivo. es un proceso , no un trabajo de una sola vez. Los tres tipos de medios de archivo actualmente disponibles tienen sus propias ventajas y desventajas, sin embargo, estos argumentos se aplican a todos los tipos de medios:

  1. Nadie almacenó DVD o discos duros durante 30 o 100 años, por razones obvias. Así que no hay un historial y nadie sabe cómo envejecerán los medios. Las pruebas de envejecimiento artificial no demuestran mucho, y usted confía en las pruebas del proveedor (no imparcial).

  2. Debe almacenar el medio en el entorno controlado para obtener mejores resultados (temperatura / humedad constantes, poca luz, etc.). De lo contrario, la vida de los medios se acorta significativamente.

  3. Debes mantener el hardware y software que lee los medios (por ejemplo, es posible que las interfaces SATA no estén disponibles en 30 años a partir de ahora).

Entonces, en mi opinión, la única solución viable para usuarios domésticos o pequeñas empresas es esta:

  1. Mantenga copias múltiples de todos los datos en diversos tipos de medios (discos duros y DVD)
  2. Mantenga copias múltiples de todos los datos en múltiples ubicaciones (en su casa y en la caja de seguridad de sus bancos).
  3. Copie todos los datos a los nuevos medios de vez en cuando (por ejemplo, copie a un nuevo disco duro y nuevos discos de DVD cada 2 años. A medida que la densidad de datos aumenta, probablemente también necesitará menos discos.
  4. Mantenga copias de papel para todos los datos críticos, si es posible (por ejemplo, imprima esos libros de contabilidad generales anuales para su negocio, imprima las fotos familiares más valiosas, etc.)

1
Me pregunto si hay RAID para DVD ... es decir, si almacena DVD durante dos años, puede estar bastante seguro de que el 80% de ellos estará libre de errores, por lo que podría tener dos discos de paridad. Hmmmm Usenet usa archivos de paridad, creo. Podría valer la pena usar algo así para el archivo de DVD / CD / BD.
user606723

1
@ user606723: ¡Esta es una muy buena idea! Sugiero usar algo como el archivo RAR de múltiples volúmenes (si los archivos originales son realmente grandes) con los archivos de paridad PAR2 ...
haimg

4
La compatibilidad de la interfaz sería una preocupación importante; Han pasado aproximadamente 30 años desde que se introdujo el IBM XT, sin embargo, ¿cuántas computadoras hoy en día pueden interactuar de alguna manera con un disco duro pre-ATA? ¿Cuántas computadoras construidas hoy pueden interactuar con un disco duro PATA sin hardware adicional (tarjeta controladora o adaptador USB)?
a CVn

1
@ user606723 Lo que usted llama "RAID para DVD" en realidad existe y ya está implementado en forma de "códigos de corrección de errores", en particular utilizando CIRC (Codificación Reed-Salomon entrelazada). Es por eso que los pequeños rasguños o el polvo no le impedirán leer los datos, porque ya se corrigieron automáticamente. Sin embargo, no puede especificar el nivel de redundancia que desea, por lo que si desea un DVD más resistente, debe usar un software de terceros, como DVDisaster , PAR2 o pyFileFixity .
gaborous

10

Seguimiento rápido en mi respuesta anterior arriba , esto se hará más conciso y extendido con información adicional (pero no de importancia primordial) y referencias que no puedo agregar en la primera respuesta debido a las restricciones de longitud de 30K.

Dado que el archivado a largo plazo es un proceso de curación, aquí hay algunas otras cosas a las que debería prestar atención para hacer que su proceso sea más eficiente y que consuma menos tiempo (y recursos):

  • Deduplicación : dado que la única forma de garantizar el archivado a largo plazo es mediante la redundancia diseñada deliberadamente, usted quiere evitar datos redundantes inútiles (por ejemplo, copias de los archivos que extrajo de su llave USB a su disco duro de archivado, pero ya tiene una copia de tu computadora principal!). Datos redundantes no deseados, que generalmente se llaman duplicados son malos, tanto en el costo de almacenamiento (requieren más recursos de almacenamiento, pero tendrá dificultades para encontrarlos cuando sea necesario), para su proceso (¿qué sucede si tiene diferentes versiones del mismo archivo? ¿Cómo puede saber qué copia es la correcta?). ¿Uno?) y para su tiempo (se sumará a los tiempos de transferencia cuando sincronizará la copia de seguridad a todos sus archivos). Es por eso que los servicios de archivo profesional suelen ofrecer automatizados. deduplicación : los archivos que son exactamente similares obtendrán el mismo inodo y no ocuparán espacio adicional. Eso es lo que SpiderOak hace, por ejemplo. Puede usar herramientas automatizadas, y los sistemas de archivos ZFS (Linux) o ReFS (Windows) pueden hacerlo automáticamente por usted.

  • Priorización / categorización : como puede ver, el archivado a largo plazo es un proceso que requiere mucho tiempo y se debe realizar con regularidad (para verificar el estado físico, sincronizar archivos a través de medios, crear nuevos archivos en medios nuevos para reemplazar los que están muriendo, reparar archivos usando códigos de corrección de errores, etc.) ). Para minimizar el tiempo que le cuesta, intente definir diferentes esquemas de protección en función de la prioridad de sus datos basados ​​en categorías . La idea es que cuando mueva los datos de su computadora a uno de su disco duro externo que usa para archivar a largo plazo, los coloca directamente en una carpeta que define la prioridad de respaldo: "no importante", "personal", "importante", "crítico" ". Luego, puede definir diferentes estrategias de copia de seguridad para cada carpeta: reserve la protección completa (p. Ej., La copia de seguridad en 3 discos duros + nube + códigos de corrección de errores + BluRays) solo para los datos más importantes que desea mantener durante toda su vida (la carpeta crítica) , luego, una protección media para datos "importantes" (por ejemplo, copia de seguridad en 3 discos duros + nube) y luego "personal" simplemente se copian en al menos dos discos duros externos, y "no importante" no obtiene copia (o tal vez en una sola unidad) conducir si la sincronización no es demasiado larga ...). Por lo general, verá que "sin importancia" contendrá la mayoría de los datos, luego "personal" menos, luego "importante" y "crítico" será bastante pequeño (menos de 50 GB para mí). Por ejemplo, en "crítico" usted pondrá el contrato de su casa y las fotos de su matrimonio y partos. Luego, en "importante" habrá documentos que no desea perder, como documentos legales, algunas fotos y videos importantes de eventos memorables, etc. En "personal", pondrá todas sus fotos personales, videos de sus vacaciones y documentos de trabajo. Estos son documentos y medios que te gustaría conservar, pero no te arrepentirás si los pierdes (y eso es bueno porque, por lo general, esta carpeta es GRANDE, por lo que probablemente perderás algunos archivos a largo plazo ... ). "Sin importancia" es todo lo que descarga de Internet o varios archivos y medios que no le importan (como software, juegos y películas). La conclusión es que: Cuantos más archivos desee archivar a largo plazo, más difícil (y lento) será , así que trate de mantener los archivos que reciben este tratamiento especial al mínimo.

  • Los metadatos son un punto crítico. : incluso con buenas estrategias de curación, generalmente hay una cosa que no está protegida: los metadatos. Los metadatos incluyen la información sobre sus archivos, por ejemplo: el árbol de directorios (sí, esto es solo unos pocos bytes, si pierde eso, obtiene sus archivos en total desorden), el nombre de archivo y la extensión, la marca de tiempo (esto puede ser importante para usted), etc. Esto puede no parecer un gran problema, pero imagínese lo siguiente: ¿qué pasaría si mañana, todos sus archivos (incluidos los archivos enviados con software y demás) se coloquen dentro de una carpeta plana, sin su nombre de archivo ni extensión. ¿Podrá recuperar los archivos que necesita de los miles de millones de archivos en su computadora, mediante una inspección manual? No piense que este es un escenario inusual, puede suceder tan fácilmente como si se produjera un corte de energía o una falla en el medio de una copia: la partición que se está escribiendo puede destruirse totalmente (el infame tipo RAW). Para superar este problema, debe estar preparado y preparar sus datos para la recuperación de datos: para asegurarse de mantener los metadatos, puede aglomerar los archivos con sus metadatos usando archivos no sólidos tales como ZIP DEFLATE o DAR (pero no alquitrán ). Algunos sistemas de archivos ofrecen redundancia de metadatos automatizada, como DVDisaster (para discos ópticos) y ZFS / ReFS (para discos duros). Luego, en caso de una falla de metadatos, puede intentar recuperar sus particiones utilizando TestDisk o GetDataBack (permitir la recuperación parcial del árbol de directorios) o ISOBuster (para discos ópticos), para recuperar el árbol de directorios y otros metadatos. En caso de que todo esto falle, puede recurrir al craqueo de archivos usando PhotoRec: esto extraerá todos los archivos que reconozca, pero en total desorden y sin el nombre de archivo ni la marca de tiempo, solo se recuperarán los datos. Si comprimió archivos importantes, podrá recuperar los metadatos dentro del archivo comprimido (incluso si el archivo comprimido ya no contiene metadatos, al menos dentro de los archivos seguirá teniendo los metadatos correctos). Sin embargo, tendrá que revisar manualmente todos los archivos recortados uno por uno, lo que requiere mucho tiempo. Para protegerse contra esta posibilidad, puede generar de antemano un archivo de suma de comprobación de integridad utilizando pyFileFixity o PAR2, y luego usar este archivo de suma de comprobación de integridad después del recorte de archivos para reconocer y renombrar automáticamente los archivos en función de su contenido. recuperación de datos, ya que el recorte de archivos solo puede recuperar técnicamente el contenido, no los metadatos).

  • Prueba tus formatos de archivo y estrategias de curación por ti mismo. : en lugar de confiar en las palabras de los artículos sobre qué tipo de formato es mejor que el otro, puede intentarlo usted mismo con pyFileFixity filetamper.py o simplemente por usted mismo reemplazando algunos caracteres hexadecimales en algunos archivos: verá que la mayoría de los formatos de archivo pueden descomponerse con tan solo 3 bytes diferentes. Así que realmente debería elegir cuidadosamente sus formatos de archivo: prefiera archivos de texto simples para notas, y use formatos de archivo resistentes para medios (todavía se están trabajando en ellos, como el Código de corrección de errores de variables MPEG-4, ffmpeg lo implementa, se agregará la referencia) ), o genere sus propios códigos de corrección de errores.

  • Lee estudios estadísticos, no creas afirmaciones : Como dije en la respuesta anterior, se hacen afirmaciones extravagantes todo el tiempo sobre la longevidad de los medios de almacenamiento sin ningún hecho científico, y debe ser particularmente cauteloso al respecto. De hecho, no hay nada en la ley que impida que el fabricante se jacte de afirmaciones falsas y no verificables sobre la longevidad. Prefieren referirse a estudios estadísticos, como Informe anual de BackBlaze sobre las tasas de falla de los discos duros .

  • Tomar largo garantizado medio de almacenamiento. Una garantía no puede recuperar sus datos, pero le informa sobre cómo el productor evalúa la tasa de falla de su producto (porque de lo contrario, costaría demasiado si la tasa es demasiado alta durante el período de garantía).


Una actualización sobre el esquema que utilizo: aplico la estrategia de priorización descrita anteriormente, y agregué el servicio de copia de seguridad en la nube SpiderOak a mi esquema, porque tiene un plan con almacenamiento infinito y está totalmente encriptado, por lo que conservo la propiedad exclusiva de mis datos. NO lo uso como mi único medio de copia de seguridad para ninguno de mis datos, es solo una capa adicional.

Así que aquí está mi esquema actual:

  • 3 copias de discos duros verificadas y sincronizadas regularmente y almacenadas en dos lugares diferentes y 1 que siempre está en mí (lo uso para almacenar basura y hacer copias de seguridad rápidas).
  • SpiderOak con plan de almacenamiento infinito
  • Discos BluRay para datos realmente sensibles pero no demasiado grandes (limito a 50 GB los datos que puedo almacenar en estos discos)
  • PyFileFixity y DVDisaster para carpetas que realmente quiero asegurar a largo plazo.

Mi rutina diaria es así: siempre tengo una unidad de disco duro USB 2.5 portátil que puedo usar para esconder cosas sin importancia (mover archivos de mi computadora a la unidad de disco duro) o hacer copias de seguridad de cosas importantes (copiar archivos a la unidad de disco duro pero guardar una copia en mi computadora). Para las cosas realmente críticas, además activo la copia de seguridad en línea para SpiderOak (tengo una carpeta en mi computadora con cosas críticas, así que solo necesito mover los archivos críticos allí y SpiderOak los sincroniza automáticamente). Para archivos REALMENTE críticos, también calculo un archivo de corrección de errores utilizando pyFileFixity.

Así que para resumir, para cosas críticas, las guardo en: el disco duro portátil, la nube SpiderOak y mi computadora, así que tengo 3 copias en cualquier momento con solo dos acciones rápidas (Copie al disco duro portátil y muévalo a la carpeta SpiderOak). Si una copia se corrompe, puedo hacer un voto mayoritario para corregirlos utilizando pyFileFixity. Es un esquema de muy bajo costo (tanto en precio como en tiempo) pero muy eficiente e implementa todos los principios básicos de la curación digital (redundancia triple, diferentes copias en diferentes ubicaciones, diferentes medios, verificación de integridad y ecc por SpiderOak).

Luego, cada 3 a 6 meses, sincronizo mi HDD portátil con mi segundo HDD en casa, y luego, cada 6 a 12 meses sincronizo mi HDD portátil con mi tercer HDD que está en otra casa. Esto proporciona el beneficio adicional de la rotación (si en 6 meses me doy cuenta de que algo salió mal en mi última copia de seguridad y eliminé los archivos críticos, puedo obtenerlos de uno de los dos HDD domésticos).

Finalmente, escribí algunos archivos muy críticos en discos BluRay usando DVDisaster (y archivos ecc adicionales con pyFileFixity pero no estoy seguro de que fuera necesario). Los guardo en una caja hermética en un armario. Solo los reviso cada pocos años.

Como puede ver, mi esquema no es realmente una gran carga: a diario, me lleva unos minutos copiar archivos en el disco duro portátil y en mi carpeta SpiderOak, y luego me sincronizo cada 6 meses con uno u otro disco duro del hogar. . Esto puede tardar hasta un día dependiendo de la cantidad de datos que se deben sincronizar, pero está automatizado por software, por lo que solo tiene que dejar que una computadora ejecute el software y hacer otra cosa (uso un netbook de 100 $ que compré solo para hacer eso, para que pueda trabajar en mi computadora principal al mismo tiempo sin preocuparme por estrellar mi computadora en medio de una copia que puede ser terrible y destruir el disco duro que se está escribiendo ). Los códigos de corrección de errores y los esquemas BluRay solo se usan raramente para datos realmente críticos, por lo que es un poco más lento, pero es raro.

Este esquema se puede mejorar (como siempre), por ejemplo, usando ZFS / ReFS en los discos duros : esto implementaría un Reed-Solomon automatizado corrección de errores código de protección y verificación de integridad (y Dittoblocks !) sin ninguna interacción manual por mi parte (al contrario de pyFileFixity). Aunque ZFS no se puede ejecutar bajo los sistemas operativos de Windows (por el momento) , hay ReFS que permite un control de corrección de errores similar en el nivel del sistema de archivos. Además, ¡podría ser una buena idea usar estos sistemas de archivos en discos duros externos! ¡Un HDD portátil que ejecute ZFS / ReFS con corrección de errores y deduplicación de RS automatizada debería ser increíble! (y ZFS parece ser bastante rápido así que la copia debe ser rápida!).

Una última nota: tenga cuidado con las afirmaciones sobre las capacidades de ECC de los sistemas de archivos como en esta lista , porque para la mayoría está limitado solo a los metadatos (como APFS ) o al reflejo RAID 1 ( btrfs ). Por lo que sé, solo ZFS y ReFS proporcionan códigos reales de corrección de errores (y no una simple duplicación) tanto de metadatos como de datos, siendo ZFS el más avanzado actualmente (aunque todavía es algo experimental a partir de 2018), en particular porque las unidades ReFS no pueden iniciarse .


5

Yo iría microfilm. No sé si todavía está fabricado, pero me sorprendería si no lo fuera. Los negativos basados ​​en plata duran cientos de años si se almacenan correctamente. Por supuesto, es una gran inversión y ocupará una sala completa para la fotografía y la visualización, y eso no es contar con el almacenamiento. Así que eso es solo si realmente TIENES 100 años + sin mantenimiento.

Si no, y es probable que no lo sea, a menos que quiera ganar una cápsula del tiempo, simplemente use las copias de seguridad de HDD y copie todo el material a los nuevos medios cada 10 a 15 años. Realmente, no hay mejor seguro contra el envejecimiento del medio que copiarlo todo cada 10 años aproximadamente. Mejor que el microfilm, mejor que las tabletas de arcilla, mejor que los obeliscos de piedra enterrados en la arena del desierto.


4

Hasta 5 TB (o más) puede almacenar de manera segura hasta 30 años en un cinta magnética también conocido como unidad de cinta. Esta vez está probado. Blue-ray grabables También guardará de forma segura sus cosas hasta 30 años, pero su capacidad es de alrededor de 100 GB.

Si tuviera más dinero, lo almacenaría en una película de 35 mm en blanco y negro. Se supone que los datos se pueden restaurar (dependiendo de la densidad) durante los próximos 700 años. ( Enlace alemán a wikipedia )


Para el registro, escribir en 20-50 discos blu-ray no está fuera de discusión.
user606723

Nunca he oído hablar de archivo de datos en 35 mm, aunque el principio es obvio, supongo. ¿Cómo es la densidad?
Shinrai

@Shinrai: No sé la densidad de la película, lo siento
tuergeist

Probablemente puedas calcular una densidad entre 1 y 10 megabits por fotograma.
Daniel R Hicks

3
El LS-9000 ED de Nikon escanea películas a 4000 ppp, lo que le brinda 21.4 Mp / fotograma a 35 mm (24 x 36 mm). Si puede usar 1/10 de eso para el almacenamiento real de datos (lo que permite imperfecciones de la película, limitaciones de enfoque y resolución en la óptica en ambos extremos, etc.) es de 2 Mb / cuadro o algo así como 10 MB para un rollo de película de 36 exposiciones y puro negro / blanco. Si el factor limitante es 4000 ppp del escáner, eso es 100 MB para una tirada de 36 exp. Por supuesto, aún tendría que conservar de alguna otra manera la información sobre cómo leer los datos, ya que a simple vista los marcos probablemente aparezcan de un color gris uniforme.
a CVn

2

Recomiendo un disco de níquel de tres pulgadas de diámetro con información microscópicamente grabada en su superficie.

http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/


3
¿Tiene que ser exactamente tres pulgadas? Tengo a mano un disco de níquel de 75 mm de diámetro ...
a CVn

El único problema con este enfoque es que solo puede almacenar imágenes fijas (escaneos). Pero actualmente es el mejor enfoque para el almacenamiento a MUY largo plazo (hasta 2000 años, milenios yey!) Otro defecto resaltado por algunos comentarios en el blog es que solo puede almacenar unos 50 MB de datos.
gaborous

1

Para ese tipo de espacio de tiempo, cualquier cosa que ya esté en el papel (o que se pueda imprimir fácilmente sin perder información) sería mejor almacenar en ese formulario. Solo tenga en cuenta el papel y el tóner que utiliza para la copia impresa.

En cuanto a los demás, no conozco un medio digital utilizado actualmente que dure ese lapso de tiempo. Si dedica tiempo (y, por lo tanto, dinero) a actualizar su colección, entonces una cinta magnética podría ser una opción viable, pero incluso entonces necesitaría algo de redundancia, ya que podría descubrir que una sola cinta se ha estropeado (o es posible). podría ser que la unidad de cinta simplemente se manche la cinta al leerla).

E incluso cuando pueda lograr que los medios de comunicación real pasen la prueba del tiempo, aún se enfrentará con el problema de si algún programa podría leer los medios de comunicación dentro de 30 años, y mucho menos dentro de 100 años.


1
La cinta magnética está sujeta a una serie de modos de falla, desde la "impresión hasta la desmagnetización" con el paso del tiempo hasta la oxidación de la cinta.
Daniel R Hicks

1

Es cierto que los CD-R y los DVD-R comunes no son lo suficientemente confiables para archivar datos importantes. Pero puedes obtener DVD que no son tan rápidos de descomponerse:

https://www.google.com/search?q=archival+dvd-r


Gracias por señalar esta opción, una buena alternativa a los discos M que está disponible para casi cualquier persona que tenga una grabadora de DVD.
gaborous

"El DVD-R de Verbatim Gold Archival [...] ha sido calificado como el DVD-R más confiable en una exhaustiva prueba de resistencia a largo plazo por la prestigiosa revista alemana c't (c't 16/2008, páginas 116- 123) [...] logrando una durabilidad mínima de 18 años y una durabilidad promedio de 32 a 127 años (a 25 ° C, 50% de humedad). Ningún otro disco se acercó a estos valores, el segundo mejor DVD-R tuvo una Durabilidad mínima de sólo 5 años. ", linuxtech.net/tips+tricks/best_safe_long-term_data_storage.html
gaborous

1

He leído que 'M-Disc' ha creado un DVD que necesita un escritor especial y que aún se puede leer en lectores de DVD genéricos. Reclaman una vida útil estimada de 1000 años, afirmando que no se puede probar con precisión. La exposición prolongada al sol, los arañazos, el uso múltiple, etc., y el disco es 100% utilizable. Me interesaría cualquier comentario de alguien que haya encontrado este sistema.

Aquí hay un extracto de Dell que tal vez esté instalando la unidad M-Disc en sus nuevas computadoras portátiles / PC

La empresa M-DISC Ready lleva los datos de grabado por láser a un material inorgánico similar a una roca para evitar la pérdida de datos, asegurando que sus archivos estén seguros y puedan almacenarse por hasta 1000 años, afirma la compañía.

A diferencia de todos los otros DVD grabables que usan tintes orgánicos para almacenar datos, los discos M no se desvanecen ni se degradan con el tiempo


En lugar de volver a publicar con más información, deberías haber editado tu publicación original.
Kazark

¿Puedes citar la cita con un enlace o algo? Además, puedes usar > para formatearlo como una cotización de bloque.
Kazark

1

Debe combinar diferentes tecnologías, ubicaciones y medios para lograr copias de seguridad de larga duración:

  • Grabar en DVD - Bluray a baja velocidad. Manténgalos en condiciones de poca luz, baja temperatura, baja humedad, libres de rasguños.
  • Mantenga una copia en una unidad RAID 1, Raid5, Raid6 o Raid10.
  • Mantener otra copia en un disco duro externo
  • Mantener una copia en la nube (carbonite, crashplan)
  • Mantener una copia de la tecnología M-Disc (Mdiscs y Mdisc burners) no está disponible en Amazon.com a precios muy buenos. El fabricante declara que pueden mantener datos durante 1000 años.

Veo que tres de sus cinco viñetas son en realidad variaciones de un solo tema: almacenamiento en disco duro magnético. En cuanto a su último punto, el problema no es tanto cuánto tiempo los medios retendrán los datos (y al menos los fabricantes de discos duros suelen citar números que son mucho mejores que la realidad), sino durante cuánto tiempo estará disponible el equipo para leer los datos. O el conocimiento de cómo hacerlos estará disponible. Todas sus técnicas sugeridas son de alta tecnología. Supongamos que los vikingos almacenaron datos en discos blu-ray; ¿Cuáles son las probabilidades que tendríamos el conocimiento de cómo interpretar esos datos ahora?
a CVn

@ MichaelKjörling Almacene una computadora adicional con todos los periféricos necesarios. Utilice la memoria ROM si es necesario.
QuyNguyen2013

1

Como alguien ya ha mencionado, hay una nueva tecnología llamada M-Disc. Son muy fiables: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Comenzamos a utilizarlos para asegurar imágenes de discos de máquinas de producción. Ya hay Blu-Rays en el mercado. La única desventaja es que son más lentos que los B-RD clásicos.


Tengo una necesidad similar de OP y después de leer sobre esto, creo que intentaré esta solución, ¡gracias por señalar esta tecnología! Solo requiere comprar un grabador de DVD o Blu-ray compatible con M-Disc, y LG ya produjo mucho, por lo que también es bastante accesible y de bajo costo.
gaborous

1
De hecho, parece que los discos M no son tan confiables como pretenden. Un estudio francés independiente del Archives de France. (institución oficial de archivo de datos de Francia) para encontrar el mejor soporte de archivo de datos, y encontraron que los discos M no resisten realmente la humedad y la temperatura (envejecimiento acelerado). Voy a publicar aquí una respuesta con más detalles.
gaborous

0

Si desea tener un método para resolver este problema, debe estudiar el campo de Evaluación Digital.

http://en.wikipedia.org/wiki/Digital_preservation

La preservación digital es el método de mantener vivo el material digital para que puedan seguir utilizándose a medida que los avances tecnológicos hacen obsoletas las especificaciones de hardware y software originales (wikipedia)

También hay un modelo de referencia: OAIS. http://en.wikipedia.org/wiki/Open_Archival_Information_System

Existen algunas soluciones de código abierto y comerciales para lograrlo. Las bibliotecas y los archivos utilizan estas tecnologías para conservar los libros digitalizados durante largos períodos de tiempo.


Mantener los datos durante un largo período de tiempo no equivale a la supervivencia de los medios de comunicación durante tanto tiempo, como ya se ha señalado en varias respuestas altamente votadas. Una parte importante de la conservación digital es la migración de datos a medida que los medios envejecen y se vuelven obsoletos.
a CVn

Gracias michael Solo apuntando a OASIS como método para lograr el objetivo real.
AGM

Esta es una buena respuesta para las estrategias de curación digital, pero no para qué medio de almacenamiento se debe utilizar. El modelo OAIS es muy bueno y, de hecho, lo utilizan la mayoría de las bibliotecas y archivos nacionales del mundo, pero me parece un poco demasiado complicado, teórico y que contiene metadatos innecesarios para uso individual. los Embólsalo El modelo es un poco más práctico y utilizable, pero aún bastante complicado, donde herramientas simples como PAR2 o pyFileFixity podría ser suficiente
gaborous

0

Tu respuesta es simple:

https://wiki.openstack.org/wiki/Cinder

Openstack es un sistema de almacenamiento casi "inmortal", ya que puede actualizar o reemplazar los nodos de falla por otros nuevos, incluso con tecnologías futuras que desconocemos ahora. Sus datos viven al menos 2, hasta 5 lugares simultáneamente en este sistema, por lo que las notas de almacenamiento completas pueden fallar y sus datos aún están presentes. Escalas de hasta 50 PB (verificadas) - 110 PB. Básicamente, agrega una capa SW en su hardware y esto hace que su almacenamiento sea infinito. Supera nuestra barrera de sonido actual de Raid Sets con sus limitaciones de tiempo de reconstrucción de sets de raid muy grandes. Los costos son aproximadamente el 50% de los sistemas tradicionales de almacenamiento de incursiones. Conozco un sistema de FUJITSU que presenta esto como una arquitectura de referencia: CD10000


1
Ahora solo tienes que poner tu fe en esa compañía :-)
einpoklum

-1

Almacenamiento práctico de datos a largo plazo utilizando la tecnología actual del año 2014:

... y esto es lo que estoy haciendo.

Obtenga dos de las unidades de varios terabytes, por ejemplo, dos unidades de 3 terabytes cada una. Llame a un TB-1 y al otro TB-2. Copia de seguridad de todo a TB-1. Después de un año de retroceder a TB-1, vuelva a formatear TB-2 y copie TB-1 a TB-2. Luego, para el próximo año, haga una copia de seguridad de todo a TB-2. Después de ese año, vuelva a formatear TB-1 y copie TB-2 a TB-1 y comience nuevamente el ciclo bianual.

El reformateo restaura la fuerza magnética de los marcadores sectoriales. Y la copia restaura la fuerza magnética de los datos.

El mismo principio puede aplicarse a la copia de seguridad en cinta y a la copia de seguridad en CD, o a la mayoría de las copias de seguridad. Pero los CD son tan inconvenientes porque pueden deteriorarse en menos de un año, y necesitas muchos de ellos para respaldar todo. Por lo tanto, grabar copias de todos los CD de copia de seguridad cada 5 meses es demasiado trabajo. Hasta ahora, puedo almacenar toda mi vida en una unidad de varios terabytes.


2
¿Los CDs van mal en menos de un año? ¿Estás diciendo que no tienes ningún CD de más de 1 año? Tengo datos y CD de audio de más de un año que puedo asegurarte, ¡y funcionan bien!
Dave

1
Tengo CDs de 1998 que todavía funcionan bien. Independientemente de que sepamos que esto no es cierto, ¿qué te hace creer que este es el caso? ¿Puedes obtener tu información? Gracias.
Matthew Williams

No es necesario volver a escribir datos en el disco duro, solo necesita proporcionar un suministro eléctrico para mantener (o restaurar) el campo electromagnético. La reescritura de datos para almacenamiento a largo plazo solo es necesaria para tarjetas SD / Compact y SDD.
gaborous
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.