¿Se pueden usar las instantáneas de NetApp como copias de seguridad?

11

Nuestra tienda depende en gran medida de las instantáneas de volumen de NetApp para las copias de seguridad. Utilizamos copias de seguridad en cinta basadas en agentes tradicionales para algunos de nuestros datos, pero en general confiamos en las instantáneas para la mayoría de nuestros sistemas. Además, no tenemos una política rigurosa de control de cambios ni ninguna gestión de configuración centralizada, por lo que todosde nuestros servidores, independientemente de si los datos que brindan sus servicios están respaldados, tendrían que reconstruirse a partir de metal (y sin ninguna documentación real). Naturalmente, esto hace que las instantáneas sean una propuesta muy atractiva para la administración porque podemos recuperar todo el servidor, los datos del usuario y la configuración incluidos. Utilizamos la consola de almacenamiento virtual de NetApp para hacer instantáneas de nuestros almacenes de datos de VMware basados en NFS y SnapDrive de NetApp para LUN mapeados (físicos) de dispositivos sin procesar que se presentan directamente a los invitados. Realizamos instantáneas críticas de SnapMirror fuera del sitio a otro Filer. Naturalmente, probamos regularmente nuestro proceso de restauración.

No puedo evitar sentirme incómodo con nuestra dependencia de las instantáneas en las copias de seguridad. Para mí, para que una tecnología se considere suficiente como estrategia de respaldo, debe cumplir con los siguientes criterios:

La copia de seguridad debe ser atómica. Es decir, la copia de seguridad no puede confiar en nada más para su recuperación.
La copia de seguridad debe separarse del sistema del que es una copia de seguridad (fuera de banda).
La copia de seguridad debe copiarse o transportarse al sitio remoto (fuera del sitio)

Instantáneas de NetApp

Entiendo que las instantáneas de NetApp funcionan bajo una metodología de redireccionamiento en escritura (RoW). El diseño del archivo WAFL utiliza un conjunto de punteros (metadatos?) Que realmente hacen referencia a cada bloque de almacenamiento donde sea que esté. Para hacer una instantánea, el sistema solo toma una copia de los metadatos de un volumen y la almacena en el espacio reservado de ese volumen. Cualquier escritura (creaciones / cambios / eliminaciones) se redirige a nuevos bloques. Se supone que esta es la salsa especial que hace que el WAFL de NetApp sea tan bueno porque no tiene que leer y luego escribir los datos antiguos en el espacio reservado y luego escribir sus datos nuevos sobre los antiguos como instantáneas de Copia en escritura.

Admito completamente que podría no entender exactamente cómo funcionan las Instantáneas de Volumen de NetApp, pero si mi comprensión es más o menos correcta, las Instantáneas de NetApp no cumplen mis criterios para las copias de seguridad.

Son no atómica. La "instantánea" es realmente solo un conjunto de punteros a los datos originales. Si los datos originales ya no están allí, los metadatos son inútiles.
La instantánea no está separada del sistema. Si alguien elimina el volumen incorrecto, pierdo la instantánea. Si el Filer de NetApp explota en pequeños gatitos, pierdo la copia de seguridad. Puedo usar SnapMirror para mover mis instantáneas a otro Filer, pero nuevamente, solo mueve los metadatos, no los bloques reales. Si pierdo el volumen original, no puedo ver cómo una instantánea copiada a otro Filer va a ayudar.

¿Alguien puede explicar cómo las instantáneas de NetApp pueden considerarse copias de seguridad? Estoy buscando buenas respuestas subjetivas, así que apoye su posición con hechos, referencias y experiencia. Si entiendo que la tecnología subyacente es incorrecta, explique dónde y por qué eso cambia mi conclusión. Si su tienda se basa en las instantáneas de NetApp como copias de seguridad, incluya suficiente información contextual para que las personas puedan tener una idea de qué tipo de política de recuperación debe cumplir.

También puede obtener algunas ideas útiles / mejores prácticas de la lista de correo de administradores de tostadoras en teaparty.net/mailman/listinfo/toasters . (Descargo de responsabilidad: ejecuto la lista.)

— MadHatter

44

Creo firmemente que la copia de seguridad debe ser tanto fuera del sitio como fuera de línea. Un atacante malintencionado no puede lanzar un ataque electrónico que borre una cinta en la caja de seguridad. Está haciendo que un atacante invoque cinética una vez que desconecte las copias de seguridad.

— Evan Anderson el

Como indicó en la pregunta en sí, ya se da cuenta de que las instantáneas no son una copia de los datos. Es por eso que se necesita SnapMirror. Entonces, ¿por qué preguntas sobre instantáneas en lugar de si snapshot + SnapMirror es un mecanismo de copia de seguridad válido?

— 200_success

A menudo realiza copias de seguridad de cosas que no se reflejan. Entornos sin producción, por ejemplo. La reconstrucción demora mucho tiempo, pero no arruinará el negocio si los pierde.

— Albahaca

15

Las copias de seguridad cumplen dos funciones.

En primer lugar, están ahí para permitirle recuperar sus datos si no están disponibles. En este sentido, las instantáneas no son copias de seguridad. Si pierde datos en el archivador (eliminación de volumen, corrupción de almacenamiento, error de firmware, etc.), todas las instantáneas de esos datos también desaparecerán.
En segundo lugar, y con mucha más frecuencia, las copias de seguridad se utilizan para corregir cosas rutinarias como eliminaciones accidentales. En este caso de uso, las instantáneas son copias de seguridad. Podría decirse que es una de las mejores formas de proporcionar este tipo de recuperación, ya que hacen que las versiones anteriores de los datos estén disponibles directamente para los usuarios o su sistema operativo como un directorio oculto .snapshot desde el que pueden leer directamente su archivo.

Sin política de retención

Dicho esto, si bien tenemos instantáneas y las usamos ampliamente, todavía hacemos incrementos nocturnos en Netbackup para grabar o en el dominio de datos. La razón es que las instantáneas no pueden mantener de manera confiable una política de retención. Si le dice a los usuarios que podrán realizar una copia de seguridad de una granularidad diaria durante una semana y luego de una granularidad semanal durante un mes, no puede cumplir esa promesa con instantáneas.

En un volumen Netapp con instantáneas, los datos eliminados contenidos en una instantánea ocupan espacio de "reserva instantánea". Si el volumen no está lleno y lo ha configurado de esta manera, también puede pasar esa reserva de instantáneas y tener instantáneas que ocupan parte del espacio de datos no utilizado. Sin embargo, si el volumen se llena, todas las instantáneas, excepto las admitidas por los datos en el espacio reservado, se eliminarán. La eliminación de instantáneas se determina solo por el espacio de instantánea disponible, y si necesita eliminar instantáneas que son necesarias para su política de retención, lo hará.

Considere esta situación:

Un volumen completo con instantáneas regulares y un requisito de retención de 2 semanas.
Suponga que la mitad de la reserva en uso para las instantáneas se basa en la tasa de cambio normal.
Alguien elimina muchos datos (más que la reserva de instantáneas), aumentando drásticamente la tasa de cambio, temporalmente.

En este punto, su reserva de instantáneas se usa por completo, al igual que la mayor parte del espacio libre de datos que ha permitido que OnTap use para instantáneas, pero aún no ha perdido ninguna instantánea. Sin embargo, tan pronto como alguien vuelva a llenar el volumen con datos, perderá todas las instantáneas contenidas en la sección de datos, lo que hará que su punto de recuperación vuelva al momento justo después de la eliminación grande.

Resumen

Las instantáneas de Netapp no lo cubren contra la pérdida real de datos. Un volumen eliminado errado o pérdida de datos en el archivador requerirá que reconstruya los datos.

Son una forma muy simple y elegante de permitir restauraciones de rutina simples, pero no son lo suficientemente confiables como para reemplazar una solución de respaldo real. La mayoría de las veces, harán restauraciones de rutina simples y sin dolor, pero cuando no están disponibles, estás expuesto.

— Albahaca
fuente

Deletion of snapshots is determined only by available snapshot space, and if it needs to delete snapshots that are required for your retention policy

- Esto es algo que ni siquiera consideré. Excelente punto

¿Quieres tener un poco de diversión? Intente hacer instantáneas en un volumen de snapmirrored para flexclones del objetivo. Luego intente usar el 100% del espacio no reservado en la fuente. Funciona hasta que el respaldo de la instantánea que flexclone se elimina en el volumen de origen, momento en el que se detiene la replicación .

— Albahaca

1

Si bien estoy de acuerdo con usted en su mayor parte, probablemente lo corregiría en su primer punto. Recuerde la regla de respaldo 3-2-1 y que el 2 representa dos medios diferentes. SnapShots encajará como una de sus tres copias y quizás su escenario de restauración más común. No son su copia fuera de los medios o su copia fuera del sitio. Entonces, diría que SnapShots sirven como copias de seguridad, pero no son suficientes como sus ÚNICAS copias de seguridad o estrategia de copia de seguridad completa. Creo que esto es lo que estabas buscando; pero, siento que esto es un poco más matizado.

— abegosum

Bonita distinción entre las dos funciones (de importancia comparable) de las copias de seguridad, que pueden denominarse más brevemente recuperación de desastres y recuperación de imbéciles , respectivamente.

— MadHatter

8

Son una copia de seguridad, sí. Personalmente los he usado en lugar de los incrementos diarios antes, pero aún hicimos videos completos semanales para grabar.

Protegen bastante bien de cualquier error o problema de usuario o administrador que no sea netapp (sistemas que acceden a volúmenes).

No protegen contra fallas catastróficas de hardware de la propia red. Según tengo entendido, SnapMirror copia todos los datos (en la instantánea) al otro archivador [1], por lo que SnapMirroring a otro archivador debería proteger ese conjunto de datos de la falla catastrófica de un único archivador.

El principal problema, por supuesto, es que si alguien que administra el netapp elimina el volumen, entonces todas las instantáneas van con él. SnapMirror a otro archivador debería proteger adecuadamente contra eso.

Si todos sus archivadores de NetApp están en el mismo centro de datos, entonces no tiene nada que cubra un desastre mayor, la forma en que las copias de seguridad en cinta enviadas fuera del sitio le proporcionarían.

Obtendrá mejores copias de seguridad de sus máquinas virtuales y de cualquier base de datos (o cosas similares a las bases de datos) si utiliza el agente SnapManager apropiado, que coordinará la inmovilización de los datos brevemente a medida que se toma la instantánea. Si una VM determinada y sus datos están contenidos completamente dentro de un único volumen de NetApp, entonces la instantánea de esa VM debe ser consistente con el bloqueo. Es decir, debería ser tan bueno como si desconectara un servidor e hiciera una imagen de la unidad, lo que normalmente significaría verificaciones del sistema de archivos y los equivalentes de la base de datos. Si los datos de una base de datos se dividen entre LUN, parece que existe un riesgo significativo de corrupción de datos.

Si fuera yo, configuraría todas las bases de datos para hacer copias de seguridad periódicas en el disco local, y establecería esos trabajos para mantener una copia o dos. Eso le da una garantía mucho mejor de recuperabilidad.

[1] http://www.netapp.com/us/system/pdf-reader.aspx?m=snapmirror.pdf&cc=us

— freiheit
fuente

+1 por mencionar SnapMirroring a otro archivador; la gente parece pasar por alto esa funcionalidad.

— MadHatter

1

Sin embargo, Snapmirroring a otro archivador no lo protegerá de la eliminación automática de instantáneas acortando su punto de recuperación. Sin embargo, protege contra la eliminación de volúmenes y la pérdida de archivos.

— Albahaca

2

Deberías ir a leer la excelente respuesta de @Basil en este momento, pero aquí están mis dos centavos:

Las instantáneas no son conscientes de la aplicación

El hecho de que tome una instantánea del volumen de almacenamiento subyacente no significa que los datos de ese volumen sean recuperables. MS SQL es un gran ejemplo de esto: debe asegurarse de que su base de datos sea consistente con las transacciones antes de tomar una instantánea del almacenamiento que está utilizando, de lo contrario, @freiheit mencionó que no está mejor que recuperarse de una falla de hardware . A los DBA les encanta usar diferentes LUN para diferentes partes de SQL para utilizar mejor el sistema de almacenamiento, bases de datos temporales en almacenamiento rápido, bases de datos del sistema en almacenamiento más lento, datos de solo lectura o archivados en almacenamiento masivo y datos de trabajo en algún punto intermedio. Si solo está capturando instantáneamente esos volúmenes, es muy poco probable que pueda recuperar su base de datos.

NetApp proporciona una serie de herramientas Snap para que las aplicaciones de instantáneas conozcan la aplicación. SnapManager para SQL proporciona esa conciencia. En el ecosistema de Microsoft, creo que también hay herramientas SnapManager para Exchange y SharePoint. SnapDrive no tiene conocimiento de esta aplicación. Simplemente proporciona un método conveniente para administrar el almacenamiento dentro del huésped.

Si está almacenando todos sus datos y configuración de IIS en LUN y capturando instantáneamente esos LUN directamente, no puede garantizar que los datos sean recuperables. Pregúntame cómo lo sé ...

Múltiples tipos de almacenamiento pueden tener diferentes horarios de instantáneas

Si presenta almacenamiento a sus servidores de diferentes maneras, esto puede complicar su instantánea y la imagen de recuperación. El ONTAP de NetApp es una oferta multiprotocolo y es muy posible que esté utilizando más de un método o tipo de almacenamiento para un servidor en particular. En nuestra tienda, algunos de nuestros servidores obtienen su unidad C: \ sobre un almacén de datos basado en NFS y sus unidades de "almacenamiento" sobre LUN mapeados de dispositivos sin formato. Estábamos tomando instantáneas de los RDM LUN pero no de los almacenes de datos basados en NFS. Esto dificultó la recuperación del servidor .

Las instantáneas no tienen una política de retención garantizada

Nuevamente, @Basil realmente cubre esto bien, pero vale la pena reiterarlo. Es posible llenar su Snap Reserve de tal manera que Snpashot Autodelete elimine las instantáneas que no han envejecido naturalmente hasta su eliminación. De nuevo. Esto puede ser realmente malo si usted o sus clientes esperan tres semanas de instantáneas disponibles.

Las instantáneas están en línea

Este es el inconveniente del almacenamiento integrado ... está bien ... integrado. Sus instantáneas residen en la misma plataforma que está respaldando. Si el volumen o el Filer que está encendido desaparece, también lo hace su copia de seguridad. Puede mitigar esto de alguna manera copiando las instantáneas a otro Filer usando SnapMirror, como dije erróneamente en mi pregunta que la copia de SnapMirror no es una copia completa.

Las instantáneas permiten que continúen las malas prácticas operativas

Una cosa que he notado es que las instantáneas permiten a los gerentes y clientes continuar con un comportamiento de operaciones terrible. En nuestro entorno tenemos muy pocas prácticas de gestión de documentación y configuración. Esto significa que la mayoría de los servidores comienzan con la misma base (una plantilla o una imagen) pero luego son configurados manualmente por diferentes grupos de personas. A medida que continúan su vida, los servidores divergen más y más de la plantilla en formas que generalmente no están documentadas o implementadas con la administración de la configuración.

Y luego vienen las instantáneas! ¡No necesitamos dar un paso atrás y abordar algunas de nuestras prácticas operativas fundamentales porque podemos capturar instantáneamente todos nuestros servidores! ¡Y podemos usar SnapMirror para mover esas instantáneas fuera del sitio para que podamos usarlas como copias de seguridad!

Creo que esta es la lección equivocada para aprender aquí. Una mejor lección para aprender es que el marco de administración de configuración, incluso si es tan simple como un registro de cambios, debe ser respaldado con el propósito de restaurar completamente. Las instantáneas son una herramienta fantástica, pero puedo sentir la tentación de depender demasiado de ellas para disuadir los fundamentos importantes.

— Comunidad
fuente