¿Espacio libre "obligatorio" en una SAN?

No soy un experto en SAN, estoy escribiendo aquí para obtener algunas pistas sobre problemas continuos y exasperantes que estamos teniendo y que nuestro proveedor parece no ser capaz de resolver.

poseemos una SAN ENHANCE ES3160P4 con discos de 16 x 2 Tb que se suministra para nuestro sistema de videovigilancia. El proveedor ha configurado la SAN para usar 14 discos dentro de una matriz RAID 5, y 2 discos son repuestos globales. El RAID generalmente se divide en 2 discos virtuales de igual tamaño que abarcan todo el espacio RAID. Cada uno resulta ser algo más de 12 Tb. Cada disco virtual corresponde a un único LUN, que está conectado a un único servidor de video que almacena continuamente datos de video y permite a los usuarios recuperar grabaciones cuando sea necesario. Los LUN están formateados con NTFS y se conectan a los servidores de videos de Windows Server 2012 a través de iSCSI. Los servidores de videos tienden a usar completamente el espacio disponible que tienen.

Con esta configuración, los discos de la SAN fallan y fallan, y cada vez que la SAN no puede recuperar el RAID porque otro disco falla mientras tanto. Perdimos el RAID como 4 veces en los últimos meses.

Este problema no parece ser causado por una mala muestra de SAN, porque poseemos otras tres máquinas del mismo tipo configuradas de manera similar que parecen tener los mismos problemas. Solo uno no tiene problemas, pero por el momento está infrautilizado.

Después de algunos meses de pruebas y controles desconocidos, el proveedor terminó diciendo que es bien sabido que la SAN no debe usarse al 100% o que se degradará rápidamente, también físicamente, y dijo que para resolver el problema deberían crearse los discos virtuales dejando un 10-15% del espacio total disponible en el RAID.

Busqué el problema en la web y no encontré declaraciones específicas que lo dijeran. Me parece que sería más razonable crear discos virtuales que abarquen todo el RAID y luego subutilizar los LUN (es decir, permitir que Windows tenga espacio libre y evitar la fragmentación). Si no, no entiendo por qué ENHANCE SAN permite crear discos virtuales que abarcan todo el RAID si es tan "conocido" que debe dejarse espacio libre, y por qué el proveedor configuró el sistema de esta manera al principio ... pero ese es otro punto.

Al final, queremos resolver esta situación. Cualquier sugerencia es aceptada. Como dije, no soy un experto en SAN, pero después de tantos problemas me gustaría entender realmente si el proveedor sabe lo que está sucediendo o no, porque ya no podemos aceptar esta situación.

¡Muchas gracias de antemano! Saludos

Editar: tipo de disco A partir de la respuesta, parece ser información relevante, agrego que los discos son todos modelos de Western Digital WD2001FYYG-01SL3.

storage-area-network disk-space-utilization diskmanagement

— z2k
fuente

Cualquier sistema diseñado adecuadamente, si necesitara espacio de reserva para funcionar correctamente, reservaría espacio sin ofrecerlo para que lo usen los clientes. Es posible que las instantáneas necesiten espacio y los sistemas de archivos de Copia en escritura, pero generalmente tienen una pequeña reserva para esos fines. Al menos por defecto, lo que, por supuesto, puede ser anulado por los usuarios si están dispuestos a correr el riesgo.

— ptman

Al menos los discos se ven bien, son discos SAS 24/7, pero no deberían fallar con tanta frecuencia ...

— Sven

El iossue no es espacio libre, es una configuración idiota. 14 discos en un Raid 5 no son estables por matemática, así de simple. Incluso Raid 6 puede gravarlo. En general, una incursión con discos de 2tb no es estadísticamente estable. Período.

— TomTom

@TomTom: Si crees que es matemática simple, responde la pregunta que muestra las matemáticas. Mi matemática de la servilleta dice que la matriz es estable si es poco probable que la lectura de 13 * 2TB para reconstruir una matriz degradada falle. La incursión 6, por supuesto, es mejor, eso es estable si es poco probable que la reconstrucción encuentre una doble falla.

— MSalters

With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.

Esto es exactamente porque, como dice TomTom, los discos son demasiado grandes para RAID5. Y probablemente también RAID 6, FWIW. Sus probabilidades de una reconstrucción exitosa no se acercan al 100%, y lo sabe porque usted mismo declaró que ha tenido "como 4" reconstrucciones sin éxito en cuestión de meses. Su configuración RAID es idiota y su proveedor es incompetente, así de simple.

— HopelessN00b

Respuestas:

Por lo que describe, el problema principal es que decidieron usar un RAID5 para una matriz tan grande, lo cual es una mala elección para esta configuración, exactamente por la razón que experimenta: tener un segundo disco fallado durante la recuperación lo rompe todo, y esta segunda falla es muy probable que corra ese riesgo.

Si hubieran utilizado, por ejemplo, un RAID6, tener un segundo disco fallido durante la recuperación no conduciría a una matriz fallida y la recuperación podría continuar normalmente, a costa de un valor de capacidad de almacenamiento neto de un disco y un cierto impacto en el rendimiento.

No puedo ver cómo dejar un 15% de espacio libre ayudaría en absoluto con este problema, y aunque esto podría o no ser una buena idea desde el punto de vista del rendimiento para el sistema de archivos, esto claramente no está relacionado con la falla de RAID. Yo digo que eso es mentira.

Dicho todo esto, no puedo evitar preguntarme: tener esto sucediendo varias veces en el transcurso de unos meses parece ser demasiado incluso para un sistema RAID5. Sugeriría buscar en los tipos de discos utilizados: es posible que su proveedor haya utilizado unidades de escritorio baratas en lugar de unidades 24/7 certificadas para su uso en dicho sistema.

— Sven
fuente

Gracias por sus aportes. Edité la pregunta agregando el tipo de disco.

— z2k

Entiendo completamente que esta es una publicación antigua, pero a medida que sigo viendo grandes matrices RAID5 en producción, me gustaría agregar mis pensamientos aquí.

los discos que fallan con demasiada frecuencia son generalmente un caso de sobrecalentamiento y / o demasiadas vibraciones, que se pueden encontrar en sistemas mal diseñados o en ubicaciones malas
Estas grandes matrices RAID5 deben evitarse en gran medida . Como regla general, es mucho mejor tener una matriz RAID6 en lugar de una RAID5 + hotspare. En el caso de OP, en lugar de tener 1x disco de paridad con 2x hotspares globales, era mucho mejor tener 2x disco de paridad en una configuración RAID6;
es clave contar con un sistema confiable para la notificación de errores y estados: una matriz no supervisada, degradada sin saberlo, es una receta para el desastre.

— shodanshok
fuente

continuará viendo grandes matrices RAID5 en producción "¡Más grande debe ser mejor!", ¿verdad? También agregaría que las matrices tan grandes tienen un rendimiento HORRIBLE en general debido a la mala geometría y la contención entre múltiples LUN compartidos desde la misma matriz, incluso si las matrices están construidas con RAID6. IME, casi los arreglos más grandes que recomendaría son 4 + 1 RAID5 y 8 + 2 RAID6. Algunos controladores de gama alta pueden ocultar algunos problemas de rendimiento con matrices más grandes, pero el mejor controlador nunca ayudará a reconstruir los tiempos.

— Andrew Henle