No soy un experto en SAN, estoy escribiendo aquí para obtener algunas pistas sobre problemas continuos y exasperantes que estamos teniendo y que nuestro proveedor parece no ser capaz de resolver.
poseemos una SAN ENHANCE ES3160P4 con discos de 16 x 2 Tb que se suministra para nuestro sistema de videovigilancia. El proveedor ha configurado la SAN para usar 14 discos dentro de una matriz RAID 5, y 2 discos son repuestos globales. El RAID generalmente se divide en 2 discos virtuales de igual tamaño que abarcan todo el espacio RAID. Cada uno resulta ser algo más de 12 Tb. Cada disco virtual corresponde a un único LUN, que está conectado a un único servidor de video que almacena continuamente datos de video y permite a los usuarios recuperar grabaciones cuando sea necesario. Los LUN están formateados con NTFS y se conectan a los servidores de videos de Windows Server 2012 a través de iSCSI. Los servidores de videos tienden a usar completamente el espacio disponible que tienen.
Con esta configuración, los discos de la SAN fallan y fallan, y cada vez que la SAN no puede recuperar el RAID porque otro disco falla mientras tanto. Perdimos el RAID como 4 veces en los últimos meses.
Este problema no parece ser causado por una mala muestra de SAN, porque poseemos otras tres máquinas del mismo tipo configuradas de manera similar que parecen tener los mismos problemas. Solo uno no tiene problemas, pero por el momento está infrautilizado.
Después de algunos meses de pruebas y controles desconocidos, el proveedor terminó diciendo que es bien sabido que la SAN no debe usarse al 100% o que se degradará rápidamente, también físicamente, y dijo que para resolver el problema deberían crearse los discos virtuales dejando un 10-15% del espacio total disponible en el RAID.
Busqué el problema en la web y no encontré declaraciones específicas que lo dijeran. Me parece que sería más razonable crear discos virtuales que abarquen todo el RAID y luego subutilizar los LUN (es decir, permitir que Windows tenga espacio libre y evitar la fragmentación). Si no, no entiendo por qué ENHANCE SAN permite crear discos virtuales que abarcan todo el RAID si es tan "conocido" que debe dejarse espacio libre, y por qué el proveedor configuró el sistema de esta manera al principio ... pero ese es otro punto.
Al final, queremos resolver esta situación. Cualquier sugerencia es aceptada. Como dije, no soy un experto en SAN, pero después de tantos problemas me gustaría entender realmente si el proveedor sabe lo que está sucediendo o no, porque ya no podemos aceptar esta situación.
¡Muchas gracias de antemano! Saludos
Editar: tipo de disco A partir de la respuesta, parece ser información relevante, agrego que los discos son todos modelos de Western Digital WD2001FYYG-01SL3.
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.
Esto es exactamente porque, como dice TomTom, los discos son demasiado grandes para RAID5. Y probablemente también RAID 6, FWIW. Sus probabilidades de una reconstrucción exitosa no se acercan al 100%, y lo sabe porque usted mismo declaró que ha tenido "como 4" reconstrucciones sin éxito en cuestión de meses. Su configuración RAID es idiota y su proveedor es incompetente, así de simple.