Estoy considerando usar una configuración RAID0 para uno de nuestros clústeres de SQL Server. Esbozaré la situación y buscaré por qué puede ser una mala idea. Además, si alguien tiene casos de uso, documentos técnicos u otra documentación que pueda señalarme sobre este tema, sería genial.
Tenemos 3 servidores en 2 centros de datos que forman parte de un clúster de SQL. Todos ejecutan SQL Server en un grupo de disponibilidad. El primario tiene una réplica sentada justo al lado y otra en el otro centro de datos. Están ejecutando la replicación síncrona con conmutación por error automática. Todas las unidades son SSD de clase empresarial. Ejecutarán SQL Server 2017 o 2019.
Estoy pensando que habría múltiples beneficios al ejecutarlos en matrices RAID0 sobre otros métodos con pocos inconvenientes, si es que hay alguno. Lo único negativo que estoy viendo actualmente es la falta de redundancia en el servidor primario, por lo que la falla aumenta. Como profesionales:
Si una unidad falla, en lugar de funcionar en un estado lento y degradado hasta que alguien recibe un aviso y actúa manualmente en ella, el servidor fallará inmediatamente a un secundario que mantiene la capacidad operativa completa. Esto tendrá un beneficio adicional de notificarnos de una conmutación por error, para que podamos investigar la causa antes.
Reduce la posibilidad de falla general por capacidad de TB. Como no necesitamos unidades de paridad o espejo, reducimos el número de unidades por matriz. Con menos unidades hay menos posibilidades de una falla en la unidad.
Es más barato. Necesitar menos unidades para nuestra capacidad requerida obviamente cuesta menos.
Sé que este no es el pensamiento comercial convencional, pero ¿hay algo que no esté considerando? Me encantaría cualquier entrada, ya sea a favor o en contra.
No estoy tratando de hacer esto para aumentar el rendimiento de las consultas, aunque si hay otras significativas, no dude en señalarlas. Mi principal preocupación es no considerar o abordar un problema de confiabilidad o redundancia en el que no he pensado.
El sistema operativo está en una unidad duplicada separada, por lo que el servidor en sí debería mantenerse activo. Una de esas unidades se puede reemplazar y volver a duplicar. Es pequeño y no hay ningún archivo de base de datos que no sean los DB del sistema. No puedo imaginar que me lleve más de unos minutos. Si falla una de las matrices de datos, reemplazamos la unidad, reconstruimos la matriz, restauramos y volvemos a sincronizar con el AG. En mi experiencia personal, la restauración ha sido MUCHO más rápida que la reconstrucción de una unidad RAID5. Nunca he tenido una falla RAID1, así que no sé si esa reconstrucción sería más rápida o no. Las restauraciones vendrían de una copia de seguridad y avanzarían para coincidir con el primario, por lo que el aumento de carga en el servidor primario debería ser muy mínimo, solo sincronizando los últimos minutos de registros con la réplica recuperada.