Estoy en un entorno que contiene muchos servidores Supermicro equipados con controladores RAID de hardware Adaptec y LSI MegaRAID . Estos controladores contienen módulos de caché respaldados por batería para ayudar a aumentar el rendimiento de escritura y proteger los datos en tránsito.
Un problema de soporte frecuente es la falla de la batería del controlador RAID. Esto cambia la matriz de escritura no simultánea a escritura simultánea de modo. Claramente, hay un impacto negativo en el rendimiento ya que el sistema funciona con una velocidad de escritura degradada. Esto persiste hasta que se pueda establecer una ventana de tiempo de inactividad para apagar el sistema y reemplazar la batería.
Esta es una operación muy rutinaria para nosotros; casi semanalmente en varios miles de servidores físicos ... Incluso tenemos estaciones de carga para preparar baterías de repuesto para que puedan cambiarse sin un ciclo de carga.
Tal vez me haya estropeado una larga historia con los servidores HP ProLiant y los controladores Smart Array RAID , pero los sistemas HP generalmente tenían una vida útil de la batería de 4 a 6 años. Eventualmente eliminaron el uso de baterías RAID alrededor de 2009. Fueron reemplazadas por módulos de memoria respaldados por supercondensadores (caché de escritura respaldado por flash o FBWC) y no requieren reemplazo, eliminación o un largo ciclo de carga inicial.
Como veo que las fallas de la batería del controlador Adaptec y LSI a veces ocurren en sistemas que han estado en servicio por menos de 12 meses, me pregunto si esto es común en otros entornos.
Si esto es común, ¿cómo manejan esto otros entornos de servidores grandes?
- ¿Algún consejo o truco para manejar el reemplazo de la batería RAID?
- ¿Hay algún parámetro de configuración que pueda ayudar?
- ¿Qué tan perjudicial es esto para las operaciones en su entorno?
- ¿Podría ser un factor el mal enfriamiento del chasis y la temperatura?
- ¿Estamos haciendo algo mal?
- Los controladores Dell PERC están hechos por LSI. ¿Los entornos Dell experimentan la misma vida útil de la batería?
La documentación del producto LSI describe una batería de nueva generación que puede durar más de 1 año en servicio.
Servidor HP ProLiant DL585 G2 con más de 1000 días de funcionamiento y una batería RAID feliz ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK