Tengo un servidor HP ProLiant DL380 G7 funcionando como una unidad de almacenamiento NexentaStor . El servidor tiene 36 GB de RAM, 2 controladores SAS LSI 9211-8i (sin expansores SAS), 2 unidades de sistema SAS, 12 unidades de datos SAS, un disco de repuesto dinámico, un caché Intel X25-M L2ARC y un acelerador DDRdrive PCI ZIL. Este sistema sirve NFS a múltiples hosts VMWare. También tengo alrededor de 90-100GB de datos deduplicados en la matriz.
Tuve dos incidentes en los que el rendimiento se derrumbó repentinamente, dejando a los invitados VM y las consolas Nexenta SSH / Web inaccesibles y requiriendo un reinicio completo de la matriz para restaurar la funcionalidad. En ambos casos, fue el SSD Intel X-25M L2ARC el que falló o fue "desconectado". NexentaStor no pudo alertarme sobre la falla de la memoria caché, sin embargo, la alerta general de ZFS FMA fue visible en la pantalla de la consola (que no responde).
La zpool status
salida mostró:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
Esto no activó ninguna alerta desde Nexenta.
Tenía la impresión de que una falla de L2ARC no afectaría el sistema. Pero en este caso, seguramente fue el culpable. Nunca he visto ninguna recomendación para RAID L2ARC. La eliminación completa del SSD defectuoso del servidor me hizo volver a funcionar, pero me preocupa el impacto de la falla del dispositivo (y tal vez la falta de notificación de NexentaStor también).
Editar : ¿cuál es el SSD de mejor opción actual para las aplicaciones de caché L2ARC en estos días?