La semana pasada, uno de los sitios de mis clientes recibió un rayo directo (¡casualmente el viernes 13! ).
Estaba alejado del sitio, pero al trabajar con alguien en el sitio, descubrí un extraño patrón de daño. Ambos enlaces de Internet estaban caídos, la mayoría de los servidores eran inaccesibles. Gran parte del daño ocurrió en el MDF , pero un IDF conectado a la fibra también perdió el 90% de los puertos en un miembro de la pila de conmutadores. Se disponía de suficientes puertos de conmutación de repuesto para redistribuir el cableado en otros lugares y reprogramarlo, pero hubo tiempo de inactividad mientras perseguíamos los dispositivos afectados.
Este era un nuevo edificio / instalación de almacenamiento y se planificó mucho el diseño de la sala de servidores. La sala de servidores principal funciona con un UPS en línea de doble conversión APC SmartUPS RT 8000VA , respaldado por un generador. Hubo una distribución de energía adecuada para todos los equipos conectados. La replicación de datos fuera del sitio y las copias de seguridad de los sistemas estaban en su lugar.
En total, el daño (que yo sepa) fue:
- Tarjeta de línea de 48 puertos fallida en un conmutador de chasis Cisco 4507R-E .
Falló el switch Cisco 2960 en una pila de 4 miembros.(Uy ... cable de apilamiento suelto)- Varios puertos escamosos en un switch Cisco 2960.
- Placa base y fuente de alimentación HP ProLiant DL360 G7.
- Balanceador de enlaces WAN Elfiq .
- Un módem de fax multitech.
- WiMax / Antena de internet inalámbrica fija y inyector de corriente.
- Numerosos dispositivos conectados PoE (teléfonos VoIP, puntos de acceso Cisco Aironet, cámaras de seguridad IP)
La mayoría de los problemas estaban relacionados con la pérdida de un switch blade completo en el Cisco 4507R-E. Esto contenía parte de la red VMware NFS y el enlace ascendente al firewall del sitio. Un host VMWare falló, pero HA se encargó de la VM una vez que se restableció la conectividad de red de almacenamiento. Me vi obligado a reiniciar / encender y apagar varios dispositivos para borrar los estados de energía funky. Así que el tiempo de recuperación fue corto, pero tengo curiosidad por saber qué lecciones se deben aprender ...
- ¿Qué protecciones adicionales deberían implementarse para proteger el equipo en el futuro?
- ¿Cómo debo abordar la garantía y el reemplazo? Cisco y HP están reemplazando artículos bajo contrato. El costoso equilibrador de enlaces WAN de Elfiq tiene una propaganda en su sitio web que básicamente dice "muy mal, use un protector contra sobretensiones de red ". (parece que esperan este tipo de falla)
- He estado en TI el tiempo suficiente para haber encontrado daños por tormentas eléctricas en el pasado, pero con un impacto muy limitado; por ejemplo, la interfaz de red de una PC barata o la destrucción de mini interruptores.
- ¿Hay algo más que pueda hacer para detectar equipos potencialmente inestables, o simplemente tengo que esperar a que aparezca un comportamiento extraño?
- ¿Fue todo esto solo mala suerte o algo que realmente debería tenerse en cuenta en la recuperación ante desastres?
Con suficiente $$$, es posible construir todo tipo de redundancias en un entorno, pero ¿cuál es un equilibrio razonable de diseño preventivo / reflexivo y uso efectivo de los recursos aquí?