Evaluar el daño del equipo después de un rayo: ¿debería haber planeado más?

56

La semana pasada, uno de los sitios de mis clientes recibió un rayo directo (¡casualmente el viernes 13! ).

Estaba alejado del sitio, pero al trabajar con alguien en el sitio, descubrí un extraño patrón de daño. Ambos enlaces de Internet estaban caídos, la mayoría de los servidores eran inaccesibles. Gran parte del daño ocurrió en el MDF , pero un IDF conectado a la fibra también perdió el 90% de los puertos en un miembro de la pila de conmutadores. Se disponía de suficientes puertos de conmutación de repuesto para redistribuir el cableado en otros lugares y reprogramarlo, pero hubo tiempo de inactividad mientras perseguíamos los dispositivos afectados.

Este era un nuevo edificio / instalación de almacenamiento y se planificó mucho el diseño de la sala de servidores. La sala de servidores principal funciona con un UPS en línea de doble conversión APC SmartUPS RT 8000VA , respaldado por un generador. Hubo una distribución de energía adecuada para todos los equipos conectados. La replicación de datos fuera del sitio y las copias de seguridad de los sistemas estaban en su lugar.

En total, el daño (que yo sepa) fue:

Tarjeta de línea de 48 puertos fallida en un conmutador de chasis Cisco 4507R-E .
~~Falló el switch Cisco 2960 en una pila de 4 miembros.~~ (Uy ... cable de apilamiento suelto)
Varios puertos escamosos en un switch Cisco 2960.
Placa base y fuente de alimentación HP ProLiant DL360 G7.
Balanceador de enlaces WAN Elfiq .
Un módem de fax multitech.
WiMax / Antena de internet inalámbrica fija y inyector de corriente.
Numerosos dispositivos conectados PoE (teléfonos VoIP, puntos de acceso Cisco Aironet, cámaras de seguridad IP)

La mayoría de los problemas estaban relacionados con la pérdida de un switch blade completo en el Cisco 4507R-E. Esto contenía parte de la red VMware NFS y el enlace ascendente al firewall del sitio. Un host VMWare falló, pero HA se encargó de la VM una vez que se restableció la conectividad de red de almacenamiento. Me vi obligado a reiniciar / encender y apagar varios dispositivos para borrar los estados de energía funky. Así que el tiempo de recuperación fue corto, pero tengo curiosidad por saber qué lecciones se deben aprender ...

¿Qué protecciones adicionales deberían implementarse para proteger el equipo en el futuro?
¿Cómo debo abordar la garantía y el reemplazo? Cisco y HP están reemplazando artículos bajo contrato. El costoso equilibrador de enlaces WAN de Elfiq tiene una propaganda en su sitio web que básicamente dice "muy mal, use un protector contra sobretensiones de red ". (parece que esperan este tipo de falla)
He estado en TI el tiempo suficiente para haber encontrado daños por tormentas eléctricas en el pasado, pero con un impacto muy limitado; por ejemplo, la interfaz de red de una PC barata o la destrucción de mini interruptores.
¿Hay algo más que pueda hacer para detectar equipos potencialmente inestables, o simplemente tengo que esperar a que aparezca un comportamiento extraño?
¿Fue todo esto solo mala suerte o algo que realmente debería tenerse en cuenta en la recuperación ante desastres?

Con suficiente $$$, es posible construir todo tipo de redundancias en un entorno, pero ¿cuál es un equilibrio razonable de diseño preventivo / reflexivo y uso efectivo de los recursos aquí?

— ewwhite
fuente

3

Algunas buenas respuestas técnicas a continuación, pero en mi experiencia, nada supera una buena póliza de seguro. Literalmente, una póliza de seguro. Claro, no ayuda a evitar el problema, y no evita que los clientes le griten, pero ayuda a reemplazar el equipo fallido que el vendedor no tocará.

— Mark Henderson

@MarkHenderson Insurance está llegando ... pero han pasado 6 semanas, y algunos problemas pequeños están surgiendo ahora.

— ewwhite

23

Hace un par de trabajos, uno de los centros de datos del lugar para el que estaba trabajando estaba un piso debajo de una antena muy grande. Este artículo grande y delgado de metal era lo más alto en el área y era alcanzado por un rayo cada 18 meses más o menos. El centro de datos en sí se construyó alrededor de 1980, por lo que no lo llamaría la cosa más moderna, pero tenían una larga experiencia en el tratamiento de daños por rayos (las placas de comunicaciones en serie tenían que reemplazarse cada vez , lo que es una prueba si las comunicaciones las placas están en un sistema que no ha tenido piezas nuevas en 10 años).

Una cosa que fue mencionada por las viejas manos es que toda esa corriente espuria puede encontrar una forma de evitar cualquier cosa, y puede extenderse en un terreno común una vez que entra. Y puede entrar desde los huecos de aire. El rayo es un caso excepcional, donde los estándares normales de seguridad no son lo suficientemente buenos como para evitar arcos y llegarán tan lejos como tengan energía. Y tiene mucho. Si hay suficiente energía, puede formar un arco desde una rejilla de techo suspendido (tal vez uno de los cables de suspensión se cuelga de un bucle con conexión a una viga del edificio en el cemento) a la parte superior de un estante de 2 postes y desde allí al golosinas de redes.

Al igual que los hackers, solo hay mucho que puedes hacer. Sus fuentes de alimentación tienen interruptores que sujetan voltajes espurios, pero su equipo de red de bajo voltaje casi nunca lo hace y representa un camino común para que una corriente extremadamente energética se enrute.

Detectar un kit potencialmente escamoso es algo que sé hacer en teoría, pero no en realidad. Probablemente, su mejor opción es colocar el equipo sospechoso en un área y elevar deliberadamente la temperatura de la habitación hasta el extremo superior del rango operativo y ver qué sucede. Ejecute algunas pruebas, cargue el diablo. Déjalo ahí por un par de días. El estrés térmico adicional sobre cualquier daño eléctrico preexistente puede eliminar algunas bombas de tiempo.

Definitivamente acortó la vida útil de algunos de sus dispositivos, pero descubrir cuáles es difícil. Los circuitos de acondicionamiento de energía dentro de las fuentes de alimentación pueden tener componentes comprometidos y entregar energía sucia al servidor, algo que solo se puede detectar mediante el uso de dispositivos especializados diseñados para probar las fuentes de alimentación.

Los rayos no son algo que haya considerado para DR además de tener un DC en una instalación con un pararrayos gigante en el techo . Genéricamente, una huelga es una de esas cosas que suceden con tan poca frecuencia que se baraja bajo 'acto de dios' y se mueve.

Pero ... has tenido uno ahora. Muestra que su instalación tenía las condiciones adecuadas al menos una vez. Es hora de obtener una evaluación de la propensión a que su instalación reciba las condiciones adecuadas y planifique en consecuencia. Si solo está pensando en los impactos de los rayos en la RD ahora, creo que es apropiado.

— sysadmin1138
fuente

Fui al sitio ayer para evaluar. Sucio. Reparé el interruptor del chasis y verifiqué el daño de algunos de los servidores. ¿Hay alguna posibilidad de que la antena WiMax / Fija-Inalámbrica en el techo fuera el punto de entrada? Todo a su paso se vio afectado:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard

— ewwhite

1

Eso suena ... bastante probable.

— mfinni

1

@ewwhite Eso suena muy probable. El daño cuando ese viejo DC fue golpeado fue muy similar.

— sysadmin1138

Me gustaría agregar algo de sabiduría a la publicación de sysadmin1138 (lo siento, no puedo comentar aún, no quería que esto fuera una respuesta) ... Los pines de tierra en los cables de alimentación son para la seguridad HUMANA, no para sus dispositivos ... En oficinas pequeñas; Mantengo las máquinas importantes lejos del suelo (caja de madera, alfombra de goma) y conectores / adaptadores sin conexión a tierra UPS-> Wall. Estoy seguro de que OSHA lo odia, pero a las computadoras les encanta. También ayuda cuando el ceñidor se desenergiza y se vuelve a energizar, ya que esas oleadas pueden matar cualquier cosa. He estado en un edificio cuando explotó un UPS / Inverter Libert muy grande y tuve que explicar a sus técnicos cómo los picos inductivos (

— sirmonkey

8

He estado pensando en esta pregunta desde que recientemente se volvió a editar en la parte superior de la página principal.

Estimo libremente que, para personas como sysadmin1138 que tienen que lidiar con instalaciones que son altamente atractivas para grandes rayos en el techo de DC, la planificación de contingencia específica para un gran impacto tiene sentido. Pero para la mayoría de nosotros, esta es una circunstancia única, y pensé que una respuesta más adecuada para el resto de nosotros podría tener algún valor.

Es posible imaginar todo tipo de amenazas de trama cinematográfica ; escenarios que definitivamente podrían suceder, sin duda derribarían sus operaciones comerciales si lo hicieran, pero que no hay razón para pensar que tenga una probabilidad elevada de que ocurra. Usted sabe el tipo de cosas; huelga de avión / rayo / depósito de petróleo explota cerca / cualquier otro escenario de riesgo plausible pero de fondo.

Cada uno de estos tiene un plan de mitigación específico que podría implementarse, pero sugeriría que, a pesar de lo estipulado anteriormente, no tiene sentido comercial hacerlo . Como Schneier está tratando de señalar en la competencia vinculada anteriormente, solo porque pueda imaginarse que algo terrible suceda no lo convierte en una amenaza contra la cual la planificación específica vale la pena, o incluso es deseable. Lo que tiene sentido comercial es un plan de continuidad comercial probado, bien documentado y de propósito general.

Debe preguntarse cuáles son los costos comerciales de una pérdida completa del sitio durante varios períodos de tiempo (por ejemplo, 24 h, 96 h, una semana, un mes) e intentar cuantificar la probabilidad de cada ocurrencia. Debe ser un análisis honesto de los costos comerciales, aceptado por todos los niveles del negocio. Trabajé en un sitio donde la cifra generalmente aceptada para el tiempo de inactividad era de £ 5.5 millones / hora (y eso fue hace 20 años, cuando cinco millones de libras era mucho dinero); Tener esa cifra generalmente aceptada hizo que muchas decisiones fueran mucho más fáciles, porque simplemente se convirtieron en una cuestión de matemáticas simples.

Su presupuesto es la pérdida proyectada multiplicada por la probabilidad anual de esa pérdida; ahora vea lo que puede hacer para mitigar esa amenaza para el presupuesto.

En algunos casos, esto se ejecutará en un centro de datos en espera completo, con equipo frío, listo para funcionar 24x7. Puede significar un pequeño centro de datos en espera, de modo que la interacción con el cliente pueda continuar con un número muy reducido de operadores telefónicos, y un sitio web de marcador de posición que advierte sobre interrupciones. Puede significar una segunda conexión a Internet enrutada de forma redundante en su sitio principal, que permanece inactiva hasta que sea necesaria. Puede significar, como Mark Henderson señala anteriormente, un seguro (pero seguro que cubre las pérdidas comerciales, así como los costos reales de recuperación); Si puede gastar su presupuesto de Columbia Británica en una sola hoja de papel que cubrirá todos sus costos esperados en caso de desastre, puede tener sentido comprar esa hoja de papel, pero no olvide tener en cuenta la falla del suscriptoren su plan de riesgo comercial. Puede significar actualizar los contratos de mantenimiento de ciertos equipos centrales a los extremadamente costosos de cuatro horas para arreglar. Solo usted puede saber qué tiene sentido para su negocio.

Y una vez que tenga este plan, realmente necesita probarlo (con la posible excepción de los seguros). Trabajé en un sitio donde teníamos un sitio frío completo de operación a pequeña escala, listo para cortar, a 45 minutos en automóvil de nuestras instalaciones principales. Cuando tuvimos un problema que cerró la red central, terminamos tratando de arreglarlo en vivo en lugar de cortar el sitio frío y luegoarreglando el núcleo y recortando. Una de las razones detrás de la falla en el corte fue que no teníamos una idea real de cuánto tiempo tomaría cortar y cortar. Por lo tanto, nadie sabía realmente cuánto tiempo se debe permitir que las cosas funcionen sin corte antes de tomar la decisión de cortar, por lo que, como es comprensible, había reticencias para decidir cortar. Las cabezas rodaron después de que volvimos a estar en línea, 14 horas después; no por el apagón per se , sino porque se había gastado mucho dinero en una instalación para mitigar un apagón de más de un día que no se había utilizado durante tal apagón.

Como punto final, tenga en cuenta que no se garantiza que los componentes subcontratados de su plan de negocios funcionen. Su alta gerencia puede estar sentada allí pensando " si ponemos los servidores en la nube, siempre estarán allí y podremos disparar a los administradores de sistemas ". No tan. Las nubes pueden fallar como cualquier otra cosa; Si ha subcontratado componentes críticos a un proveedor, todo lo que ha hecho es eliminar su capacidad de estimar las posibilidades de falla de esos componentes. Los acuerdos de nivel de servicio están muy bien, pero a menos que estén respaldados por importantes sanciones por incumplimiento, no tienen sentido: ¿por qué su proveedor gastaría dinero extra para mantenerse disponible si simplemente pudieran obtener el dinero y reembolsarle los cargos por el servicio por el período de indisponibilidad? Para ser confiables, sus SLA deben venir con multas que se aproximen a los costos para su negocio de la interrupción. Sí, eso aumentará mucho los costos de la subcontratación; y sí, eso es completamente de esperar.

— MadHatter
fuente

2

Debo agregar ... este sitio fue alcanzado por un rayo tres veces desde la publicación original. La razón se remonta a una conexión a tierra eléctrica insuficiente / inexistente en varias áreas de la instalación. Demandamos a los contratistas y el seguro se hizo cargo de la mayor parte de los reemplazos.

— ewwhite

2

Lo siento, ewwhite, mi estipulación inicial también debería haberte aplicado más claramente; en sitios donde cualquier riesgo está por encima de los antecedentes, tiene sentido para mí al menos considerar la mitigación específicamente dirigida a ese riesgo . Mi respuesta fue más para todos los demás, que podrían leer su pregunta y comenzar a pensar " bueno, tampoco tengo un plan de rayos; tal vez debería ".

— MadHatter

6

Siempre se reduce a cuánto quieres gastar. No tengo el conocimiento lo suficientemente profundo como para hablar extensamente sobre esto, pero he estado en un gran centro de datos farmacéutico que recibió un rayo y sopló algo que se suponía que era un pararrayos de redundancia múltiple (y fue diseñado correctamente , pero se implementó mal, así que algo pasó.

¿Cuál fue el pico máximo que su UPS pudo haber evitado? Debería tener una calificación. Aparentemente, el ataque fue lo suficientemente directo como para exceder eso, o algo se filtró alrededor de la alimentación del UPS, como un mal terreno. Entonces, tal vez revise su diseño de energía, determine qué tan probable es otro golpe, compare el costo del tiempo de inactividad X la probabilidad versus la remediación, y tal vez haga que un electricista le dé a la instalación una buena encuesta para asegurarse de que todo esté conectado a tierra correctamente, y algunas lecturas rápidas muestran que la conexión a tierra por seguridad / código no es tan intensa como la conexión a tierra para la prevención de daños por rayos.

— mfinni
fuente

El UPS parece estar bien. Hubo problemas en varias partes del edificio, pero las principales especificaciones técnicas del UPS establecen "Filtrado de ruido multipolar a tiempo completo: 0.3% de sobretensión IEEE: tiempo de respuesta de sujeción cero: cumple con UL 1449"

— ewwhite

OK suena bien. Entonces, probablemente se coló por otros medios, si su alimentación principal es sólida.

— mfinni