La semana pasada tuvimos una interrupción bastante grave que afectó a varios servicios que nos dejaron fuera de nuestro SLA con los clientes. Ahora que todo se ha resuelto, estoy llevando a cabo una revisión post mortem.
A partir de esta revisión, me gustaría elaborar un documento interno que describa la interrupción, sus efectos, nuestra respuesta y la resolución. Quiero proponer una forma bastante estándar para su futura reutilización. He incluido mis pensamientos a continuación, pero ¿qué otros elementos deberían incluirse? Si se tratara de un incidente relacionado con la seguridad, ¿qué agregaría?
- Resumen Resumen a nivel ejecutivo del evento.
- Servicios afectados
- Impacto ¿Cuál fue el impacto en nuestros usuarios y SLA? ¿Hubo un costo en dólares, transacciones perdidas, clientes perdidos, etc.?
- Duración de la interrupción Para cada servicio afectado si hubo variaciones
- Causa Incluyendo causas primarias y secundarias
- Resolución
- Calendario de notificaciones de eventos , contacto con proveedores externos, notificaciones de clientes, respuestas, etc.
- Problemas con nuestra respuesta ¿Las cosas no salieron según lo planeado con nuestra respuesta a la interrupción? ¿Personas correctas notificadas? ¿Los vendedores cumplieron con sus obligaciones contraídas?
- Medidas preventivas a tomar ¿Cómo evitamos que vuelva a ocurrir esta interrupción o reduzcamos su impacto?
- Método de detección ¿Qué tan bien detectamos esta interrupción y cómo mejoramos la detección en el futuro?
- Cambios a realizar en futuras respuestas de interrupción
Intente mantener las publicaciones en un solo elemento y explicación, y esta publicación se puede actualizar con las respuestas más votadas.