Si bien no era exactamente una tarea que me asignaron, tuve que recuperarme del tiempo de inactividad forzado.
Solía ser la SA para un sitio financiero bastante grande. Conocíamos nuestros sistemas por dentro y por fuera, teníamos registros centralizados y excelentes herramientas para examinarlos.
De repente (naturalmente, muy cerca de una fecha límite), todos los teléfonos celulares se vuelven locos con mensajes de alerta. Verifique que el sitio esté caído y que todo el personal de SA abandone lo que está haciendo y comience a investigar.
Los registros de Apache estaban bien, la base de datos no arrojaba ningún error y los cachés giraban bien. Muchos recursos de reserva, la red estaba bien y no había implementaciones recientes.
10 minutos después, descubrí que uno de los desarrolladores había obtenido acceso al sitio y había agregado un dado (); en un oscuro módulo relacionado con la generación de páginas.
En otras palabras, el software hizo lo que se le dijo que hiciera, y no había información de registro que hubiera ayudado.
El gerente general de la compañía que administraba el sitio mostró una gran sonrisa y dijo que quería llamarnos. Le dije que se fuera, que no tocara mis servidores de producción, que teníamos grandes planes de recuperación ante desastres, pero la incompetencia de su desarrollador se aseguró de que ninguno de esos planes se pusiera en marcha.
Si quisiera verificar nuestro tiempo de respuesta, al menos debería haberlo discutido con el CTO y preguntar si podría hacerlo "en algún momento hoy" o "esta semana". De esa forma, nadie se habría enojado y no habríamos perdido el tiempo discutiendo sobre ello.
Todo el evento fue uno de los menos profesionales que he encontrado hasta ahora.