¿Cómo te mantienes fresco cuando el sistema de producción falla? [cerrado]


26

Esto nos ha pasado a la mayoría de nosotros ...

Vienes a trabajar un día. Todo parece normal: el sol brilla, los pájaros cantan, pero notas un par de cosas extrañas en tu camino al trabajo que te recuerdan al gato déjà vu en Matrix.

Entras en la oficina y suenan muchos teléfonos, pero podría ser que están haciendo una nueva promoción de ventas. Te instalas, cuando notas una nube oscura flotando sobre ti.

Te lleva un par de momentos, pero reconoces que la nube es tu jefe. Usualmente lo revisa todas las mañanas con su "Soooo Peeeeter, ¿qué tal esos informes TCP / IP?" rutina, pero hoy olvidó todo sobre los modales comunes e invadió groseramente su espacio personal. No "Buenos días", solo algunos babeo, gruñidos y maldiciones. Te recuerda un poco a un neanderthal que está tratando de escapar de un tigre con dientes cibernéticos, el miedo y el pánico se comprimen en una bola apretada. Intentas descifrar el nuevo lenguaje que creó desde ayer y comienzas a entender que algo malo sucedió de la noche a la mañana: el sistema de producción dejó de funcionar.

Ahora, los clientes suelen usar su sistema durante las horas de trabajo regulares de 9 a 5, pero por cualquier motivo no recibió ninguna alerta en su busca (para personas menores de 30 años, un busca era como un teléfono móvil que solo podía sonar y decirte quién te ha pitado). Tendrá que recordar cargarlo la próxima vez.

Ahora son las 8:45 am, y el sistema DEBE estar activo a las 9am. Cada 10 segundos, su jefe suelta otra maldición que le comunica que otro cliente tiene problemas para ingresar al sistema. Además, varios gerentes de cuentas ahora se ciernen sobre su jefe tratando de hacerle comprender cómo los clientes REALMENTE están sufriendo.

Todo el mundo depende de usted para poner en marcha el sistema lo antes posible y al mismo tiempo obstaculiza su progreso al distraerlo constantemente.

¿Cómo te mantienes fresco en una situación como esta?


34
Paso uno: redacta una publicación de 300 palabras en programmers.stackexchange.
kubi

8
No digo que esté sucediendo en este momento. Espera, déjame comprobar ...
Mag20

1
¿Es este un problema exclusivo de los desarrolladores? Si algo de lo que usted es responsable no funciona, debe ser capaz de lidiar con la presión independientemente de cuál sea esa "cosa".
ChrisF

1
Descubrí que, según mi propia experiencia, muy pocas casas de software, grandes y pequeñas, realizan simulacros de recuperación ante desastres. Le diría esto a tu jefe. Si hace un simulacro, entonces sabe qué esperar y sabe cómo percibir los tiempos de respuesta. También puede evaluar si alguno de los procesos puede automatizarse. ¿Qué pasa si pierdes poder? ¿Qué sucede si se inicia un incendio en la oficina? ¿Tiene una ubicación externa? ¿Sus servidores están alojados en casa o de forma externa, etc. Realmente, debe hacer hincapié en que se establezca un plan de participación.
Desolate Planet

3
¡Esto se lee como el comienzo de una entrada en TheDailyWTF!
Grant Palin

Respuestas:


43

En la situación, pídale a su jefe que lo ayude manteniendo a todas las demás personas lejos de usted (lo que le da algo que hacer en otro lugar).

Cuando lo vuelva a poner en funcionamiento, pídale a su jefe una reunión para evaluar y establecer procedimientos para evitar que esto vuelva a suceder.


1
+1. Los simulacros de recuperación de desastres son buenas maneras de medir las reacciones y los tiempos de respuesta. Es una pena que no vea lo suficiente hecho.
Desolate Planet

@DP sí, pero no podemos hacer eso porque significaría que las personas y el equipo no están disponibles para emergencias reales mientras se lleva a cabo el simulacro (sí, he escuchado ese argumento más de una vez). Por supuesto, si hubiera suficiente gente y equipo, podría entrenar a un equipo en un set mientras el otro está de servicio ...
partir del

@jwenting suena como guardar en la alarma de incendio.

9

Lo primero que debe hacer es eliminar las distracciones con la mayor cortesía posible. Nadie puede trabajar con alguien que se esté burlando de lo malo que es para sus clientes. Por supuesto, esto es más fácil decirlo que hacerlo si su jefe es un maníaco, pero si ese es el caso, es posible que desee considerar encontrar otro trabajo de todos modos.

Luego haga una evaluación rápida de la pérdida real que está causando el error y cómo (si es que puede) mitigarse rápidamente. Con un poco de práctica, también puede hacer una comprobación rápida de los archivos de registro, que necesitará para formar un plan de acción.

Si el problema es complejo, concéntrese en la parte más grave del mismo. Piense dos o tres pasos adelante antes de saltar a la acción. Además, asegúrese de saber cómo retirarse de cualquier plan antes de actuar.

Y lo más importante: ¡no se asuste!


7

Situaciones como esta son comunes en los sistemas de control industrial. La línea de producción se cae en medio de la noche, la compañía generalmente pierde cientos, o incluso miles, de dólares por minuto , y lo están mirando para solucionar el problema. Lo manejas así:

  1. Explíqueles lo que sabe.
  2. Explica lo que no sabes (pero necesitas saber para resolver el problema)
  3. Explica cómo vas a descubrir lo que no sabes
  4. Dales una estimación de cuánto tiempo tomará (usa un rango)
  5. Ignora todo lo que te rodea mientras te enfocas en seguir tu plan

6

Lo primero es haber practicado repetidamente la recuperación ante desastres (sin que las personas estén de pie sobre su hombro) para que sepa exactamente qué pasos debe tomar para diagnosticar y solucionar el problema sin tener que recurrir a preguntas sobre SO para averiguar qué hacer. Una vez que se siente seguro de sus habilidades de recuperación, la presión y el estrés son mucho más bajos.

Lo siguiente es sacar a la gente de tu cabello mientras trabajas. Tu jefe quiere algo con lo que pueda ir a su jefe. Bríndeles información sobre lo que piensa hacer y cuánto tiempo puede tomar, y luego informes periódicos de progreso, especialmente si encuentra algo que significa que tomará mucho más tiempo de lo que les dijo. Sí, los informes de progreso tardan mucho tiempo en solucionarlo, pero los jefes y usuarios que se desplazan se toman aún más tiempo. Yo, voy por los informes de progreso cada vez. Una vez que estén seguros de que los mantendrá actualizados, confiarán en que usted hará su trabajo más y lo dejará solo más.

Si los usuarios van a estar bloqueados por algún tiempo, envíeles un correo electrónico si esta es una opción o publique un aviso en el sitio web, diciendo que el sitio está inactivo por mantenimiento y cuándo deberían poder volver a intentarlo. (Esta es posiblemente una tarea que puede darle a su jefe para encontrar a alguien que lo haga para mantenerlo alejado de su cabello también). Las personas son menos irritables por no poder iniciar sesión cuando saben que alguien está trabajando en el problema. Cuando las cosas se arreglan, si envió un correo electrónico, envíe un correo electrónico al mismo grupo para decirles que está arreglado. No puedo decir cuántas veces he visto a personas olvidar esto y los usuarios todavía piensan que no pueden iniciar sesión cuando pueden. El objetivo no es solo mejorar las cosas, sino que las personas trabajen nuevamente con el sistema.

Respira profundamente (las respiraciones profundas son relajantes) y sumérgete en el problema. Es bueno tener las cosas que necesita hacer escritas en alguna parte porque, en caso de emergencia, a veces sus sinapes cerebrales no obtienen información tan rápido como es normal. No quieres parecer un idiota murmurando: "Sé que tenemos un registro, ¿dónde diablos está?"

Si está en un trabajo donde apoya sistemas de producción, es mejor ser el tipo de persona que reacciona bien en una emergencia en general. No estoy seguro de que puedas aprender esto realmente. Si alguien que monta un caballo frente a usted se cayó (un ejemplo no tan aleatorio tomado de mi vida) y estaba tirado sangrando en el suelo, ¿es usted el tipo de persona que está allí con la boca abierta o es el único? ¿Quién llama a la ambulancia, pone el vendaje de presión sobre el sangrado y ordena a alguien que atrape al caballo? Si usted es el primer tipo de persona, quizás esta no sea la línea de trabajo adecuada para usted.


2

Dígales que esta es una buena razón por la que necesita un servidor de respaldo, y con eso me refiero a un segundo servidor que funciona igual que el principal al que se puede cambiar de inmediato si el primero se cae.


He visto un servidor de respaldo encendido y tenía el mismo problema que el servidor primario. Duplicó el costo de hardware, se sumó al costo de configuración y fue una pérdida total de gastos. Si está haciendo un trabajo de alta disponibilidad, entonces seguro, pero tiene que ajustar el tamaño de su hardware al problema.
Scott Whitlock

Un ejemplo (extremo) del sistema de respaldo afectado por el mismo error que el sistema primario es Ariane 5 Flight 501
Andre Holzner

2

Ya es bastante malo cuando estás rodeado por todos lados de personas que están enojadas contigo por un problema que creaste, aunque es el doble de malo cuando es un problema que no creaste. Me ha sucedido más de una vez que el cliente simplemente lo configuró mal, lo que significa que la falla está en comunicarse con el cliente (si la falla es el cliente por no escuchar o el vendedor por no explicar bien, nunca lo sabrá).

¿Cómo explicas que se equivocaron? Nunca es una tarea fácil, especialmente cuando su jefe está respirando por su cuello porque no sabe nada mejor que asumir que el cliente siempre tiene la razón.

Entonces, ¿cómo te mantienes fresco en una situación como esta? Cortésmente recuérdele a su jefe que cuanto antes llegue a trabajar, antes se solucionará este problema.


1

Al ver este evento como una oportunidad para mostrar lo valioso que soy (para el negocio) haciendo que el sistema de producción vuelva a funcionar lo más rápido posible (si no antes de las 9 a.m. ;-)).

Obviamente, esperando no haberlo roto en primer lugar ;-)


1
  • sh_t sucede
  • debe haber una solución a un problema
  • Si alguien en el mundo conoce la solución, puedo ser uno de ellos
  • si no hay solución, el pánico no ayuda
  • de nuevo, sh_t sucede

0

Definitivamente, pregúntele a su jefe que se pondrá en contacto con él cuando resuelva el problema; aunque en este tipo de situaciones, la gerencia generalmente involucra a otras personas para que se resuelvan lo antes posible y luego desaparece, con la persona "preocupada" más tarde ... Esa es la norma con cualquier empresa, independientemente de la industria; En cuanto a los negocios, ¡el cliente suele ser el rey!


0

Situaciones como esa simplemente me motivan más para tener una documentación exhaustiva de todo y un plan exhaustivo para enfrentar cualquier tipo de situación.

Incluso si no podemos predecir todos los problemas posibles, pero podemos trabajar por detrás, para estar más preparados, organizados y documentados.


1
Nunca he resuelto un problema de producción (es decir, sistema apagado) mediante el uso de documentación.
Marcie

1
No, pero si necesita buscar algo, como especificaciones, definiciones de tablas, configuraciones del servidor, vale la pena documentarlo.
crosenblum

0

Pasé 8 años haciendo mantenimiento en los bombarderos B52G en una alerta de 5 minutos para la Tercera Guerra Mundial. Eso pone todo en perspectiva para mí.

Un sistema de baja producción es importante, pero no va a matar a millones o miles de millones de personas.

Averigua qué está mal, encuentra la causa, arréglalo. Establezca comunicaciones claras con las personas importantes y manténgalas informadas. Dígale a su jefe lo que está haciendo y cuándo podrá actualizarlo puede evitar que continúen los mensajes y conversaciones "ya está arreglado".

haga una autopsia y descubra cómo prevenir y limitar los efectos de tales incidentes en el futuro.

Si está de guardia, tener una batería descargada en un teléfono celular o un buscapersonas es extremadamente poco profesional. Este es un escenario general, pero si esto le sucediera a una persona que trabaja para mí, habría una discusión seria y si se repitiera, ya no estaría trabajando para mí. Sí, soy un duro.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.