Otras personas sugieren enviar mensajes regulares diciendo que las cosas están bien, pero personalmente no estoy de acuerdo con eso. El monitoreo debe ser silencioso a menos que haya un problema, y nunca debe confiar en que un usuario se dé cuenta de que algo está mal, como "Oh, no he recibido ese correo electrónico diario en unos pocos días". Especialmente si tiene más de una persona respondiendo a las alertas, cada una puede pensar que la otra ya ha eliminado el mensaje diario "Estoy bien".
Tenemos un servicio externo (de los cuales hay cientos, pero usamos gusanos ) para hacer verificaciones HTTP de nuestro servidor de monitoreo para asegurarnos de que esté funcionando y pueda llegar a Internet. Esa es nuestra principal preocupación para monitorearlo. Luego, nuestro servidor Nagios supervisa todos los servidores Nagios de nuestros clientes.
Pero, traes un buen punto. Probablemente deberíamos agregar una URL HTTP que verifique la cola de postfix y si muestra un número inusual de mensajes, lo que probablemente significa que tiene alguno en la cola, entonces genera una alerta. Otra opción sería utilizar diferentes métodos para las alertas, por ejemplo, un agente de entrega de SMS que no sea SMTP y SMTP que utilizamos actualmente.
Sin embargo, en nuestro caso, no recuerdo que alguna vez haya tenido que morir el servidor de correo. Por supuesto, todo lo que se usa para el servidor de correo es enviar alertas de Nagios, por lo que la configuración es muy simple y casi nunca cambia.