¿Cómo * usted * rastrea y documenta el mantenimiento de rutina?


10

¿Qué software o sistema utilizan ustedes para detectar fallas en el servidor para recordarles que deben realizar un mantenimiento de rutina? ¿Cómo hace una lista de verificación y registra los diversos elementos que debe verificar? ¿Tiene un documento de proceso interno? ¿Tiene correo cron todas las semanas con recordatorios para verificar los registros del sistema?

Además, ¿trabaja en un equipo para realizar el mantenimiento del sistema? De ser así, ¿cómo coordina quién hará qué mantenimiento?

Si utiliza un sistema de seguimiento de errores / problemas para ingresar tareas, ¿tiene un trabajo cron para ingresar tareas recurrentes?

Respuestas:


5

Actualmente estoy usando Request Tracker ( http://www.bestpractical.com/rt )
Todos los eventos de mantenimiento obtienen un ticket asociado en la cola de "sistemas". Las notas sobre los problemas encontrados, quién hizo qué trabajo cuando, etc. se ingresan en el ticket, junto con las aprobaciones necesarias.

Por el momento, nuestras tareas recurrentes (parches trimestrales, etc.) se crean manualmente, pero podrían automatizarse con la suficiente facilidad (trabajo cron + correo electrónico).

Coordinar quién está haciendo qué trabajo es relativamente fácil para nosotros, ya que solo hay 2 personas en nuestro grupo de administración, pero a medida que ampliamos el plan es crear un boleto maestro para eventos de mantenimiento y usar boletos de niños asignados a las partes responsables para delegar el trabajo .


Las cosas diarias (comprobaciones de registros, etc.) es otro asunto: tengo todo eso dedicado a procesos automatizados:

  • InterMapper vigila el estado general de los servidores (consultas SNMP que buscan alta carga, poco espacio en disco, etc.), la funcionalidad de nuestras interfaces web y otras cosas que podrían indicar problemas.
  • Syslog-NG recopila registros de nuestros hosts y los alimenta a través de un conjunto de scripts que verifican la existencia de defectos obvios. Echo un vistazo a los registros de vez en cuando para comprobar la cordura de los guiones, pero no está programado regularmente.


2

La automatización implementada adecuadamente elimina la necesidad de tareas y listas de verificación por completo. ¿Por qué desea verificar manualmente las cosas cuando tiene computadoras que pueden hacer el trabajo de manera mucho más efectiva y eficiente?

Cualquier cosa que necesite una verificación periódica es verificada por el sistema de monitoreo. Las tareas de rutina se automatizan siempre que sea práctico y se envían recordatorios para esas pocas tareas que deben realizarse manualmente. La documentación es otra cuestión, pero bien hecha, sus computadoras pueden crear su propia documentación.

Deje de buscar mejores formas manuales y comience a buscar mejores formas automatizadas para hacer cualquier trabajo. Las computadoras están ahí para trabajar para nosotros, no nosotros para trabajar para ellos.


Buena regla general: un administrador de sistemas siempre debe ser competente y perezoso. El deseo de no trabajar llevará a buenos administradores de sistemas a implementar una buena automatización.
voretaq7

Permítanme dar un ejemplo específico: necesito monitorear parches de seguridad para Apache, luego generar una nueva compilación y probarlo cuando salga un parche. La parte de rutina es monitorear una nueva versión de Apache. No se puede actualizar directamente desde el repositorio (principal) porque no tendrá los módulos correctos compilados. Además, es necesario realizar una auditoría para asegurarse de que se hayan verificado las versiones. ¿Eso tiene más sentido?
Zak

Además, no quiero simplemente lanzar el último lote de cualquier software hasta que la compilación haya pasado el control de calidad. Gran parte del control de calidad está automatizado, pero no todo.
Zak

¿Y hay una razón por la que no se pueden escribir todos? Comprobaciones automáticas de actualizaciones, enviándole una alerta cuando hay algunas disponibles, seguido de una compilación e instalación con guión, listas para que las pruebe. Deje que la máquina haga la mayor parte del trabajo y le diga cuándo se requiere su atención.
John Gardeniers

1

Para el trabajo de proyectos, se elimina de la aplicación Project Management (correo electrónico y calendario integrados con la capacidad de documentar el trabajo detallado y programarlo para personas particulares).

Para mantenimiento, actualizaciones, arreglos, etc., tenemos un sistema de tickets que se integra más o menos con nuestro proceso de Gestión de cambios para manejar las solicitudes y la programación.

Para el trabajo completamente interno y el trabajo en ciclos largos (trimestral, anual, etc.):

Los recordatorios para hacer las cosas están calendarizados. Existe documentación informal / semiformal ("wiki") sobre cuál podría ser la programación general.

Existe cierta cantidad de "cómo hacerlo" y documentación de procedimiento sobre cómo llevar a cabo las tareas y es accesible para el equipo en general, pero las personas tienen sus propios "libros negros" administrativos y registros con notas y recetas.


1

Un sistema de monitoreo puede ayudar con estas cosas:

  • Documentamos cada ronda de mantenimiento mensual en un archivo de documento de Word con casillas de verificación. Cada mes guardamos el informe en una carpeta en nuestro NAS. Monitoreamos la antigüedad mínima del archivo de la carpeta. Si la antigüedad mínima del archivo es superior a 40 días, recibimos una alarma.

  • Una parte de nuestro mantenimiento de rutina es reiniciar servidores y dispositivos seleccionados una vez al mes. Usamos sensores de "tiempo de actividad del sistema" (SNMP / WMI) en nuestro software de monitoreo y si el tiempo de actividad es superior a 40 días recibimos una alarma.

  • Para las copias de seguridad, controlamos la antigüedad mínima de los archivos en la carpeta de copias de seguridad de cada servidor en nuestro NAS. Si la antigüedad mínima del archivo es superior a 10 días, recibimos una alarma.


1

Uso Checkpanel ( https://checkpanel.com ) para administrar mis tareas de mantenimiento recurrentes. Proporciona listas de verificación reutilizables y una interfaz fácil para registrar los resultados de cada verificación.

Después de verificar un elemento, no solo está "hecho", sino que permanece disponible para verificaciones adicionales. Cada comprobación se registra para que pueda revisar fácilmente un historial de todas las comprobaciones anteriores de un artículo, incluidos los detalles opcionales (por ejemplo, mensajes de error para comprobaciones fallidas).

Puede configurar un elemento recurrente para cada elemento para asegurarse de verificarlo al menos una vez por semana / cada 2 días / etc. Hay una vista consolidada de todos los elementos vencidos. Si lo desea, también puede recibir un correo electrónico diario con todos los artículos vencidos.

Hay una plantilla de listas de verificación de mantenimiento del servidor que puede usar como base para sus propias listas de verificación. Otras plantillas incluyen listas de verificación para aplicaciones web, WordPress y más.

Divulgación: soy el fundador de Checkpanel.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.