Estoy buscando una forma de diagnosticar problemas, como la muerte por intercambio, donde un proceso de memoria inflable llena el intercambio y mata toda la máquina (como apache).
Ya estoy usando cactus y puedo configurar nagios (aunque preferiría que no) o munin, pero por lo que puedo decir, no pueden registrar el uso individual del programa, solo el estado general.
Sé que puedo transferir un script que >> a algún archivo cada 30 años, pero me gustaría ver si ya existe una solución madura existente.
De nuevo, idealmente sería:
- registrar el uso de memoria de los procesos cada N segundos
- registrar el uso de CPU de los procesos cada N segundos
- gráficos de soporte e historia
- promedios de soporte, como mysqld ha usado 43% de CPU en el último día y promedió 400 MB de memoria
- ser libre y de código abierto
Los nombres de los procesos no son y no deben conocerse de antemano; la idea es simplemente dejar que supervise y luego echar un vistazo a los principales infractores.
Mi sistema es Linux (OpenSUSE).