Aunque son excelentes herramientas, Munin y otras interfaces de RRDTool (como Cacti o Ganglia) han conocido problemas de E / S y son difíciles de escalar cuando monitorea cientos de nodos.
Sin embargo, existen algunas técnicas para lidiar con este cuello de botella de E / S. Una de estas técnicas es distribuir las escrituras en una gran cantidad de discos para reducir la E / S en cada disco. Por otro lado, muchos administradores de sistemas usan los sistemas de archivos tmpfs para tratar este problema. RRDCached también es una opción reciente y buena para lidiar con esto y le recomiendo que eche un vistazo a estas diapositivas .
No estoy tan familiarizado con Munin, pero Cacti tiene un complemento Boost . Este complemento almacena en caché los datos en la memoria y realiza actualizaciones masivas y bajo demanda en el disco, en lugar de escrituras individuales, lo que reduce la E / S. Estoy bastante seguro de que Munin también tiene algo como esto.
Si puede pagarlos, los discos SSD también son buenas opciones.
Por último, pero no menos importante, también puedes echar un vistazo a Reconnoiter . Recconoiter es una nueva herramienta de detección de fallas y gráficos / tendencias. A diferencia de la mayoría de las herramientas de tendencias, Reconnoiter no está basado en RRDTool e intenta resolver este problema específico. No estoy usando Reconnoiter en la producción, pero he realizado algunas pruebas y, a pesar de ser un poco "verde", parece muy prometedor, especialmente con respecto a su escalabilidad.
¡Espero que esto ayude!