Aunque es una publicación antigua, responde ahora porque sabía que los valores de umbral de check_load son un gran dolor de cabeza para los novatos ...;)
Una alerta de advertencia, si la CPU es 70% por 5 minutos, 60% por 10 minutos, 50% por 15 minutos. Una alerta crítica, si la CPU es 90% por 5 minutos, 80% por 10 minutos, 70% por 15 minutos.
*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*
Todos mis hallazgos sobre la carga de la CPU:
¿Qué quiere decir "la carga": Wikipedia dice:
Todos los sistemas Unix y similares a Unix generan una métrica de tres números de "promedio de carga" en el núcleo. Los usuarios pueden consultar fácilmente el resultado actual desde un shell de Unix ejecutando el comando uptime:
$ uptime
14:34:03 up 10:43, 4 users, load average: 0.06, 0.11, 0.09
Del promedio de carga de salida anterior: 0.06, 0.11, 0.09
significa (en un sistema de CPU única):
- durante el último minuto, la CPU estaba subcargada en un 6%
- durante los últimos 5 minutos, la CPU se ha descargado un 11%
- durante los últimos 15 minutos, la CPU se subcargó 9%
.
$ uptime
14:34:03 up 10:43, 4 users, load average: 1.73, 0.50, 7.98
El promedio de carga anterior de 1.73 0.50 7.98
un sistema de CPU única como:
- durante el último minuto, la CPU se sobrecargó en un 73% (1 CPU con 1.73 procesos ejecutables, por lo que 0.73 procesos tuvieron que esperar un turno)
- durante los últimos 5 minutos, la CPU se subcargó al 50% (ningún proceso tuvo que esperar un turno)
- durante los últimos 15 minutos, la CPU se sobrecargó 698% (1 CPU con 7.98 procesos ejecutables, por lo que 6.98 procesos tuvieron que esperar un turno)
Cálculo del valor umbral de Nagios:
Para la configuración de Nagios CPU Load, que incluye advertencia y crítica:
y = c * p / 100
Dónde:
y = nagios value
c = number of cores
p = wanted load procent
para un sistema de 4 núcleos:
time 5 min 10 min 15 min
warning: 90% 70% 50%
critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Para un sistema de núcleo único:
y = p / 100
Dónde:
y = nagios value
p = wanted load procent
time 5 min 10 min 15 min
warning: 70% 60% 50%
critical: 90% 80% 70%
command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
Un gran libro blanco sobre el análisis de la carga de la CPU por el Dr. Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf
En este artículo en línea, el Dr. Gunther profundiza en el núcleo de UNIX para averiguar cómo promedios de carga (el "LA Triplets") se calculan y qué tan apropiadas son como métricas de planificación de capacidad.
standard
nitested
valor. Depende de la carga de trabajo de su servidor esperado. Si espera una carga alta, debe aumentar los valores. De lo contrario, su servidor siempre aparecerá en estado crítico.