¿Alguien puede explicar los "casos de uso" para los gráficos munin predeterminados?

Al instalar munin, activa un conjunto predeterminado de complementos (al menos en ubuntu). Alternativamente, puede simplemente ejecutar munin-node-configurepara averiguar qué complementos son compatibles con su sistema. La mayoría de estos complementos trazan datos directos. Mi pregunta no es explicar la naturaleza de los datos (bueno ... tal vez para algunos), pero ¿qué es lo que buscas en estos gráficos?

Es fácil instalar munin y ver gráficos elegantes. Pero tener los gráficos y no poder "leerlos" los hace totalmente inútiles.

Voy a enumerar complementos estándar que están habilitados por defecto en mi sistema. Entonces será una larga lista. Para completar, también voy a enumerar complementos que creo entender y dar una breve explicación de para qué creo que se usa. Motivos correctos si estoy equivocado con alguno de ellos.

Entonces déjenme dividir estas preguntas en tres partes:

Complementos donde ni siquiera entiendo los datos
Complementos donde entiendo los datos pero no sé a qué debo estar atento
Complementos que creo entender

Complementos donde ni siquiera entiendo los datos

Estos pueden contener preguntas que no necesariamente están dirigidas a munin solo. No entender los datos generalmente significa una brecha en el conocimiento fundamental sobre sistemas operativos / hardware ...;) No dude en responder con una respuesta "giyf".

Estos son complementos en los que solo puedo adivinar lo que está pasando ... apenas quiero mirar estos "adivinanzas" ...

Disco IOs por dispositivo (IOs / segundo)
¿Qué es un IO? Sé que significa entrada / salida. Pero eso es todo lo que va.
Latencia de disco por dispositivo (espera de E / S promedio)
No tengo ni idea de qué es una "espera de E / S" ...
IO Service Time
Este es un gran desastre, y es casi imposible ver algo en el gráfico.

Complementos donde entiendo los datos pero no sé a qué debo estar atento

IOStat (bloques / segundo leído / escrito)
Supongo que lo que hay que tener en cuenta aquí son los picos. ¿Qué significaría que el dispositivo está en uso pesado?
Entropía disponible (bytes)
¿Asumo que esto es importante para la generación de números aleatorios? ¿Por qué graficaría esto? Hasta ahora, el valor siempre ha sido casi constante.
VMStat (ejecución / procesos de suspensión de E / S)
¿Cuál es la diferencia entre este y el gráfico de "procesos"? Ambos muestran procesos en ejecución / inactivos, mientras que el gráfico "Procesos" parece tener más detalles.
Rendimiento de disco por dispositivo (bytes / segundo leído / escrito)
¿Cuál es la diferencia entre este y el gráfico "IOStat"?
uso de la tabla de inodo
¿Qué debo buscar en este gráfico?

Complementos que creo entender

Adivinaré algunas cosas aquí ... corrígeme si me equivoco.

Uso del disco en porcentaje (porcentaje)
Cuánto espacio en disco se usa / queda. Como esto se acerca al 100%, debe considerar limpiar o extender la partición. Esto es extremadamente importante para la partición raíz.
Rendimiento del cortafuegos (paquetes / segundo)
El número de paquetes que pasan por el cortafuegos. Si esto aumenta durante un período de tiempo más largo, podría ser un signo de un ataque de DOS (o simplemente estamos recibiendo un archivo grande). También puede darle una idea sobre el rendimiento de su firewall. Si se está nivelando y necesita más "potencia", debería considerar el equilibrio de carga. Si se está nivelando y ve una correlación con la carga de su CPU, también podría significar que su hardware no es lo suficientemente rápido. Las correlaciones con el uso del disco podrían apuntar a objetivos LOG excesivos en su configuración de FW.
Errores eth0 (paquetes de entrada / salida)
Errores de red. Si este valor aumenta, podría ser un signo de hardware defectuoso.
tráfico eth0 (bits / segundo de entrada / salida)
Tráfico de red sin formato. Esto debería correlacionarse con el rendimiento del firewall.
número de subprocesos
Un valor cada vez mayor puede indicar que un proceso no cierra correctamente los subprocesos. ¡Investigar!
Procesos
Desglose de los procesos activos (incluido el sueño). Un pico rápido aquí podría apuntar a una bomba tenedor. Un valor lento, pero cada vez mayor, puede apuntar a una aplicación que genera subprocesos pero que no los cierra correctamente. Investigar usando ps faux.
prioridad del proceso
Esto muestra la distribución de las prioridades del proceso. Tener solo procesos de alta prioridad no es de mucha utilidad. Considere eliminar la prioridad de algunos.
uso de la CPU
Bastante sencillo. Si esto está aumentando, es posible que tenga un ataque en curso o que un proceso esté acaparando la CPU. Si aumenta lentamente y se acerca al máximo en las operaciones normales, debería considerar actualizar su hardware (o equilibrio de carga).
uso de la tabla de archivos
Número de archivos abiertos activamente. Si esto alcanza el máximo, es posible que tenga un proceso de apertura, pero no la liberación adecuada de los archivos.
promedio de carga
Muestra un valor resumido para la carga del sistema. Debe correlacionarse con el uso de la CPU. Los valores crecientes pueden provenir de varias fuentes. Busca correlaciones con otros gráficos.
uso de memoria
Una representación gráfica de su memoria. Siempre que tenga muchos buffers + caché + no utilizados, estará bien.
swap in / out
Muestra la actividad en su partición de intercambio. Esto siempre debe ser 0. Si ve actividad en esto, ¡debería agregar más memoria a su máquina!

linux monitoring munin

— exhuma
fuente

Gran pregunta, fácilmente aplicable a Cacti y otras aplicaciones de gráficos. Los gráficos a menudo se ven geniales, pero es bastante difícil de entender lo que significan, y más a qué se parece algo que necesita más atención.

— dunxd

Para el "¿Por qué graficaría esto? Hasta ahora, el valor siempre ha sido casi constante". parte, recuerde que la mayoría de la información generalmente es valiosa en caso de problemas.

— Steve Schnepp el

Disco IOs por dispositivo (IOs / segundo)

Con los discos duros tradicionales, este es un número muy importante. La operación de E / S es una operación de lectura o escritura en el disco. Con los husos rotativos puede desplazarse de docenas a quizás 200 IOPS por segundo, dependiendo de la velocidad del disco y su patrón de uso.

Esto no es todo: los sistemas operativos modernos tienen programadores de E / S que intentan fusionar varias solicitudes de E / S como una sola y agilizan las cosas de esa manera. Además, los controladores RAID, etc., realizan algunos pedidos de E / S inteligentes.

Latencia de disco por dispositivo (espera de E / S promedio)

Cuánto tiempo tardó en realizar la solicitud de E / S en un disco individual para recibir los datos desde allí. Si esto oscila alrededor de un par de milisegundos, está bien, si son docenas de ms, entonces está comenzando a ver que su subsistema de disco está sudando, si son cientos de ms más, está en un gran problema, o al menos tiene un muy, muy sistema lento

IO Service Time

Cómo se desempeña en general su subsistema de disco (posiblemente conteniendo muchos discos).

IOStat (bloques / segundo leído / escrito)

Cuántos bloques de disco se leyeron / escribieron por segundo. Busque picos y también el promedio. Si el promedio comienza a acercarse al rendimiento máximo de su subsistema de disco, es hora de planificar la actualización del rendimiento. En realidad, planifique de esa manera antes de ese punto.

Entropía disponible (bytes)

Algunas aplicaciones quieren obtener datos aleatorios "verdaderos". Kernel recoge esa aleatoriedad 'verdadera' de varias fuentes, como la actividad del teclado y el mouse, un generador de números aleatorios que se encuentra en muchas placas base, o incluso de archivos de video / música (video-entropyd y audio-entropyd pueden hacer eso).

Si su sistema se queda sin entropía, las aplicaciones que desean esos datos se bloquean hasta que obtienen sus datos. Personalmente, en el pasado, he visto que esto sucede con el demonio Cyrus IMAP y su servicio POP3; generó una larga cadena aleatoria antes de cada inicio de sesión y en un servidor ocupado que consumió el grupo de entropía muy rápidamente.

Una forma de deshacerse de ese problema es cambiar las aplicaciones para usar solo datos semi aleatorios (/ dev / urandom), pero eso ya no está entre este tema.

VMStat (ejecución / procesos de suspensión de E / S)

No había pensado en esto antes, pero creo que esto le informa sobre las estadísticas de E / S por proceso, o principalmente si están ejecutando alguna E / S o no, y si esa E / S está bloqueando la actividad de E / S o no.

Rendimiento de disco por dispositivo (bytes / segundo leído / escrito)

Esto es puramente bytes leídos / escritos por segundo, y más a menudo es una forma más legible para los humanos que los bloques , que pueden variar. El tamaño del bloque puede diferir debido a los discos utilizados, el sistema de archivos (y su configuración) utilizados, etc. A veces, el tamaño del bloque puede ser de 512 bytes, otras veces 4096 bytes, a veces algo más.

uso de la tabla de inodo

Con sistemas de archivos con inodos dinámicos (como XFS), nada. Con sistemas de archivos que tienen mapas de inodes estáticos (como ext3), todo. Si tiene una combinación de inodos estáticos, un gran sistema de archivos y una gran cantidad de directorios y archivos pequeños, es posible que encuentre una situación en la que no pueda crear más archivos en esa partición, aunque en teoría quedaría mucho espacio libre. Sin inodos libres == mal.

— Janne Pikkarainen
fuente

considerando el uso de inodo. Actualmente estoy usando ext4, y los max-indodes y open-inodes en ese gráfico están extremadamente cerca (abierto: 31.11k tamaño de la tabla: 32.12k). Lo que me dejaría con alrededor de 1k inodos restantes. Como el sistema está recién instalado, no creo que esto indique un problema. ¿Ext4 asigna dinámicamente inodos? No he encontrado nada al respecto en google ...

— exhuma

Mira df -i, te informa sobre el uso actual del inodo. ext4 ha solucionado inodos, por ejemplo, mis informes de Fedora 16 para mi partición raízrootfs 3276800 238083 3038717 8% /

— Janne Pikkarainen

Hmmm ... interesante. Esto sugiere que el gráfico munin no es correcto. Tampoco me di cuenta de que el gráfico munin muestra solo un valor. ¿No debería mostrar un valor por sistema de archivos como útil? Vea también la df -icaptura de pantalla ( i44.tinypic.com/oixkiq.png ) vs el munin-graph ( i39.tinypic.com/dxl64z.png )

— exhuma

... El valor en el gráfico (25.57k) en realidad no se ve en absoluto en la dfsalida.

— exhuma

Tras una investigación más exhaustiva, veo que el complemento munin open_inodestoma el valor de /proc/sys/fs/inode-nr. Es un núcleo, y no un valor del sistema de archivos. Un poco más de google me señaló esto: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 A partir de ese documento, supongo que se puede encontrar el límite inode-max. Pero este archivo no existe en mi sistema. ¿Es posible que esto ya no sea pertinente en los núcleos más nuevos? ¡Esto me permitiría eliminar este gráfico de mi instancia munin!

— exhuma