¿Qué herramienta utilizas para monitorear tus servidores?


187

Para obtener una lista más completa de herramientas de monitoreo y sus características, consulte esta página de Wikipedia .

Como dice la pregunta, ¿cuáles son las herramientas más utilizadas para esta tarea y cuáles son sus fortalezas y debilidades?


¿Qué plataforma está ejecutando su servidor?
Glenn Slaven

1
Mis servidores ejecutan Debian Lenny, pero la pregunta no se centra principalmente en el monitoreo de UNIX solo, ya que muchas herramientas probablemente tendrán algún tipo de soporte multiplataforma.
Aron Rotteveel

Tal vez usan diferentes herramientas, pero desde el punto de vista general del sistema, terminas haciendo lo mismo una y otra vez en los diferentes sistemas. Es solo un poco de secuencia de comandos para extraer el último bit de datos que desea. Consideraría "herramientas" en este contexto, la instancia de grabación (servidor de monitoreo) no el complemento / script real que escupe los datos
serverhorror

También me gusta monitorear las aplicaciones (rendimiento, disponibilidad, etc.). Las herramientas de monitoreo parecen tener un espectro con su habilidad para monitorear hardware en un extremo y su habilidad para monitorear aplicaciones en el otro. Aplicación de hardware <----- + ----->
Nathan Hartley

Respuestas:


136

He usado Nagios en el pasado con éxito. Es muy extensible (más de 200 complementos), relativamente fácil de usar y con muchos informes. Un negativo sería la configuración inicial.


10
Nagios funciona muy bien para monitorear todo tipo de host (Windows, Linux, enrutadores, conmutadores, etc.) Recomiendo usar una herramienta de configuración como Fruity o Lilacto para aliviar el dolor de configuración. NSClient ++ en los cuadros de Windows y nagios-statd en el material de Linux para monitorear procesos en ejecución, uso de disco, etc.
TonyB

Desafortunadamente, Nagios requiere un agente en los cuadros de Windows; en el pasado, he encontrado que el agente es muy propenso a morir al azar.
PowerApp101

Observamos tanto a Nagios como a Zabbix para nuestro monitoreo. Zabbix ganó después de una breve evaluación, principalmente debido a la facilidad de implementación y funcionalidad (por ejemplo, Zabbix incluye gráficos como una función central, mientras que Nagios requiere un complemento). Encontré que configurar Nagios es un fastidio.

GroundWork OpenSource tiene un dispositivo de monitoreo de red que usa Nagios en su núcleo y simplifica la configuración / administración
Rog

12
Hay una nueva bifurcación de nagios llamada icinga. Todavía no está en ninguna parte, pero sus objetivos parecen prometedores. icinga.org
cstamas 01 de

70

Cacti es una interfaz web muy buena para RRDTool , que proporciona gráficos y estadísticas muy útiles. RRDTool es la parte que recopila datos de múltiples sistemas y monitorea una amplia gama de datos técnicos.

Estamos utilizando esa solución cacti / RRDTool para monitorear los sistemas Unix y Windows. Obtenemos muchas métricas útiles que incluyen carga, uso de CPU / RAM, espacio HD, usuarios conectados, tráfico de red, procesos en ejecución, etc.

Encontrará más información sobre los cactus en ¿Qué son los cactus? página.


Cacti es una solución divertida que se ve muy bien y tiene un excelente precio (gratis). Sin embargo, la configuración de los dispositivos de red es una PITA y está mal documentada. Podría ser mejor ahora, pero no me comprometería hasta que hayas investigado.
Chris Porter

57

Personalmente, me encanta Munin, que es muy fácil de instalar y para escribir complementos, ya que tiene una arquitectura muy sencilla. Ya hay bastantes complementos para todos los propósitos que pueda imaginar, por lo que probablemente ni siquiera tendrá que escribir complementos en primer lugar.

También proporciona gráficos hermosos y la opción de configurar alertas (muy básicas).


2
Soy un gran admirador de Munin también. Tiene soporte para integrarse con Nagios (para que pueda ejecutar ambos), y soporte para todos los sabores comunes de Unix. No creo que haya ningún soporte para monitorear un nodo de Windows; sin embargo, está escrito en Perl, por lo que si bien puede no ser trivial, ciertamente debería ser posible .
John Dalton

2
@John. Los nodos de Windows son compatibles a través de munin-node-win32, que es un nodo nativo de munin, o mediante SNMP como cualquier host.
Steve Schnepp

34

Zabbix . Es de código abierto y razonablemente simple de configurar y personalizar. Tenemos muchos scripts de monitoreo personalizados que se introducen en el servidor zabbix, pero se encarga de centralizar esos datos, mostrarlos adecuadamente, notificaciones (correo electrónico, mensajería instantánea, SMS, twitter, etc.), etc.


2
También estamos usando Zabbix y consideramos que es bastante potente y configurable. Probamos Zabbix y Nagios y optamos por Zabbix al final porque, aunque Nagios parece tener una buena reputación, es un poco difícil de instalar y mucha funcionalidad proviene de complementos en lugar de presentarse dentro de la aplicación principal (la gráfica es una buen ejemplo de esto, lo obtienes gratis con Zabbix).

3
Prefiero Zabbix porque es flexible en términos de gráficos y mapeo de su infraestructura (en términos de disponibilidad), así como una forma flexible de monitoreo.
Andrioid el

29

He estado implementando Spiceworks en nuestra empresa y estamos encontrando que es una gran herramienta no solo para monitorear servidores sino todo lo demás en la red.

Hace cosas como inventario automático y monitoreo personalizado para enviarle correos electrónicos cuando hay un problema (por ejemplo: la impresora tiene un 10% de tinta o el disco duro de este servidor tiene un 20%).

Su desventaja probablemente sea la densidad de información por computadora, no se equivoque, tiene MUCHOS datos por máquina, pero para cosas como servidores en los que puede desear muchas estadísticas, puede necesitar usar otra herramienta.

EDITAR: oh, ¿mencioné que su modelo de negocio se basa en que es gratis para siempre?


Spiceworks hace muchas cosas increíbles, y GRATIS.

3
SpiceWorks tiene una comunidad realmente grande que se superpone bastante con ServerFault también. Va a ser interesante ver la interacción entre las comunidades. Yo también uso SpiceWorks. Impresionante herramienta.
Scott Alan Miller el

Ahora estoy usando esto basado en su recomendación. Excelente herramienta
Marko Carter

Lo usamos en nuestro trabajo. Es bastante impresionante. El inventario solo de hardware, sin mencionar el software, vale la pena echarle un vistazo.
Terry

La última vez que usé Spiceworks (algo de la versión 3), no tenía forma de agregar o modificar componentes de hardware como monitores, tarjetas de video, etc. Los detectaría, pero a menudo de manera incorrecta. Por lo tanto, todavía estoy usando GLPI + OCSNG que odio .
Boden

18

Smokeping no solo verifica la disponibilidad de varios servidores y servicios, sino que también realiza un seguimiento de su latencia al tiempo que proporciona gráficos fáciles de usar, atractivos y rápidos de mostrar .

Existe una amplia gama de complementos de medición de latencia listos para usar. Si conoce algo de Perl, es fácil crear los suyos propios para cualquier necesidad exótica.

Las grandes instalaciones se beneficiarán del Sistema Maestro / Esclavo para la medición distribuida.

El sistema de alerta altamente configurable lo ayudará a notar problemas antes de que comiencen a afectar a los usuarios o evolucionen a una interrupción importante.

Smokeping es un software gratuito y de código abierto escrito en Perl por Tobi Oetiker, el creador de MRTG y RRDtool


Fumar es bueno para ver cómo es su red
Rory

Fumar es increíble para visualizar la latencia.
James

15

OpenNMS se usa donde trabajo para monitorear más de mil máquinas Linux. Monitoreamos el hardware de cada máquina y las aplicaciones que se ejecutan en ellas.


+1 para OpenNMS, también lo usamos en el trabajo para monitorear miles de máquinas e interfaces. Tenemos muchos sistemas operativos diferentes, y podemos monitorearlos todos usando OpenNMS.
Steve K

no es mi primera opción pero es muy útil

¿Cómo es agregar MIB para nuevo hardware?
slovon

OpenNMS tiene muchas estadísticas snmp ya en su configuración predeterminada para que pueda descubrir automáticamente y comenzar a graficar de inmediato. Las nuevas estadísticas SNMP son bastante fáciles de agregar, solo dé un nombre para el RRD, el OID y el tipo de datos y colóquelo en un grupo para el tipo de dispositivo al que se aplica la estadística.
mtinberg

15

Zenoss Core es de alguna utilidad, lo estamos utilizando (durante aproximadamente un año) para el monitoreo ligero de servidores, conmutadores de red y UPS.

Zenoss Core es un galardonado producto de monitoreo de TI de código abierto que administra de manera efectiva la configuración, el estado y el rendimiento de las redes, servidores y aplicaciones a través de un único paquete de software integrado.


Si usa la versión gratuita de Zenoss Core, prepárese para hacer muchos ajustes SNMP MIB. También descubrí que se negaba firmemente a recopilar datos del sistema operativo en algunos de mis servidores, y es sorprendentemente difícil de configurar para tareas simples como verificar el contenido de una página web.
gareth_bowles

Puede simpatizar con los problemas de MIB, pero la verificación de la página web se puede hacer con los complementos de Nagios en Zenoss.
gimel

12

Nagios es genial ya que es gratis y hay muchos complementos para ello. Sin embargo, la interfaz de usuario y la configuración son muy difíciles.

Es exactamente lo contrario en pro's / con's, que también es genial: Microsoft System Center Operations Manager (SCOM), que no es gratuito, tiene menos complementos, pero la configuración y la configuración son brillantes y fáciles.

Debo admitir que si estaba en una empresa principalmente de Microsoft, tenía requisitos de dependencia muy altos (es decir, no podía permitir que la supervisión se interrumpiera) o tenía que pensar en hacer que los desarrolladores trabajen con ella, entonces SCOM sería mi recomendación sobre Nagios.


12

He usado:

  • Nagios : requiere una configuración de línea de comandos antigua, no bonita, pero resistente y funcional. Ha sido reemplazado por:
  • Zenoss : requiere mucho menos trabajo de pies para configurar, tiene una variante comercial. Una vez que se ejecuta, el resto se controla a través de un navegador. Muy potente, pero requiere un poco de trabajo MIB si utiliza la versión gratuita.
  • Intermapper - programa comercial, costoso si tiene muchos nodos para monitorear. Parece estar escrito en Java (para bien o para mal).
  • Spiceworks : no he probado la última versión. Las versiones anteriores necesitaban un poco más de ruido debajo del capó para que respondiera, pero de lo contrario, funciona bien. La versión gratuita viene con anuncios molestos.

Usamos Intermapper ampliamente.
sysadmin1138

Yo también uso InterMapper. El cliente de la consola está escrito en Java. El servidor está escrito en Python. Postgres se utiliza como la base de datos de back-end para la agregación de datos y los informes.
lsiu

11

Usamos AlertFox desde hace unas semanas y estamos muy contentos. No solo verifica nuestro tiempo de actividad y rendimiento, sino que también monitorea el carrito de compras, el inicio de sesión del usuario y otras partes críticas del sitio web a través de scripts de transacción (basados ​​en iMacros).

Para nuestro monitoreo interno (espacio en disco, etc.) usamos Nagios .


10

PRTG Network Monitor: no puedo decir suficientes cosas buenas al respecto. Impresionante front-end web y especialmente excelente para monitorear enrutadores (ancho de banda, etc.) y otros dispositivos a través de SNMP y medir el tiempo de actividad de SLA, etc.

www.paessler.com


9

Como persona de Windows, MOM. Estamos buscando actualizar a Systems Center Operations Manager (SCOM), pero no será necesario hasta que comencemos a implementar Windows 2008.


Yo uso mamá también. Me encanta y lo odio al mismo tiempo.
spoulson el

SCOM es una excelente plataforma de monitoreo para entornos empresariales basados ​​en Windows. El verdadero genio aquí son los Paquetes de Administración lanzados por los propios grupos de productos de Microsoft (esto es parte de los Criterios de Ingeniería Común de MS de que cada producto tiene un SCOM MP dentro de los 90 días de RTM). Obtener asesoramiento y conocimiento de los propios equipos de productos puede mejorar en gran medida la capacidad de un departamento de operaciones para mantener las cosas en funcionamiento y saludables sin molestar a los administradores de mayor jerarquía por cada pequeña cosa.
Kevin Colby

8

Soy parte de un proyecto de actualización de monitoreo operativo. Hemos tenido varios proveedores en el sitio para presentar algunos sistemas de gran dólar y mezclar algunas alternativas más baratas para comparar.

Uno de ellos es Hyperic , que también está disponible como una solución gratuita de código abierto. Me impresionaron sus capacidades y extensibilidad para agentes personalizados.


Si bien no es fácil en recursos, ¡seguramente es una gran herramienta de monitoreo!
Vincent De Baere

8

Para monitorear estadísticas (uso de memoria, carga, actividad de mysql, actividad de apache, etc.) utilizo Munin . Fuera de la caja, ya rastrea muchas cosas y traza gráficos para diferentes intervalos de tiempo (últimas 24 horas, últimos 7 días, último mes, año pasado). A través de complementos, se pueden monitorear aún más cosas. Su salida son páginas HTML con bonitos gráficos.

Munin tiene una arquitectura maestro / nodo: los nodos recopilan estadísticas en un servidor y el maestro almacena los datos y produce HTML y gráficos.

Utilizo Monit para realizar un seguimiento de los procesos en ejecución y para reiniciarme o alertarme cuando surgen ciertas condiciones configurables (carga de CPU alta, uso de memoria elevado, sin respuesta HTTP, etc.) Monit también puede monitorear cosas más generales sobre un servidor, como CPU carga, uso de memoria, estado del disco duro o uso del disco.

Monit debe configurarse para cada servicio o hardware que desea monitorear y cómo responder cuando algo sale mal. Las opciones más utilizadas son no hacer nada, enviar un correo electrónico de alerta o reiniciar el servicio.

Monit es excelente cuando funciona, pero a veces no puede iniciar, detener o reiniciar un servicio y no hay mucha información de diagnóstico disponible para decirle qué salió mal. Esto significa que no sabe si el problema fue con su servicio o con la configuración de Monit, que se ejecuta con un entorno mínimo similar a cron.

Ambas herramientas están disponibles por defecto en la mayoría de las distribuciones de Linux.


8

Me sorprende que nadie haya mencionado logwatch o logcheck para servidores linux, ¡ahorra una tonelada de tiempo leyendo registros!


Esas herramientas realmente no le darán métricas y legibilidad a largo plazo de sus tendencias de infraestructura. Son una buena adición, pero no confiaría únicamente en ellos. Afaik "logwatch" es algo malvado, ya que solo informará sobre los errores que usted mencione en lugar de "logcheck", donde le diga a la herramienta que sabe cosas buenas e informará todo lo demás.
serverhorror


7

Nuestro proyecto utiliza Ganglia para nuestros más de 100 grupos de nodos. Una razón por la que lo usamos es porque es la herramienta de monitoreo que viene con Rocks .

Es importante para nosotros tener una sobrecarga muy baja en cada nodo para que haya tantos recursos como sea posible disponibles para el cálculo. Ganglia nos brinda una buena visión general del clúster y nos permite profundizar en nodos individuales si es necesario. Además de saber lo que está sucediendo en este momento, podemos ver bastante bien lo que sucedió durante la última hora, día, semana, mes y año. Los gráficos de varias estadísticas son básicos y funcionales.


6

¡Todo depende de lo que quieras decir con "monitor"!

  • ¿Está disponible (sistema o servicio)? Usamos nagios .
  • ¿Qué está haciendo? Usamos munin para servidores linux y cactus para casi todo lo demás, a pesar de que a veces es complicado configurarlo ...
  • Que ha hecho Usamos syslog-ng para concentrar syslogs en un solo lugar y luego ejecutamos diariamente un script de logcheck personalizado para enviar informes por correo electrónico. Estamos buscando algo similar para los servidores de Windows.

5

Graphite ( http://graphite.wikidot.com/ ) es un nuevo participante en la escena que debe competir con Cacti y las soluciones basadas en RRDTool .

RRDTool se reemplaza con una tienda de respaldo llamada Whisper. Los documentos brindan una visión general bastante buena de por qué difiere y realmente me gusta la CLI para gráficos ad hoc al investigar algo.


4

Usamos (y nos gusta) WhatsUp de Ipswitch para nuestra red de Windows relativamente pequeña. Es fácil de configurar y relativamente fácil de administrar, y sabe cómo lidiar con los servidores de Windows, así como con las cosas estándar.

Para redes más grandes, redes no orientadas a Windows o redes con muchas cosas variadas, recomiendo sinceramente OpenNMS . El software OpenNMS es gratuito y la empresa está más que feliz de vender servicios de soporte e implementación. ¡También es dirigido por un amigo mío muy afilado de la universidad!


4

Para aquellos a quienes no les gusta la interfaz web de Nagios, existe NPC , un complemento para Cacti que hace que la interfaz de usuario de Nagios esté disponible desde Cacti, pero con una mejor apariencia (ajax, etc.).

Se lee de una base de datos proporcionada por NDO2DB , que es una excelente manera de tener su infraestructura disponible desde una base de datos para usar en scripts y otras herramientas.


4

Actualmente utilizamos PRTG de Paessler . Es excelente. No se requieren agentes, excelente interfaz web de Ajax, registro histórico, gráficos, WMI, etc. Hay una versión de 10 sensores disponible de forma gratuita, pero obtuvimos un par de grandes para la versión empresarial. Dinero bien gastado.



4

Si tiene prisa y desea una herramienta rápida para monitorear su servidor MS, use el monitor de rendimiento para Windows, configure un registro de contador con una plantilla de monitoreo personalizada y un programa personalizado (por ejemplo: recopile datos durante 5 minutos cada hora). Luego descargue la herramienta LogParser de Microsoft y la herramienta de análisis de rendimiento de registros (PAL) de Codeplex ( http://pal.codeplex.com/ ) para procesar el registro de su contador. PAL generará un excelente informe documentado con enlaces a posibles documentos / herramientas para resolver problemas.


3

Utilizo una combinación de Solarwinds, pestañas de rendimiento del servidor VMware y scripts personalizados.

Solarwinds Orion Network Performance Monitor es lo que uso con nuestro sistema Windows. administradores en mis servidores web. Todavía obtengo algunas métricas de aplicaciones útiles ejecutándose en él, pero tiene buena información sobre cosas básicas de nivel de caja (disco, red, CPU).

Para mis invitados VMware, me encantan las pestañas de rendimiento.

Para mis servidores Sun, cuando necesito algo que no está disponible en Solarwinds (porque nuestro administrador no lo ha agregado o qué), escribo scripts personalizados (generalmente en Perl) para monitorear cosas como el estado del espejo, el uso de intercambio, etc.

Me gustaría obtener más información sobre Solarwinds, pero solo hay como 26 horas en un día (o eso cree mi jefe), así que creo que eso puede ser un poco limitante ...


3

Usamos OpsView , que se ejecuta sobre Nagios. La webUI nos ayuda a implementar nuevas definiciones de monitor de host sin tener que permitir el acceso SSH, proporciona vistas públicas y registra valores históricos. Esto es útil para aprovisionar y determinar líneas de base adecuadas.



2

Lamento decirlo, pero terminé usando muchos scripts personalizados. Aunque lejos de ser ideal, dudo que haya una solución más común.


¡Siempre habrá necesidad de scripts personalizados!
Techboy el

2

Hemos escrito nuestro propio software de monitoreo. Nuestro código no es tan sofisticado como un paquete comercial, pero no necesitábamos mucha funcionalidad. Era más fácil escribir el nuestro que investigar otros paquetes y aprender a usarlos. El código hace exactamente lo que queremos y es fácil de extender.


2
Creo que es importante pensar en las implicaciones de una decisión como esta. Escribir algo desde cero puede no ser demasiado esfuerzo, pero el mantenimiento en el futuro es un oso.
Adam

Me imagino que el mantenimiento es un problema, pero no lo ha sido para nosotros, a pesar de que hemos ejecutado este sistema durante años. Como la base del código es pequeña y familiar, nos ha sido fácil agregar nuevas funcionalidades según sea necesario. El mantenimiento de una solución comercial también podría ser un problema con el tiempo, un injerto de piezas de nuevos proveedores cuando el producto original no hace todo lo que necesita, etc.
John D. Cook
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.