Idealmente, con la instalación más simple posible y sin necesidad de reiniciar los servidores. Sobre todo por DL380 G5's
si ayuda.
Idealmente, con la instalación más simple posible y sin necesidad de reiniciar los servidores. Sobre todo por DL380 G5's
si ayuda.
Respuestas:
Esto depende ligeramente de los sistemas operativos que esté ejecutando en los servidores, pero en general, es posible obtener alertas de los servidores HP ProLiant y los controladores Smart Array RAID.
La lista completa de controladores y soporte de software para sus sistemas DL380 G5 se encuentra aquí .
SNMP y una solución de monitoreo es el mejor enfoque ... Pero puede aumentar eso con algunas de las herramientas de HP. HP ofrece HP Systems Insight Manager , que está disponible para descargar y también viene con los servidores. Esto es ideal para colecciones de servidores. Si está buscando alertas únicas sin crear una infraestructura de administración o monitoreo, simplemente puede instalar los Agentes de administración de HP (también conocido como Paquete de soporte ProLiant ).
Para sistemas Linux independientes, haré que los agentes envíen trampas por correo electrónico. Normalmente configuraré el paquete de soporte con valores predeterminados o un paquete personalizado , luego editaré /opt/hp/hp-snmp-agents/cma.conf
y cambiaré la trapemail
línea para que apunte a la dirección del destinatario:
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net
Si está ejecutando Linux y no desea instalar el paquete completo de administración de HP, puede desarrollar un script alrededor de la utilidad cciss_vol_status para consultar el estado del controlador / disco. Consulte también: Instalación de agentes de HP en OpenFiler
ProLiant DL360 G7
servidores y HP SIM configurado para monitoreo.
Consulte HP Insight Manager
https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#
Creo que debería funcionar con sus servidores.
Usé el programa ligero que @ewwite mencionó en su respuesta: cciss_vol_status
Si sigue las instrucciones de INSTALACIÓN adjuntas, se coloca el script /usr/local/bin/cciss_vol_status
.
Aquí hay un script de contenedor que utilizo para grep la salida de cciss_vol_status, y enviar un correo electrónico si alguna matriz tiene un estado de FAILED.
#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers. Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`
# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root
# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}
if echo $status | grep -q FAILED
then
# make sure we haven't sent a notification in the last X minutes
if test `find ${lockfile} -mmin +${_notification_freq}`
then
echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}
# update lock file mod time
/bin/touch ${lockfile}
fi
fi
Llame al script anterior en cron. Corro el cheque cada dos minutos:
*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh
Usamos HP System Insight Manager para verificar si nuestros HP están en funcionamiento, pero nada más que eso. Descubrí que el agente de Linux es excesivo para nosotros, ya que tenemos otras soluciones de monitoreo implementadas, por lo que este script anterior sirve bien para su propósito específico.
ACTUALIZAR
Solo un consejo de solución de problemas en caso de que te encuentres con esto. Esta secuencia de comandos resultó útil esta mañana cuando recibí un correo electrónico sobre una matriz fallida con:
Límite de caché sucio alcanzado
El dispositivo fue de solo lectura y no fue visible en /proc/partitions
. Reinicié el servidor y vi estos mensajes en el arranque:
Unidad (es) lógica (s) deshabilitada debido a la posible pérdida de datos. Seleccione "F1" para continuar con las unidades lógicas deshabilitadas. Seleccione "F2" para aceptar la pérdida de datos y volver a habilitar las unidades lógicas.
Seleccioné F2 y el RAID estaba bien y montado en el arranque.
Instalar smartmontools. Te envía ANTES de que falle una unidad.