¿Cómo monitorear el estado del disco duro detrás de Dell PERC H710 Raid Controller con CentOS 6?


26

Tengo un servidor Dell que funciona CentOS 6con una PERC H710tarjeta Raid Controller con configuración Raid 5 y deseo monitorear la falla del disco duro / estado de funcionamiento detrás del Raid Controller.

Entonces debería poder usar un script bash para monitorear el estado del disco duro y enviar correos electrónicos de alerta si algo sale mal.

La LSI MegaRAID SASherramienta de comando (Acerca de las herramientas LSI MegaRAID SAS Linux) para CentOS / Red Hat / Linux NO es compatible con PERC H710 y smartctltampoco lo es.

Según el sitio web de Dell, CentOSIS no es compatible con este servidor ( NX3200 PowerVault) y no pude descargar ningún programa de Linux para monitorear el disco duro.

[root@server ~]# lspci | grep RAID
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)


[root@server ~]# smartctl -a /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        299,439,751,168 bytes [299 GB]
Logical block size:   512 bytes
Logical Unit id:      ....
Serial number:        ....
Device type:          disk
Local Time is:        Tue Apr 15 16:38:30 2014 SGT
Device does not support SMART

Error Counter logging not supported
Device does not support Self Test logging

¿Alguien sabe cómo monitorear el estado del disco duro detrás del ataque de hardware en Dell PERC H710 con CentOS 6?

Respuestas:


26

¡SMART no es la última palabra en el disco o el monitoreo de almacenamiento! Es un componente, pero los controladores RAID modernos lo usan junto con otros métodos para determinar el estado de la unidad y la matriz.

Supongo que este es un controlador PERC en un servidor Dell PowerEdge.

El enfoque normal de Linux para la supervisión del estado del hardware de Dell es instalar los agentes de Dell OMSA para Linux a través de Yum: http://linux.dell.com/wiki/index.php/Repository/OMSA#Yum_setup

yum install srvadmin-allinstalará el conjunto completo de agentes. Una vez instalado, puede usar el omreportcomando para obtener información sobre su matriz.

Ejemplos:

$ omreport storage vdisk

$ omreport storage pdisk controller=0

$ omreport storage vdisk controller=0 vdisk=1

77
esto instalará componentes adicionales como servidor web / ssl en mis máquinas Linux, ¡pero parece que no tengo otra opción! Odio agregar paquetes innecesarios a mi servidor.
Xianlin

2
Tenga cuidado con posibles pérdidas de memoria de uno de esos programas de OMSA. Me sucedió lentamente en el transcurso de 3-4 semanas y luego boom, no hay más memoria para Linux.
bksunday

1
Sí, la fuga está en dsm_sa_snmpd (por lo que ejecuto 'killall -9 dsm_sa_snmpd', resuelto).
markusN

55
Los controladores PERC 7xx y 8xx son solo controladores LSI Megaraid y la herramienta LSI MegaCLI funcionará bien si no desea manchar su sistema con bibliotecas dell y cualquier otro servicio y / o módulo del núcleo que están eliminando en estos días. Hay muchas hojas de trucos de MegaCLI, scripts de monitoreo de nagios y consejos de ajuste de rendimiento para el binario LSI. Esa es solo mi preferencia personal y mi opinión, por supuesto. Soy minimalista
Aaron

@ Xianlin, esto no es del todo cierto. Sí, instalará mucha basura, pero vea mi respuesta. No quería agregar paquetes innecesarios, así que descubrí solo los que necesitaba para el almacenamiento.
Mike S

25

Puede ver el estado SMART de los discos con el comando smartctl y su -dargumento. Por ejemplo, para ver el primer disco de la matriz:

# smartctl -a /dev/sda -d sat+megaraid,00
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.6.2.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST91000640NS
Serial Number:    ........
LU WWN Device Id: . ...... .........
Firmware Version: AA08
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P     showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jul 10 11:21:52 2014 WEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
...
...
#

Esto está en Scientific Linux 6 (otro sistema operativo basado en RHEL6) con smartmontools-5.43-1.el6.x86_64.


-d megaraid,0fue suficiente en smartctl 6.6la línea de comando. En la DEVICESCANcuerda /etc/smartd.confque necesitaba-d removable
Stuart Cardall

9

La respuesta aceptada recomienda la audacia que es yum install srvadmin-all. Blecch Aquí le mostramos cómo hacerlo un poco menos blecch-y (pero aún así blecch-y; sin embargo, puede ser mucho más delgado en la plataforma de HP. Pero estoy divagando ...) Con esto quiero decir, solo instale los componentes necesarios para administrar el almacenamiento en su máquina .

Por cierto, la respuesta directa a la pregunta del usuario se encuentra en el elemento "Mostrar discos físicos en el disco virtual 0" en la lista a continuación.

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi > bootstrap.cgi
bash bootstrap.cgi
yum install srvadmin-base
yum install srvadmin-storageservices

Añadir a la raíz .bashrc:

export PATH=$PATH:/opt/dell/srvadmin/bin

Disfrutar:

Comandos RAID

  • Mostrar todos los discos físicos en el controlador 0

    $ omreport storage pdisk controller=0
    
  • Mostrar todos los discos lógicos en el controlador 0

    $ omreport storage vdisk controller=0
    
  • Mostrar todos los discos físicos en el disco virtual 0

    $ omreport storage pdisk controller=0 vdisk=0
    
  • Reconfigurar un disco virtual para que sea raid1 desde raid0 ( COOL !!!! )

    $ sudo omconfig storage vdisk action=reconfigure controller=0 vdisk=1 raid=r1 pdisk=0:0:2,0:0:3
    
  • Cree un disco virtual en un nuevo disco:

    $ sudo omconfig storage controller controller=0 action=clearforeignconfig
    $ sudo omconfig storage controller controller=0 action=createvdisk raid=r0 size=max pdisk=0:0:2
    

Más información

Por cierto, dado que esto NO es más que una tarjeta LCL MegaCLI de la marca Dell, ¡puede encontrar la respuesta de Han Solo aún mejor! Sin embargo, todavía tengo que probarlo.

La dulzura

Aquí hay un ejemplo de la salida de omreport, canalizada a través de grep para obtener un delicioso paquete de datos:

$ omreport storage pdisk controller=0 vdisk=0 | grep -v ": Not "
List of Physical Disks belonging to root

Controller PERC H700 Integrated (Embedded)
ID                              : 0:0:0
Status                          : Ok
Name                            : Physical Disk 0:0:0
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFDT
Part Number                     : CN0X162K7262213800JTA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E44C5

ID                              : 0:0:1
Status                          : Ok
Name                            : Physical Disk 0:0:1
State                           : Online
Power Status                    : Spun Up
Bus Protocol                    : SAS
Media                           : HDD
Failure Predicted               : No
Revision                        : HT64
T10 PI Capable                  : No
Certified                       : Yes
Encryption Capable              : No
Capacity                        : 136.13 GB (146163105792 bytes)
Used RAID Disk Space            : 136.13 GB (146163105792 bytes)
Available RAID Disk Space       : 0.00 GB (0 bytes)
Hot Spare                       : No
Vendor ID                       : DELL(tm)
Product ID                      : ST9146852SS
Serial No.                      : 6TB1AFEY
Part Number                     : CN0X162K7262213800FPA01
Negotiated Speed                : 6.00 Gbps
Capable Speed                   : 6.00 Gbps
Sector Size                     : 512B
Manufacture Day                 : 05
Manufacture Week                : 10
Manufacture Year                : 2011
SAS Address                     : 5000C500395E3C1D

@slm Con respecto a su edición, ¿realmente funciona sin root? No tengo omreport / omconfig delante de mí en estos días, pero no estoy seguro de que ningún usuario pueda crear un disco virtual. El '$' en la línea de comando implica usuario normal, no root.
Mike S

Sí, acabo de hacer esto el otro día cuando estaba tratando con un Dell 730 todos los cmds excepto aquellos 2 que "crean" no requieren root, lo arreglaré.
slm

6

También estaba luchando para que funcionara en CentOS y encontré un paquete de trabajo aquí http://mirror.ndchost.com/software/lsi/

llamado " MegaCli-8.07.10-1.noarch.rpm "

La referencia de comando http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

Espero que ayude.


1
Estoy totalmente de acuerdo, use / opt / megacli / MegaCli64 -PDList -aALL | grep -i firmware y le dirá si los discos físicos están bien. (El comando es de erikimh.com/megacli-cheatsheet - ver si utilicé el incorrecto). Básicamente, el raid care hace un gran trabajo al monitorear los discos, así que solo tenga en cuenta su opinión sobre los estados operativos de los discos.
Algunos Linux Nerd

3
smartctl -d megaraid,00 -a /dev/sda
Got MegaRAID inquiry.. FUJITSU MBE2147RC       D906
Device: FUJITSU  MBE2147RC        Version: D906
Serial number: xxxx
Device type: disk
Transport protocol: SAS
Local Time is:

8
Por favor considere leer ¿Cómo escribo una buena respuesta? en nuestro centro de ayuda y luego revise la Respuesta. Su comando puede ser técnicamente una solución, que también ya se mencionó en las otras respuestas mucho más antiguas y alguna explicación es bienvenida. Gracias por adelantado.
HBruijn

1
La otra respuesta usó "sat + megaraid", que no funcionó para mí. (Correcto, no conocía bien el comando smartctl y no sabía cómo alterar el comando para que funcione.) Esta respuesta me llevó por el camino correcto, y funciona para mí.
Yongwei Wu

1

El percclicomando también puede mostrarle mucha información sobre la unidad si lo solicita amablemente:

# /opt/MegaRAID/perccli/perccli64 /c0/e32/s0 show all
Controller = 0
Status = Success
Description = Show Drive Information Succeeded.


Drive /c0/e32/s0 :
================

-------------------------------------------------------------------------
EID:Slt DID State DG       Size Intf Med SED PI SeSz Model            Sp
-------------------------------------------------------------------------
32:0      0 UGood -  278.875 GB SAS  HDD N   N  512B ST3300657SS      U
-------------------------------------------------------------------------

EID-Enclosure Device ID|Slt-Slot No.|DID-Device ID|DG-DriveGroup
DHS-Dedicated Hot Spare|UGood-Unconfigured Good|GHS-Global Hotspare
UBad-Unconfigured Bad|Onln-Online|Offln-Offline|Intf-Interface
Med-Media Type|SED-Self Encryptive Drive|PI-Protection Info
SeSz-Sector Size|Sp-Spun|U-Up|D-Down/PowerSave|T-Transition|F-Foreign
UGUnsp-Unsupported|UGShld-UnConfigured shielded|HSPShld-Hotspare shielded
CFShld-Configured shielded|Cpybck-CopyBack|CBShld-Copyback Shielded


Drive /c0/e32/s0 - Detailed Information :
=======================================

Drive /c0/e32/s0 State :
======================
Shield Counter = 0
Media Error Count = 0
Other Error Count = 0
Drive Temperature =  40C (104.00 F)
Predictive Failure Count = 1
S.M.A.R.T alert flagged by drive = Yes

Esto debe repetirse para cada ranura del gabinete, o al menos no he encontrado una manera de imprimirlo todo de una vez con un solo percclicomando.

También es fácil de instalar en comparación con otras opciones más completas:

# curl -C - -O 'https://downloads.dell.com/FOLDER04470715M/1/perccli_7.1-007.0127_linux.tar.gz'
# tar xzvf ../perccli_7.1-007.0127_linux.tar.gz
# cd Linux/
# yum localinstall perccli-007.0127.0000.0000-1.noarch.rpm
# cd /opt/MegaRAID/perccli/

perccliNO es una suite de monitoreo integral como Delll OMSA, pero parece que muchas personas no quieren algo completo y en cambio necesitan una herramienta decente y simple.


-1

Hola, tengo una tarjeta Dell PERC / LSI similar y necesitaba verificar el estado de RAID. LSI tiene una utilidad llamada sas2ircu que encontré bastante útil, también hay una versión para Windows y Linux.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.