¿Pruebas de hardware automatizadas de servidores HP?

Como parte de los servidores de aprovisionamiento, ejecutamos Insight Diagnostics de HP para probar el hardware. Este es un proceso manual. ¿Hay alguna manera de automatizar la ejecución de Insight Diagnostics?

Existe el software hpdiags con la opción "-rd:" "Ejecutar un diagnóstico de todos los dispositivos diagnosticables". Según mis pruebas, esto no hace mucho (solo lee la información SMART de los discos). ¿Alguien ha tenido mejor suerte con eso?

Hardware: BladeCenter c7000 con cuchillas HP ProLiant BL460c, DL360s.

OS: ESXi y Ubuntu.

hardware hp hp-proliant automated-testing

— Mark Wagner
fuente

La respuesta corta es que no me molesto en hacer esto en entornos grandes. La monitorización y el diagnóstico a bordo son suficientes. Pero, ¿puede proporcionar alguna información sobre los modelos de servidor que está utilizando? Y tal vez los sistemas operativos involucrados.

— ewwhite

Actualicé el boleto con la información solicitada.

— Mark Wagner

¿Está instalando versiones específicas de HP de ESXi? ¿Está instalado HP Management Agents en los sistemas Ubuntu? ¿Qué generación (s) son los servidores? G6? G7? Gen8?

— ewwhite

Los agentes de administración de HP están instalados tanto en ESXi como en Ubuntu. Los servidores son Gen8 y serán Gen9.

— Mark Wagner

I updated the ticket with the requested info- Eso me hizo reír. Este no es el servicio de asistencia.

— joeqwerty

Entonces, haré otra pregunta:

¿Por qué es necesario ejecutar el diagnóstico de hardware de HP Insight en los servidores antes del aprovisionamiento?

En mi comentario anterior, indiqué que hay poco que ganar haciendo esto de manera preventiva en entornos HP ProLiant grandes. Debería aclarar mis pensamientos sobre eso ...

En orden de frecuencia descendente, veamos los tipos de problemas que normalmente encontrará:

Matriz de almacenamiento y discos : el controlador RAID informará al sistema operativo, registros, SNMP, correo electrónico, OIT y encenderá luces bonitas para indicar el estado.
RAM : El proceso POST detectará el estado de la RAM, así como el sistema que informa al sistema operativo, los registros, SNMP, el correo electrónico, la OIT y enciende un indicador LED en la pantalla Systems Insight Display (SID) del panel frontal . Además, no soy fanático de los procesos de quemado de RAM porque la detección de errores de estos sistemas ya es sólida.
Térmica y ventiladores : la temperatura del servidor y la velocidad del ventilador están regulados por la OIT. Hay más de 30 sensores de temperatura en estos sistemas , por lo que el sistema de enfriamiento es extremadamente eficiente. Esto todavía informa al sistema operativo, registros, SNMP, correo electrónico y en el SID.
Fuente de alimentación : el estado de la fuente de alimentación se informa al sistema operativo, a los registros, a SNMP, al correo electrónico y al SID, así como a una luz indicadora real en la unidad de fuente de alimentación real.
Estado general : esto es fácil de evaluar de un vistazo con la pantalla SID, además del LED de estado interno y estado externo. Esto también se informa a los registros del servidor, SNMP, correo electrónico y OIT.

ingrese la descripción de la imagen aquí

No puedo pensar en ninguna condición que se encuentre antes de la implementación que no se informe / no se pueda informar durante el tiempo de ejecución o después de la instalación del sistema operativo.

El bucle de diagnóstico generalmente no encuentra nada cuando se ejecuta en un sistema sin problemas previos obvios. Esto se debe principalmente a que el servidor necesita POST e iniciar en la utilidad o el firmware de Intelligent Provisioning para ejecutar la utilidad.

Dicho de otra manera, cualquier elemento que sea un "SPOF" serio para el servidor probablemente evitará que el sistema ejecute su autodiagnóstico.

Los elementos de falla más comunes siguen siendo bastante robustos; los discos deben estar en RAID y son intercambiables en caliente. Los ventiladores y las fuentes de alimentación también son intercambiables en caliente. Su RAM tiene umbrales de ECC y hay opciones de repuesto en línea para la mayoría de las plataformas ProLiant. No hay nada que pueda hacer para inducir una falla en estos componentes ejecutando diagnósticos. Agregue el hecho de que está utilizando gabinetes HP C7000 Blade, que tienen redundancias internas , y su incidencia de falla debería ser bastante baja.

— ewwhite
fuente

El problema es si (a) se detecta una falla después de la instalación del SO (es decir, el servidor está en producción), (b) la reparación no se puede hacer en línea o el componente fallido es un SPOF para el servidor, y (c) el servidor es un SPOF, entonces experimentará tiempo de inactividad (ya sea de inmediato o cuando el sistema se desmonte para repararlo). Para evitar la conclusión, debe evitar una de las condiciones. Estaba buscando (a) detectando la falla antes de la producción. Aprecio su minuciosidad al detallar las habilidades de informes, pero estoy tratando de evitar la necesidad de informarlos en primer lugar porque no suceden.

— Mark Wagner

Es probable que un ciclo de diagnóstico de HP no encuentre nada, teniendo en cuenta que el servidor necesita POST e iniciar en la utilidad o Intelligent Provisioning para ejecutar los diagnósticos. Los elementos de falla más comunes son bastante robustos; los discos, los ventiladores y las fuentes de alimentación son intercambiables en caliente, la RAM tiene umbrales de ECC. No hay nada que pueda hacer para inducir una falla en estos componentes.

— ewwhite