Entonces, haré otra pregunta:
¿Por qué es necesario ejecutar el diagnóstico de hardware de HP Insight en los servidores antes del aprovisionamiento?
En mi comentario anterior, indiqué que hay poco que ganar haciendo esto de manera preventiva en entornos HP ProLiant grandes. Debería aclarar mis pensamientos sobre eso ...
En orden de frecuencia descendente, veamos los tipos de problemas que normalmente encontrará:
Matriz de almacenamiento y discos : el controlador RAID informará al sistema operativo, registros, SNMP, correo electrónico, OIT y encenderá luces bonitas para indicar el estado.
RAM : El proceso POST detectará el estado de la RAM, así como el sistema que informa al sistema operativo, los registros, SNMP, el correo electrónico, la OIT y enciende un indicador LED en la pantalla Systems Insight Display (SID) del panel frontal . Además, no soy fanático de los procesos de quemado de RAM porque la detección de errores de estos sistemas ya es sólida.
Térmica y ventiladores : la temperatura del servidor y la velocidad del ventilador están regulados por la OIT. Hay más de 30 sensores de temperatura en estos sistemas , por lo que el sistema de enfriamiento es extremadamente eficiente. Esto todavía informa al sistema operativo, registros, SNMP, correo electrónico y en el SID.
Fuente de alimentación : el estado de la fuente de alimentación se informa al sistema operativo, a los registros, a SNMP, al correo electrónico y al SID, así como a una luz indicadora real en la unidad de fuente de alimentación real.
Estado general : esto es fácil de evaluar de un vistazo con la pantalla SID, además del LED de estado interno y estado externo. Esto también se informa a los registros del servidor, SNMP, correo electrónico y OIT.
No puedo pensar en ninguna condición que se encuentre antes de la implementación que no se informe / no se pueda informar durante el tiempo de ejecución o después de la instalación del sistema operativo.
El bucle de diagnóstico generalmente no encuentra nada cuando se ejecuta en un sistema sin problemas previos obvios. Esto se debe principalmente a que el servidor necesita POST e iniciar en la utilidad o el firmware de Intelligent Provisioning para ejecutar la utilidad.
Dicho de otra manera, cualquier elemento que sea un "SPOF" serio para el servidor probablemente evitará que el sistema ejecute su autodiagnóstico.
Los elementos de falla más comunes siguen siendo bastante robustos; los discos deben estar en RAID y son intercambiables en caliente. Los ventiladores y las fuentes de alimentación también son intercambiables en caliente. Su RAM tiene umbrales de ECC y hay opciones de repuesto en línea para la mayoría de las plataformas ProLiant. No hay nada que pueda hacer para inducir una falla en estos componentes ejecutando diagnósticos. Agregue el hecho de que está utilizando gabinetes HP C7000 Blade, que tienen redundancias internas , y su incidencia de falla debería ser bastante baja.