MTTF, MTBF, MTBR y MTBF para HP ProLiant Gen9

He estado buscando en MTTF, MTBF, MTBR y MTBF los servidores HP Gen9 que se ejecutan en nuestro entorno de producción.

Raíz de mi pregunta, debería estar preocupado o no.

Parece que no puedo obtener ningún buen dato ya que cada servidor tiene una combinación de hardware.

En mi última empresa, ejecutamos aproximadamente 2000 servidores dell r210 r410 r710. Diría que, en promedio, teníamos unos 5 servidores al día que tenían algún tipo de falla. Por lo tanto, aproximadamente el 0.25% del servidor se averió y necesitó reemplazar una pieza antes de poder volver a usarla.

En mi última empresa, todo estaba configurado en un par de HA, infraestructura N + 2, por lo que no hubo impacto en la producción. Pudimos reemplazar los servidores y continuar

En mi oficina actual, ejecutamos 9 servidores (HP Gen9, 56 VM's Hyper-V), no tenemos muchas piezas de repuesto a mano y el centro de datos no se administra, por lo que si algo muere, tenemos que conducir unos 45 minutos para reemplazar cualquier cosa.

Mi CTO o gerente de TI parecen estar preocupados, han tenido alrededor de 2.5 días de inactividad el año pasado, he estado augurando que necesitamos agrupar los servidores pero no ven la necesidad.

¿Hay algo malo o correcto aquí? No estoy seguro de qué hacer.

Sé que no es mi responsabilidad si algo sucede está en el CTO. Esta es una empresa muy pequeña, solo el CTO, el Gerente de TI, yo mismo (desarrolladores) y 1 tipo de servicio de asistencia.

En general, la experiencia en la ejecución de un entorno de producción es muy limitada, la forma en que se configuran muchas cosas llamaría un nivel muy bajo, ni mi CTO ni el Gerente de TI sabían mucho sobre la agrupación antes de llegar allí. Estaban en medio de un proyecto para configurar DR sin HA, contra el cual auguré pero perdí.

hyper-v hardware hp-proliant

— Anthony Fornito
fuente

HA cuesta dinero. Tal vez piensan que no vale la pena el dinero.

— Michael Hampton

No se preocupe por las cifras MTTF, MTBF, MTBR y MTBF ... ¿por qué se aplicarían a los detalles de su entorno?

Los servidores tienen redundancias internas y pueden ser extremadamente estables en producción. Pero eso depende de su entorno, la matriz / composición del disco, los tipos de discos, la cantidad de RAM, la configuración de la CPU, las características térmicas, la potencia, etc.

Emplear alguna forma de alta disponibilidad puede reducir el potencial de tiempo de inactividad y le brinda un lugar para cambiar sus cargas de trabajo en caso de falla.

Esta es una pregunta de riesgo financiero y operativo.

¿Quizás el costo incremental de pasar de independiente a clúster es lo suficientemente alto como para que no tenga sentido comercial? Quizás los 2.5 días de tiempo de inactividad (~ 99.3% de disponibilidad) sean lo suficientemente buenos para su operación. Debería centrarse en la protección fuera del sitio y las buenas copias de seguridad. Todos sus sistemas HP Gen9 tienen garantía del fabricante hoy, por lo que tiene acceso a las piezas. Si tiene RAID, fuentes de alimentación redundantes / ventiladores y energía estable, ha cubierto las áreas más críticas.

Piense en esto desde una perspectiva financiera y describa los riesgos, los costos asociados e intente hacer un caso comercial convincente para lo que desea.

— ewwhite
fuente