He estado buscando en MTTF, MTBF, MTBR y MTBF los servidores HP Gen9 que se ejecutan en nuestro entorno de producción.
Raíz de mi pregunta, debería estar preocupado o no.
Parece que no puedo obtener ningún buen dato ya que cada servidor tiene una combinación de hardware.
En mi última empresa, ejecutamos aproximadamente 2000 servidores dell r210 r410 r710. Diría que, en promedio, teníamos unos 5 servidores al día que tenían algún tipo de falla. Por lo tanto, aproximadamente el 0.25% del servidor se averió y necesitó reemplazar una pieza antes de poder volver a usarla.
En mi última empresa, todo estaba configurado en un par de HA, infraestructura N + 2, por lo que no hubo impacto en la producción. Pudimos reemplazar los servidores y continuar
En mi oficina actual, ejecutamos 9 servidores (HP Gen9, 56 VM's Hyper-V), no tenemos muchas piezas de repuesto a mano y el centro de datos no se administra, por lo que si algo muere, tenemos que conducir unos 45 minutos para reemplazar cualquier cosa.
Mi CTO o gerente de TI parecen estar preocupados, han tenido alrededor de 2.5 días de inactividad el año pasado, he estado augurando que necesitamos agrupar los servidores pero no ven la necesidad.
¿Hay algo malo o correcto aquí? No estoy seguro de qué hacer.
Sé que no es mi responsabilidad si algo sucede está en el CTO. Esta es una empresa muy pequeña, solo el CTO, el Gerente de TI, yo mismo (desarrolladores) y 1 tipo de servicio de asistencia.
En general, la experiencia en la ejecución de un entorno de producción es muy limitada, la forma en que se configuran muchas cosas llamaría un nivel muy bajo, ni mi CTO ni el Gerente de TI sabían mucho sobre la agrupación antes de llegar allí. Estaban en medio de un proyecto para configurar DR sin HA, contra el cual auguré pero perdí.