Para un proyecto, tenemos 50 servidores, todos equipados (generalmente) con el mismo hardware. El problema que tenemos aquí es muy grave y ocurre en todas las máquinas. A pesar de mucho esfuerzo y contacto con los fabricantes y los desarrolladores de software, todos se señalan entre sí e incluso se niegan a darme una pista sobre lo que está sucediendo.
Primero déjame describir la configuración. Este es el hardware 'servergrade'. Para mi primera experiencia, servergrade es la mayor decepción de mi vida.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (integrado en la placa base)
- Funda personalizada de 1U o funda original SuperMicro
- Fuente de alimentación del servidor de 480 vatios o fuente de alimentación original SuperMicro de 200 vatios
- Samsung Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECC o NO ECC (pero no mezclado en el mismo servidor)
- GPU Asus GT730 4GB DDR3
- La GPU está montada con una tarjeta vertical PCIe (no cinta), sin nombre de China u original SuperMicro
Ejecutando en el sistema - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VM ejecuta tareas intensivas de GPU - Este sistema está en stock, no hay over / underclocking en absoluto
Síntomas: BSOD aleatorio 0x09c (también conocido como Machine_Check_Exception): a veces el sistema funciona durante una semana sin problemas, a veces en bloqueos después de solo 10 minutos, pero la mayoría de las veces funciona durante unas horas.
Ya probado / comprobado:
- BIOS actualizado a la última versión (creo que ahora esto mejoró el tiempo para que el sistema sea estable, pero eso podría haber sido aleatorio).
- Windows actualizado a la última versión.
- VMWare actualizado a la última versión.
- Cambié todos los componentes y probé todas las opciones diferentes, incluso probé una fuente de alimentación ATX de escritorio y SSD M.2.
- Instalé todos los sistemas desde cero con Ubuntu. No estoy familiarizado con Linux y nunca he visto un BSOD de Linux y todavía no lo hice, ya que los sistemas de servidor no tienen cabeza y probé esto en DC. RESULTADO: el sistema se bloqueará y después de reiniciar Linux informó un bloqueo XORG (relacionado con GPU)
- Cambió la configuración de GPU en BIOS a 'Por encima de 4G', el resto del BIOS es el valor predeterminado de fábrica.
También informativo:
- Los sistemas están ubicados en un centro de datos. La temperatura, el aire, la energía y la red son óptimos.
- Las temperaturas están muy por debajo del máximo de fábrica.
- Tenemos exactamente la misma configuración de software que se ejecuta en computadoras de escritorio (con hardware de escritorio). Este sistema puede funcionar bien con 1 de cada 100 PC que se cuelgan cada mes.
- Me he puesto en contacto con VMWare, y digo que este es un problema de hardware
- Me he puesto en contacto con SuperMicro, en realidad no dicen nada excepto algunas cosas y ya lo intenté y también que esto podría ser un problema de software.
Estamos desesperados aquí. La aplicación que ejecutamos por suerte es algo redundante. Si un servidor y sus máquinas virtuales caen, no es un problema, otros servidores se harán cargo de la carga en 5 minutos, pero a este ritmo, estoy obligado a estar en línea todo el día para reiniciar los servidores.
Tengo un gran conocimiento de hardware, pero esto va más allá, he buscado en esto todo el día durante más de un mes probando todo tipo de cosas diferentes. El hecho de que estas placas base se usen con proveedores de alojamiento a gran escala me hace sospechar que la placa en sí misma está bien. Este definitivamente no es un problema de hardware específico para RMA ya que las 50 placas tienen los mismos síntomas. Lo único diferente con nosotros es la GPU. Esto en combinación con el experimento de Linux me hace sospechar que esto es definitivamente algo en el carril PCIe. La GPU en sí es estable en los mobo de escritorio. A pesar de su gran capacidad de memoria, esta es una pequeña GPU que no consume mucha energía. Sospecharía de las tarjetas verticales chinas, pero, de nuevo, también usamos tarjetas verticales certificadas SuperMicro y no muestran ninguna mejora.
Estoy muy desesperado por encontrar una solución aquí. Esto comenzará con la determinación de la causa exacta. Estamos dispuestos a pagar una buena recompensa a un experto que pueda analizar algunos vertederos y darnos más detalles (o incluso mejor, una solución).
Saludos cordiales,
Simón