RAM en modo espejo: ¿vale la pena?

18

No estoy realmente familiarizado con el "Modo de canal reflejado" de Intel para una configuración de servidor Blade (su base de datos OLTP MySQL moderadamente pesada que se ejecuta en el blade de metal desnudo; no hay virtualización en este momento).

De los documentos de Intel pude encontrar:

El procesador Intel Xeon serie 5500 y el procesador Intel Xeon serie 5600 admiten la duplicación de canales para configurar los canales disponibles de DIMM DDR3 en la configuración reflejada. La configuración reflejada es una imagen redundante de la memoria y puede continuar funcionando a pesar de la presencia de errores esporádicos no corregibles. La duplicación de canales es una función RAS en la que se mantienen dos imágenes idénticas de datos de memoria, lo que proporciona la máxima redundancia.

En los procesadores Intel Xeon serie 5500 y procesadores Intel Xeon serie 5600 basados en placas de servidor Intel, la duplicación se logra a través de los canales. Los canales activos contienen la imagen primaria y los otros canales contienen la imagen secundaria de la memoria del sistema. El controlador de memoria integrado en los procesadores Intel Xeon Processor serie 5500 e Intel Xeon Processor serie 5600 alterna entre ambos canales para las transacciones de lectura. Las transacciones de escritura se emiten a ambos canales en circunstancias normales.

Sin embargo, realmente no estoy recogiendo lo que están poniendo aquí abajo. ¿Pierdo la mitad de mi capacidad de almacenamiento, pero obtengo "redundancia" de memoria y posibles beneficios de rendimiento de lectura / escritura? ¿Te gusta RAID 1 para RAM? ¿Alguien tiene alguna experiencia práctica con esta configuración?

memory

— salsa
fuente

7

Personalmente, preferiría utilizar algún tipo de agrupación en lugar de ese nivel de resistencia de hardware. Tiene sentido que los componentes de cheapo, como los discos, se dupliquen en ellos, pero duplicar la memoria es algo agradable pero no tan útil. Me refiero a lo que es más probable que falle; una CPU, tu sistema operativo, tu software, tu mobo, tus PSU / s. Preferiría poner el dinero para la agrupación.

— Chopper3
fuente

1

Mis pensamientos exactamente: aunque ciertamente son útiles para un punto de falla muy específico, podría marcar muchos más "cuadros" de HA yendo a la ruta de agrupamiento con otro blade o dos (y probablemente otro chasis en otro centro de datos).

— gravyface

1

la agrupación en clústeres no lo ayudará cuando los cálculos tengan que hacerse a tiempo o dentro de un marco de trabajo. En algunas situaciones, la conmutación por error lleva más tiempo que la operación que se requiere realizar

— Jim B

7

"RAID 1 para RAM" es una descripción precisa. En mi experiencia, no hay muchos beneficios de rendimiento, pero dependiendo de la velocidad del bus frente a la velocidad de los módulos, su kilometraje puede variar.

En cuanto a la redundancia ... bueno, no es muy frecuente que un módulo salga mal.

Personalmente, apago el espejo cada vez que lo veo habilitado.

— Shane Madden
fuente

2

gracias Shane ¿Alguna vez ha realizado alguna evaluación comparativa antes / después?

— gravyface

@gravyface No puedo decir que sí, desafortunadamente; simplemente no he notado un rendimiento perceptible diferente en comparación con apagado (en servidores de bases de datos y hosts vm) Algunos números difíciles definitivamente serían buenos.

— Shane Madden

2

Voy a hacer algunos puntos de referencia entonces. A ver si hace la diferencia. No puedo decir que el beneficio de corrección de errores suene como un beneficio tangible, pero tengo curiosidad por ver cómo funciona. Voy a esperar un par de días para obtener respuestas adicionales y luego marcaré esto como correcto.

— gravyface

Veo que los dimms salen mal regularmente, sin embargo, dado el tamaño del entorno, debería ver 1 dimm cada 2 semanas (estadísticamente hablando)

— Jim B

4

He leído que este tipo de cosas (también puedes hacerlo con CPU) es muy útil en los grandes grupos de supercomputadoras.

Algunos de estos clústeres están ejecutando tantas máquinas que habrá un fallo de la máquina cada dos horas. Más rápido de lo que los trabajos pueden completar. Eso realmente arruina el cálculo. Agregar redundancia como esta a cada nodo puede duplicar el tiempo entre fallas.

— Zan Lynx
fuente

así que esto es algo de alta gama que ahora llega a la corriente principal, lo entiendo. Realmente no veo mucho valor para mis necesidades. Gracias sin embargo.

— gravyface

Sí, es de gama alta. Espere hasta que obtenga CPU de conexión en caliente Y ESPEJO DE CPU (!) En una PC;) Los mainframes pueden cambiar a otra CPU cuando falla uno.

— TomTom

3

Este modo de memoria fue realmente diseñado para situaciones en las que necesita una alta disponibilidad. No debería ver mucha diferencia de rendimiento (ya que la pérdida de un canal probablemente no se nota en las operaciones normales), sin embargo, en realidad pierde mucho ram. Con la duplicación habilitada, solo un tercio de la memoria total está disponible para su uso porque dos ranuras DIMM son el canal principal, dos ranuras DIMM son el canal de respaldo y no se utilizan dos ranuras DIMM. (al menos así es en IBM)

Por lo general, recomiendo que se apague (si tiene una aplicación o un sistema operativo que le guste ram, y seamos sinceros: ¿hay alguno que no lo haga?) O guarde para actualizar al chipset ex5 de IBM (hp y otros pronto) para seguir con ofertas similares) que agrega un bote cargado más QPI.

Ocasionalmente, "este servidor tiene que estar activo independientemente de la cantidad de disparos" y este tipo de redundancia ayuda. Además de haber comprado un carnero de calidad inferior a estelar, esto podría salvarlo de una pantalla azul o 2.

— Jim B
fuente

Sí, no veo mucha necesidad de esto en este momento. Obviamente, a nadie le gusta el tiempo de inactividad, pero cuando abordemos HA, seguramente veremos la agrupación.

— gravyface

1

esto en respuesta a su "vea un DIMM malo cada dos semanas" - ¿con qué frecuencia está viendo DIMM malos después del período de gracia? No recuerdo haber tenido RAM mal una vez en producción; Usualmente lo noto las primeras horas / días bajo la carga de trabajo típica.

— gravyface

Nuestros resultados reflejan la tasa que Google ve cs.toronto.edu/~bianca/papers/sigmetrics09.pdf . Tenemos servidores configurados de manera similar: placas completamente pobladas con muchos dimms y aplicaciones que requieren mucha memoria. Al observar 1 de mis entornos vmware, veo 3 dimms malos en 18 hs22vs (324 dimms) de IBM completamente poblados. Estos servidores han estado funcionando durante aproximadamente un año.

— Jim B