¿Qué tan en serio debo tomar las advertencias de error corregibles de ECC?

Tengo un montón de servidores Sun X2200-M2. Estos servidores tienen memoria ECC.

En algunos de estos servidores, recibo advertencias en el eLOM sobre "errores ECC corregibles detectados", por ejemplo:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... algunos con más frecuencia que otros.

El núcleo en este sistema en particular también arroja errores EDAC, aunque con mucha más frecuencia que el eLOM está registrando eventos ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Ahora, si el servidor está detectando ECC no corregible, el sistema se reinicia, por lo que claramente eso es malo y eliminar / reemplazar el dispositivo o par identificado corrige el problema.

Pero estoy pensando que si el error es Correctable, entonces no hay un problema inmediato: ¿puedo tratar esto como una advertencia y estar preparado para tirar de la palanca / par si comienza a ocurrir un error que no se puede corregir?

ecc

— David Mackintosh
fuente

Depende de con qué frecuencia obtiene el error. Por una variedad de razones, ECC debería corregir errores de un solo bit aproximadamente una vez al año en promedio. Si los obtiene significativamente más rápido que eso, o si son errores de varios bits, debe preocuparse (reemplazaría la RAM lo antes posible).

Además, el ECC no es perfecto. Es posible que el error acumulativo pase ECC; eso aparecería como un bloqueo del sistema operativo o un problema similar.

— Chris S
fuente

Gracias. Negociación con el cliente para financiar reemplazos.

— David Mackintosh