Tengo un montón de servidores Sun X2200-M2. Estos servidores tienen memoria ECC.
En algunos de estos servidores, recibo advertencias en el eLOM sobre "errores ECC corregibles detectados", por ejemplo:
# ssh regress11 ipmitool sel elist
1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
... algunos con más frecuencia que otros.
El núcleo en este sistema en particular también arroja errores EDAC, aunque con mucha más frecuencia que el eLOM está registrando eventos ECC:
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
Ahora, si el servidor está detectando ECC no corregible, el sistema se reinicia, por lo que claramente eso es malo y eliminar / reemplazar el dispositivo o par identificado corrige el problema.
Pero estoy pensando que si el error es Correctable, entonces no hay un problema inmediato: ¿puedo tratar esto como una advertencia y estar preparado para tirar de la palanca / par si comienza a ocurrir un error que no se puede corregir?