Esto depende del hardware de su servidor. Una caja blanca o un sistema Supermicro manejarán esto de manera diferente que un Dell, HP o IBM ...
Una de las características de valor agregado de los servidores de alta gama es que hay un nivel de integración de hardware / sistema operativo. Los servidores más agradables informarán lo que está buscando como parte de los agentes de administración y / o la solución de administración fuera de banda (OIT, DRAC, IPMI).
Debe usar las herramientas nativas de su plataforma de hardware.
Extracto de un servidor HP ProLiant con Linux y los agentes de administración de HP:
Trap-ID=6056
ECC Memory Correctable Errors detected.
y
Trap-ID=6052
Advanced ECC Memory Engaged
o una más severa
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
o lo peor ... Ignorar un error durante 6 días hasta que el servidor falla debido a una RAM defectuosa
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Estos fueron registrados, además de trampas SNMP y correos electrónicos fueron enviados.
Genéricamente, verá Excepciones de comprobación de máquina en el búfer de anillo del núcleo, por lo que puede comprobar dmesg
o ejecutar mcelog . En mis experiencias con el equipo Supermicro sin IPMI, eso no captó todo, y todavía tuve errores de RAM que se escaparon y causaron interrupciones. Desafortunadamente, esto condujo a políticas arcaicas de quemado de RAM antes de las implementaciones del sistema.